Skip to main content
🔬 Advanced

Varianskalkylator – Populations- och stickprovsvarians

Beräkna varians och standardavvikelse för en datamängd. Stöder populations- och stickprovsvarians. Gratis online-statistikkalkylator för omedelbara resultat.

Variansen

Variansen mäter utbredningen av en datamängd — hur långt värdena är från medelvärdet. En låg varians betyder att data punkterna samlas runt medelvärdet; en hög varians betyder att de är spridda långt ifrån varandra.

Variansen beräknas som medelvärdet av kvadrerade skillnader från medelvärdet:

Varje xᵢ är en data punkt, μ (eller x̄) är medelvärdet och N är antalet värden. Standardavvikelsen är enkelt sagt rötterna av variansen — den är i samma enhet som den ursprungliga datan, vilket gör den mer tolkbar.

Varför kvadreras skillnaderna? Två skäl: (1) kvadreringen tar bort negativa värden så att avvikelser över och under medelvärdet inte avrundar ut, och (2) kvadreringen ger oproportionerlig vikt till utbuktande värden, vilket gör variansen känslig för extrema värden. Denna egenskap är både en styrka (utbuktande värden) och en svaghet (utbuktande känslighet). För data med extrema utbuktande värden, överväg att använda median absolut avvikelse (MAD) som en mer robust alternativ.

Population vs. Procentuell Varians

Den viktigaste skillnaden är den nämnare — N vs. (N−1) — känd som Bessels korrigering:

TypNämnareAnvänd närSymbol
Population VariansNDu har data på hela populationenσ²
Procentuell VariansN−1Du har en provtagning från en större population

I praktiken är de flesta verkliga data en provtagning. Användning av N−1 (procentuell varians) ger en obestämd uppskattning av den verkliga populationens varians. Användning av N (population varians) på en provtagning systematiskt underuppskattar den verkliga variansen.

Exempel: Testning av ett nytt läkemedel på 50 patienter innebär att använda procentuell varians (s²). Analys av alla elever i en klass innebär att använda population varians (σ²).

Varför fungerar Bessels korrigering? När du beräknar medelvärdet använder du en "grad av frihet" — medelvärdet beräknas från datan själv, så avvikelserna från medelvärdet är inte fullständigt oberoende. Delning med (N−1) i stället för N kompenserar för denna förlust av en grad av frihet, vilket ger en obestämd uppskattning av populationens varians. När N växer stor, blir skillnaden mellan N och N−1 obetydlig.

Steg-för-steg variansberäkning

Med datamängden: 4, 7, 13, 2, 8

  1. Beräkna medelvärdet: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
  2. Hitta avvikelser från medelvärdet: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
  3. Kvadrera avvikelserna: 7,84; 0,04; 38,44; 23,04; 1,44
  4. Summa av kvadrerade avvikelser: 7,84+0,04+38,44+23,04+1,44 = 70,8
  5. Population varians: 70,8 ÷ 5 = 14,16
  6. Procentuell varians: 70,8 ÷ 4 = 17,7
  7. Standardavvikelse: √14,16 = 3,76 (population) eller √17,7 = 4,21 (procentuell)

Snabbformel för varians

Det finns en ekvivalent "beräknings" formel som undviker att beräkna avvikelser explicit, användbar när beräkning sker manuellt eller i kalkylblad:

σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N

För procentuell varians: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)

Med vårt exempeldata (4, 7, 13, 2, 8):

  1. Σxᵢ = 34, så (Σxᵢ)² = 1 156
  2. Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
  3. Population varians = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16
  4. Procentuell varians = 70,8 / 4 = 17,7

Denna formel är numeriskt identisk men kan lida av fluktueringsproblem vid beräkning med stora värden. För beräkningsstabilitet föredrar man Welfords online-algoritm (som behandlar en värde i taget) i programvaruimplementeringar.

Relaterade statistiska mått

Varians är ett av flera mått på spridning. Varje har olika styrkor:

MåttFormelEnheterTålighet mot utbuktningarBäst för
Varians (σ² eller s²)Medelvärde av kvadrerade avvikelserQuadrierade enheterLåg — mycket känsligTeoretisk statistik, ANOVA
Standardavvikelse (σ eller s)√VariansSamma som dataLågRedovisning av spridning i ursprungliga enheter
IntervalMax − MinSamma som dataMycket lågSnabb kontroll, små prover
Interkvartilavvikelse (IQR)Q3 − Q1Samma som dataHögSkruvade fördelningar, boxdiagram
Medel absolut avvikelse (MAD)Medelvärde av |xᵢ − medelvärde|Samma som dataModeratIntuitivt mått på spridning
Koefficient av variation (CV)(SD / Medelvärde) × 100%ProcentLågJämförelse av spridning över olika skalor

För normala (kägelliknande) fördelningar har standardavvikelsen en särskild tolkning: cirka 68% av data faller inom ±1 SD från medelvärdet, 95% inom ±2 SD, och 99,7% inom ±3 SD. Detta är den empiriska regeln (68-95-99,7-regeln).

Varians i kalkylblad och programmering

De flesta verktyg har inbyggda variansfunktioner. Se till att välja rätt version (population vs. sample):

VerktygProbenvariansPopulation varians
Excel / Google SheetsVAR.S(range) eller VAR(range)VAR.P(range) eller VARP(range)
Python (NumPy)np.var(data, ddof=1)np.var(data)
Python (statistics)statistics.variance(data)statistics.pvariance(data)
Rvar(x)var(x) * (n-1)/n
JavaScriptManuell beräkning (inget inbyggt)Manuell beräkning
SQL (PostgreSQL)VAR_SAMP(column)VAR_POP(column)
MATLABvar(x)var(x, 1)

Not: Pythons NumPy använder population varians som standard (ddof=0), medan R:s var() använder sample varians. Detta är en vanlig källa till förvirring när man jämför resultat över olika språk.

Praktiska tillämpningar av varians

FältTillämpningExempel
FinansInvesteringsriskStor varians = mer volatila aktieavkastningar
IndustriKvalitetskontrollLåg varians = konsekvent produktstorlek
MedicinKliniska prövningarMätning av variabilitet i patienters svar
SportsvetenskapPrestandanalysVariabilitet i idrottarens prestation under säsongen
UtbildningTestresultatFörståelse av spridning av elevers prestation

Varians i finans: Portföljrisken

I finansen mäter varians och standardavvikelse investeringsrisk. Högre varians betyder att avkastningarna fluktuerar mer — investeringen är mer riskabel. Harry Markowitz' Modern Portföljteori (1952, Nobelpris 1990) använder varians som centrala riskmått.

För en portfölj av två tillgångar beror den kombinerade variansen på individuella varianser och korrelationen mellan tillgångarna:

σ²portfölj = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂

Var w = vikt, σ² = varians och ρ = korrelation. När ρ < 1 (tillgångarna rör sig inte i perfekt synkronisering) är portföljens varians mindre än den viktade medelvärdet av individuella varianser. Detta är den matematiska grunden för diversifiering — kombination av oberoende tillgångar minskar totalrisken utan proportionellt att minska förväntad avkastning.

Tillgångsklass (2000–2023)Årlig avkastningÅrlig SD (Volatilitet)
US Stora Kapital (S&P 500)~7,5%~15%
US Liten Kapital (Russell 2000)~7,0%~20%
Internationell utvecklad (EAFE)~4,5%~17%
US Obligationer (Aggregat)~4,0%~4%
Guld~8,0%~16%

Ett portfölj som kombinerar aktier och obligationer har en standardavvikelse betydligt lägre än aktier ensamma, medan den fortfarande fångar de flesta av aktieavkastningspremien.

Varians i kvalitetskontroll (Six Sigma)

Industrin använder varians för att kontrollera produktkvalitet. Six Sigma-metodiken, utvecklad av Motorola i början av 1980-talet, syftar till att minska processvariansen tills nästan inga produkter faller utanför specifikationsgränser.

Sigma-nivåDefekter per miljon (DPMO)AvkastningProcessförmåga (Cpk)
691 46230,9%0,33
308 53869,1%0,67
66 80793,3%1,00
6 21099,38%1,33
23399,977%1,67
3,499,99966%2,00

Ett process som fungerar på 6σ producerar endast 3,4 defekter per miljon möjligheter. Processförmågan Cpk är direkt relaterad till variansen: Cpk = (USL − μ) / (3σ), där USL är den övre specifikationsgränsen. Minskning av variansen (genom bättre maskiner, utbildning eller material) ökar Cpk och driver processen mot Six Sigma-kvalitet.

Arbetsexempel från olika områden

De här verkliga världsexemplet visar hur variansen beräknas och tolkas i praktiken:

Exempel 1: Aktieavkastningsvolatilitet

Månadsavkastning för en aktie under 6 månader: +3,2%, −1,5%, +4,8%, −0,7%, +2,1%, +1,6%

  1. Medelvärde = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
  2. Avvikelser: 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
  3. Upptagna: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
  4. Summa av upptagna = 27,947
  5. Procentuell varians = 27,947/5 = 5,589 (%²)
  6. Standardavvikelse = √5,589 = 2,364% per månad
  7. Årlig volatilitet ≈ 2,364% × √12 = 8,19%

Denna aktie har medelvolatilitet. S&P 500 har historiskt sett ~15% årlig volatilitet, så denna aktie är ungefär halva så volatil som breda marknaden.

Exempel 2: Tillverkningskvalitetskontroll

Ett verk har tillverkat spikar med mål längd 50,00 mm. En provtagning av 8 spikar mäter: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

  1. Medelvärde = 400,05/8 = 50,00625 mm
  2. Procentuell varians = 0,000655 mm²
  3. Standardavvikelse = 0,0256 mm
  4. Med specifikationer på 50,00 ± 0,10 mm: Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22

Ett Cpk på 1,22 betyder att processen är kapabel men har liten marginal. Industristandarden mål är Cpk ≥ 1,33 (4σ-förmåga), så denna process behöver ha tätare kontroll för att uppnå det nivån.

Exempel 3: Studenters provresultat

Ett klass på 10 elever fick följande poäng på ett prov: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73.

  1. Medelvärde = 810/10 = 81,0
  2. Population varians (hela klassen) = 72,2
  3. Standardavvikelse = 8,50
  4. Koefficient av variation = 8,50/81,0 × 100% = 10,5%

Ett CV på 10,5% indikerar en medelvolatilitet – de flesta eleverna presterade inom en rimlig räckvidd av medelvärdet. Om CV översteg 25% skulle läraren kunna undersöka om provet hade frågor som var för svåra för vissa elever eller om det fanns en bimodal fördelning (två distinkta grupper).

Vanliga fel när man beräknar varians

Undvik dessa vanliga fel:

FelVarför det är felKorrektion
Använda N istället för N−1 för proverUnderuppskattar den verkliga populationens variansAnvänd N−1 för alla data som är ett urval från en större population
Måla absoluta avvikelser istället för att upptaGer MAD, inte variansUppta varje avvikelse, sedan beräkna medelvärde. Ta √ för standardavvikelse
Glöm att uppta innan medelvärdePositiva och negativa avvikelser avvecklas, ger ~0Uppta alltid avvikelserna först
Jämföra varians över olika skalorVarians beroende på enheter; $² ≠ kg²Använd koefficient av variation (CV) för jämförelse över skalor
Anta att varians = standardavvikelseVarians är SD²; enheter är kvadreradeTa √ för varians för att få SD

ANOVA: Jämförelse av Varians mellan Grupper

Analys av Varians (ANOVA) är en statistisk test som jämför medelvärden för flera grupper genom att analysera varians. Trots namnet testar det om medelvärdena skiljer sig åt, inte om varianserna skiljer sig åt.

ANOVA delar upp totala variansen i två komponenter:

F-statistiken = Varians mellan grupper / Varians inom grupper. Ett stort F betyder att grupperna är mer olika från varandra än förväntat av slumpen. Om F överstiger kritiska värdet (eller p < 0,05), är minst en gruppmedelvärde signifikant olika.

Exempel: Jämförelse av provresultat för elever som undervisats med tre olika metoder. ANOVA säger dig om undervisningsmetoden spelar roll; post-hoc-tester (Tukey, Bonferroni) säger dig vilka metoder som skiljer sig.

💡 Vet du?

Ofta ställda frågor

Vad är skillnaden mellan varians och standardavvikelse?

Varians är medelvärdet av kvadrerade avvikelser från medelvärdet; standardavvikelsen är dess kvadratrots. Standardavvikelsen är i samma enheter som den ursprungliga datan (t.ex. dollar, kg, sekunder), vilket gör den mer lättförståelig. Variansen är användbar i matematiska operationer (varianser av oberoende variabler läggs direkt), medan standardavvikelsen är bättre för att beskriva spridning till en icke-teknisk publik.

När ska jag använda sampel- vs. population varians?

Använd population varians när datan innehåller alla medlemmar i gruppen du analyserar (t.ex. alla anställda i ett företag). Använd sampel varians när datan är en delmängd av en större grupp (t.ex. en enkätundersökning av 500 väljare för att uppskatta alla väljares åsikter). I de flesta verkliga forsknings- och statistiska sammanhang är sampel varians lämplig.

Kan variansen vara negativ?

Nej. Variansen är alltid noll eller positiv eftersom den beräknas från kvadrerade värden. Variansen är 0 endast när alla datapunkter är identiska (ingen spridning). En negativ varians är matematiskt omöjlig och indikerar ett beräkningfel.

Vad är en "hög" eller "låg" varians?

Hög och låg är relativt till skalan och sammanhanget för datan. En varians på 10 är "låg" för människohöjd i cm men "hög" för höjd i meter. Koefficienten för variation (SD / medelvärde × 100%) är skaloberoende och tillåter jämförelse över olika datamängder. I kvalitetskontroll definieras acceptabla variansområden för varje mätning.

Hur relaterar variansen till den normala distributionen?

Den normala (Gaussiska) distributionen beskrivs fullständigt av bara två parametrar: medelvärdet (μ) och variansen (σ²). Den bekanta s.k. "bellskurvan" är bredare när variansen är stor och smalare när variansen är liten. För normala data gäller det empiriska regeln: 68,3% inom ±1σ, 95,4% inom ±2σ och 99,7% inom ±3σ. Många statistiska tester (t-test, ANOVA, regression) antar att datan följer en normal distribution eller att sampelmäden är ungefär normala (via Central Limit Theoremet).

Vad är poolad varians?

Poolad varians är en viktad medelvärdesblandning av sampelvarianser från två eller flera grupper, använd i två-sampelt-testet när man antar lika varianser över grupperna. Formeln är: s²poolad = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Detta producerar ett enda variansuppskattning som innehåller information från båda sampel, vilket ökar statistisk kraft när lika-varians-anteckningen är giltig.