🔬 Advanced

Varianskalkylator – Populations- och stickprovsvarians

Beräkna varians och standardavvikelse för en datamängd. Stöder populations- och stickprovsvarians. Gratis online-statistikkalkylator för omedelbara resultat.

Variansen

Variansen mäter utbredningen av en datamängd — hur långt värdena är från medelvärdet. En låg varians betyder att data punkterna samlas runt medelvärdet; en hög varians betyder att de är spridda långt ifrån varandra.

Variansen beräknas som medelvärdet av kvadrerade skillnader från medelvärdet:

Population varians (σ²): σ² = Σ(xᵢ − μ)² / N
Procentuell varians (s²): s² = Σ(xᵢ − x̄)² / (N−1)

Varje xᵢ är en data punkt, μ (eller x̄) är medelvärdet och N är antalet värden. Standardavvikelsen är enkelt sagt rötterna av variansen — den är i samma enhet som den ursprungliga datan, vilket gör den mer tolkbar.

Varför kvadreras skillnaderna? Två skäl: (1) kvadreringen tar bort negativa värden så att avvikelser över och under medelvärdet inte avrundar ut, och (2) kvadreringen ger oproportionerlig vikt till utbuktande värden, vilket gör variansen känslig för extrema värden. Denna egenskap är både en styrka (utbuktande värden) och en svaghet (utbuktande känslighet). För data med extrema utbuktande värden, överväg att använda median absolut avvikelse (MAD) som en mer robust alternativ.

Population vs. Procentuell Varians

Den viktigaste skillnaden är den nämnare — N vs. (N−1) — känd som Bessels korrigering:

Typ	Nämnare	Använd när	Symbol
Population Varians	N	Du har data på hela populationen	σ²
Procentuell Varians	N−1	Du har en provtagning från en större population	s²

I praktiken är de flesta verkliga data en provtagning. Användning av N−1 (procentuell varians) ger en obestämd uppskattning av den verkliga populationens varians. Användning av N (population varians) på en provtagning systematiskt underuppskattar den verkliga variansen.

Exempel: Testning av ett nytt läkemedel på 50 patienter innebär att använda procentuell varians (s²). Analys av alla elever i en klass innebär att använda population varians (σ²).

Varför fungerar Bessels korrigering? När du beräknar medelvärdet använder du en "grad av frihet" — medelvärdet beräknas från datan själv, så avvikelserna från medelvärdet är inte fullständigt oberoende. Delning med (N−1) i stället för N kompenserar för denna förlust av en grad av frihet, vilket ger en obestämd uppskattning av populationens varians. När N växer stor, blir skillnaden mellan N och N−1 obetydlig.

Steg-för-steg variansberäkning

Med datamängden: 4, 7, 13, 2, 8

Beräkna medelvärdet: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
Hitta avvikelser från medelvärdet: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
Kvadrera avvikelserna: 7,84; 0,04; 38,44; 23,04; 1,44
Summa av kvadrerade avvikelser: 7,84+0,04+38,44+23,04+1,44 = 70,8
Population varians: 70,8 ÷ 5 = 14,16
Procentuell varians: 70,8 ÷ 4 = 17,7
Standardavvikelse: √14,16 = 3,76 (population) eller √17,7 = 4,21 (procentuell)

Snabbformel för varians

Det finns en ekvivalent "beräknings" formel som undviker att beräkna avvikelser explicit, användbar när beräkning sker manuellt eller i kalkylblad:

σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N

För procentuell varians: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)

Med vårt exempeldata (4, 7, 13, 2, 8):

Σxᵢ = 34, så (Σxᵢ)² = 1 156
Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
Population varians = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16 ✓
Procentuell varians = 70,8 / 4 = 17,7 ✓

Denna formel är numeriskt identisk men kan lida av fluktueringsproblem vid beräkning med stora värden. För beräkningsstabilitet föredrar man Welfords online-algoritm (som behandlar en värde i taget) i programvaruimplementeringar.

Relaterade statistiska mått

Varians är ett av flera mått på spridning. Varje har olika styrkor:

Mått	Formel	Enheter	Tålighet mot utbuktningar	Bäst för
Varians (σ² eller s²)	Medelvärde av kvadrerade avvikelser	Quadrierade enheter	Låg — mycket känslig	Teoretisk statistik, ANOVA
Standardavvikelse (σ eller s)	√Varians	Samma som data	Låg	Redovisning av spridning i ursprungliga enheter
Interval	Max − Min	Samma som data	Mycket låg	Snabb kontroll, små prover
Interkvartilavvikelse (IQR)	Q3 − Q1	Samma som data	Hög	Skruvade fördelningar, boxdiagram
Medel absolut avvikelse (MAD)	Medelvärde av \|xᵢ − medelvärde\|	Samma som data	Moderat	Intuitivt mått på spridning
Koefficient av variation (CV)	(SD / Medelvärde) × 100%	Procent	Låg	Jämförelse av spridning över olika skalor

För normala (kägelliknande) fördelningar har standardavvikelsen en särskild tolkning: cirka 68% av data faller inom ±1 SD från medelvärdet, 95% inom ±2 SD, och 99,7% inom ±3 SD. Detta är den empiriska regeln (68-95-99,7-regeln).

Varians i kalkylblad och programmering

De flesta verktyg har inbyggda variansfunktioner. Se till att välja rätt version (population vs. sample):

Verktyg	Probenvarians	Population varians
Excel / Google Sheets	`VAR.S(range)` eller `VAR(range)`	`VAR.P(range)` eller `VARP(range)`
Python (NumPy)	`np.var(data, ddof=1)`	`np.var(data)`
Python (statistics)	`statistics.variance(data)`	`statistics.pvariance(data)`
R	`var(x)`	`var(x) * (n-1)/n`
JavaScript	Manuell beräkning (inget inbyggt)	Manuell beräkning
SQL (PostgreSQL)	`VAR_SAMP(column)`	`VAR_POP(column)`
MATLAB	`var(x)`	`var(x, 1)`

Not: Pythons NumPy använder population varians som standard (ddof=0), medan R:s var() använder sample varians. Detta är en vanlig källa till förvirring när man jämför resultat över olika språk.

Praktiska tillämpningar av varians

Fält	Tillämpning	Exempel
Finans	Investeringsrisk	Stor varians = mer volatila aktieavkastningar
Industri	Kvalitetskontroll	Låg varians = konsekvent produktstorlek
Medicin	Kliniska prövningar	Mätning av variabilitet i patienters svar
Sportsvetenskap	Prestandanalys	Variabilitet i idrottarens prestation under säsongen
Utbildning	Testresultat	Förståelse av spridning av elevers prestation

Varians i finans: Portföljrisken

I finansen mäter varians och standardavvikelse investeringsrisk. Högre varians betyder att avkastningarna fluktuerar mer — investeringen är mer riskabel. Harry Markowitz' Modern Portföljteori (1952, Nobelpris 1990) använder varians som centrala riskmått.

För en portfölj av två tillgångar beror den kombinerade variansen på individuella varianser och korrelationen mellan tillgångarna:

σ²_portfölj = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂

Var w = vikt, σ² = varians och ρ = korrelation. När ρ < 1 (tillgångarna rör sig inte i perfekt synkronisering) är portföljens varians mindre än den viktade medelvärdet av individuella varianser. Detta är den matematiska grunden för diversifiering — kombination av oberoende tillgångar minskar totalrisken utan proportionellt att minska förväntad avkastning.

Tillgångsklass (2000–2023)	Årlig avkastning	Årlig SD (Volatilitet)
US Stora Kapital (S&P 500)	~7,5%	~15%
US Liten Kapital (Russell 2000)	~7,0%	~20%
Internationell utvecklad (EAFE)	~4,5%	~17%
US Obligationer (Aggregat)	~4,0%	~4%
Guld	~8,0%	~16%

Ett portfölj som kombinerar aktier och obligationer har en standardavvikelse betydligt lägre än aktier ensamma, medan den fortfarande fångar de flesta av aktieavkastningspremien.

Varians i kvalitetskontroll (Six Sigma)

Industrin använder varians för att kontrollera produktkvalitet. Six Sigma-metodiken, utvecklad av Motorola i början av 1980-talet, syftar till att minska processvariansen tills nästan inga produkter faller utanför specifikationsgränser.

Sigma-nivå	Defekter per miljon (DPMO)	Avkastning	Processförmåga (Cpk)
1σ	691 462	30,9%	0,33
2σ	308 538	69,1%	0,67
3σ	66 807	93,3%	1,00
4σ	6 210	99,38%	1,33
5σ	233	99,977%	1,67
6σ	3,4	99,99966%	2,00

Ett process som fungerar på 6σ producerar endast 3,4 defekter per miljon möjligheter. Processförmågan Cpk är direkt relaterad till variansen: Cpk = (USL − μ) / (3σ), där USL är den övre specifikationsgränsen. Minskning av variansen (genom bättre maskiner, utbildning eller material) ökar Cpk och driver processen mot Six Sigma-kvalitet.

Arbetsexempel från olika områden

De här verkliga världsexemplet visar hur variansen beräknas och tolkas i praktiken:

Exempel 1: Aktieavkastningsvolatilitet

Månadsavkastning för en aktie under 6 månader: +3,2%, −1,5%, +4,8%, −0,7%, +2,1%, +1,6%

Medelvärde = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
Avvikelser: 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
Upptagna: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
Summa av upptagna = 27,947
Procentuell varians = 27,947/5 = 5,589 (%²)
Standardavvikelse = √5,589 = 2,364% per månad
Årlig volatilitet ≈ 2,364% × √12 = 8,19%

Denna aktie har medelvolatilitet. S&P 500 har historiskt sett ~15% årlig volatilitet, så denna aktie är ungefär halva så volatil som breda marknaden.

Exempel 2: Tillverkningskvalitetskontroll

Ett verk har tillverkat spikar med mål längd 50,00 mm. En provtagning av 8 spikar mäter: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

Medelvärde = 400,05/8 = 50,00625 mm
Procentuell varians = 0,000655 mm²
Standardavvikelse = 0,0256 mm
Med specifikationer på 50,00 ± 0,10 mm: Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22

Ett Cpk på 1,22 betyder att processen är kapabel men har liten marginal. Industristandarden mål är Cpk ≥ 1,33 (4σ-förmåga), så denna process behöver ha tätare kontroll för att uppnå det nivån.

Exempel 3: Studenters provresultat

Ett klass på 10 elever fick följande poäng på ett prov: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73.

Medelvärde = 810/10 = 81,0
Population varians (hela klassen) = 72,2
Standardavvikelse = 8,50
Koefficient av variation = 8,50/81,0 × 100% = 10,5%

Ett CV på 10,5% indikerar en medelvolatilitet – de flesta eleverna presterade inom en rimlig räckvidd av medelvärdet. Om CV översteg 25% skulle läraren kunna undersöka om provet hade frågor som var för svåra för vissa elever eller om det fanns en bimodal fördelning (två distinkta grupper).

Vanliga fel när man beräknar varians

Undvik dessa vanliga fel:

Fel	Varför det är fel	Korrektion
Använda N istället för N−1 för prover	Underuppskattar den verkliga populationens varians	Använd N−1 för alla data som är ett urval från en större population
Måla absoluta avvikelser istället för att uppta	Ger MAD, inte varians	Uppta varje avvikelse, sedan beräkna medelvärde. Ta √ för standardavvikelse
Glöm att uppta innan medelvärde	Positiva och negativa avvikelser avvecklas, ger ~0	Uppta alltid avvikelserna först
Jämföra varians över olika skalor	Varians beroende på enheter; $² ≠ kg²	Använd koefficient av variation (CV) för jämförelse över skalor
Anta att varians = standardavvikelse	Varians är SD²; enheter är kvadrerade	Ta √ för varians för att få SD

ANOVA: Jämförelse av Varians mellan Grupper

Analys av Varians (ANOVA) är en statistisk test som jämför medelvärden för flera grupper genom att analysera varians. Trots namnet testar det om medelvärdena skiljer sig åt, inte om varianserna skiljer sig åt.

ANOVA delar upp totala variansen i två komponenter:

Varians mellan grupper: Hur mycket medelvärdena skiljer sig från det totala medelvärdet
Varians inom grupper: Hur mycket enskilda värden varierar inom varje grupp

F-statistiken = Varians mellan grupper / Varians inom grupper. Ett stort F betyder att grupperna är mer olika från varandra än förväntat av slumpen. Om F överstiger kritiska värdet (eller p < 0,05), är minst en gruppmedelvärde signifikant olika.

Exempel: Jämförelse av provresultat för elever som undervisats med tre olika metoder. ANOVA säger dig om undervisningsmetoden spelar roll; post-hoc-tester (Tukey, Bonferroni) säger dig vilka metoder som skiljer sig.

💡 Vet du?

Varians introducerades av Ronald Fisher 1918 — samma artikel där han myntade begreppet "varians."
I finansvärlden är varians grund för Modern Portfolio Theory. En portföljens varians beror inte bara på enskilda tillgångars varians, utan också på korrelationer mellan tillgångarna.
Det koefficient av variation (CV = standardavvikelse / medelvärde × 100%) låter dig jämföra variabiliteten mellan datamängder med olika enheter eller skalor.
Chebyshevs olikhet garanterar att för alla fördelningar (inte bara normalfördelningen), minst 75% av data faller inom ±2 standardavvikelser och minst 89% inom ±3 standardavvikelser. Detta är svagare än det empiriska regeln men gäller allmänt.

Ofta ställda frågor

Vad är skillnaden mellan varians och standardavvikelse?

Varians är medelvärdet av kvadrerade avvikelser från medelvärdet; standardavvikelsen är dess kvadratrots. Standardavvikelsen är i samma enheter som den ursprungliga datan (t.ex. dollar, kg, sekunder), vilket gör den mer lättförståelig. Variansen är användbar i matematiska operationer (varianser av oberoende variabler läggs direkt), medan standardavvikelsen är bättre för att beskriva spridning till en icke-teknisk publik.

När ska jag använda sampel- vs. population varians?

Använd population varians när datan innehåller alla medlemmar i gruppen du analyserar (t.ex. alla anställda i ett företag). Använd sampel varians när datan är en delmängd av en större grupp (t.ex. en enkätundersökning av 500 väljare för att uppskatta alla väljares åsikter). I de flesta verkliga forsknings- och statistiska sammanhang är sampel varians lämplig.

Kan variansen vara negativ?

Nej. Variansen är alltid noll eller positiv eftersom den beräknas från kvadrerade värden. Variansen är 0 endast när alla datapunkter är identiska (ingen spridning). En negativ varians är matematiskt omöjlig och indikerar ett beräkningfel.

Vad är en "hög" eller "låg" varians?

Hög och låg är relativt till skalan och sammanhanget för datan. En varians på 10 är "låg" för människohöjd i cm men "hög" för höjd i meter. Koefficienten för variation (SD / medelvärde × 100%) är skaloberoende och tillåter jämförelse över olika datamängder. I kvalitetskontroll definieras acceptabla variansområden för varje mätning.

Hur relaterar variansen till den normala distributionen?

Den normala (Gaussiska) distributionen beskrivs fullständigt av bara två parametrar: medelvärdet (μ) och variansen (σ²). Den bekanta s.k. "bellskurvan" är bredare när variansen är stor och smalare när variansen är liten. För normala data gäller det empiriska regeln: 68,3% inom ±1σ, 95,4% inom ±2σ och 99,7% inom ±3σ. Många statistiska tester (t-test, ANOVA, regression) antar att datan följer en normal distribution eller att sampelmäden är ungefär normala (via Central Limit Theoremet).

Vad är poolad varians?

Poolad varians är en viktad medelvärdesblandning av sampelvarianser från två eller flera grupper, använd i två-sampelt-testet när man antar lika varianser över grupperna. Formeln är: s²_poolad = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Detta producerar ett enda variansuppskattning som innehåller information från båda sampel, vilket ökar statistisk kraft när lika-varians-anteckningen är giltig.