Varianskalkylator – Populations- och stickprovsvarians
Beräkna varians och standardavvikelse för en datamängd. Stöder populations- och stickprovsvarians. Gratis online-statistikkalkylator för omedelbara resultat.
Variansen
Variansen mäter utbredningen av en datamängd — hur långt värdena är från medelvärdet. En låg varians betyder att data punkterna samlas runt medelvärdet; en hög varians betyder att de är spridda långt ifrån varandra.
Variansen beräknas som medelvärdet av kvadrerade skillnader från medelvärdet:
- Population varians (σ²): σ² = Σ(xᵢ − μ)² / N
- Procentuell varians (s²): s² = Σ(xᵢ − x̄)² / (N−1)
Varje xᵢ är en data punkt, μ (eller x̄) är medelvärdet och N är antalet värden. Standardavvikelsen är enkelt sagt rötterna av variansen — den är i samma enhet som den ursprungliga datan, vilket gör den mer tolkbar.
Varför kvadreras skillnaderna? Två skäl: (1) kvadreringen tar bort negativa värden så att avvikelser över och under medelvärdet inte avrundar ut, och (2) kvadreringen ger oproportionerlig vikt till utbuktande värden, vilket gör variansen känslig för extrema värden. Denna egenskap är både en styrka (utbuktande värden) och en svaghet (utbuktande känslighet). För data med extrema utbuktande värden, överväg att använda median absolut avvikelse (MAD) som en mer robust alternativ.
Population vs. Procentuell Varians
Den viktigaste skillnaden är den nämnare — N vs. (N−1) — känd som Bessels korrigering:
| Typ | Nämnare | Använd när | Symbol |
|---|---|---|---|
| Population Varians | N | Du har data på hela populationen | σ² |
| Procentuell Varians | N−1 | Du har en provtagning från en större population | s² |
I praktiken är de flesta verkliga data en provtagning. Användning av N−1 (procentuell varians) ger en obestämd uppskattning av den verkliga populationens varians. Användning av N (population varians) på en provtagning systematiskt underuppskattar den verkliga variansen.
Exempel: Testning av ett nytt läkemedel på 50 patienter innebär att använda procentuell varians (s²). Analys av alla elever i en klass innebär att använda population varians (σ²).
Varför fungerar Bessels korrigering? När du beräknar medelvärdet använder du en "grad av frihet" — medelvärdet beräknas från datan själv, så avvikelserna från medelvärdet är inte fullständigt oberoende. Delning med (N−1) i stället för N kompenserar för denna förlust av en grad av frihet, vilket ger en obestämd uppskattning av populationens varians. När N växer stor, blir skillnaden mellan N och N−1 obetydlig.
Steg-för-steg variansberäkning
Med datamängden: 4, 7, 13, 2, 8
- Beräkna medelvärdet: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
- Hitta avvikelser från medelvärdet: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
- Kvadrera avvikelserna: 7,84; 0,04; 38,44; 23,04; 1,44
- Summa av kvadrerade avvikelser: 7,84+0,04+38,44+23,04+1,44 = 70,8
- Population varians: 70,8 ÷ 5 = 14,16
- Procentuell varians: 70,8 ÷ 4 = 17,7
- Standardavvikelse: √14,16 = 3,76 (population) eller √17,7 = 4,21 (procentuell)
Snabbformel för varians
Det finns en ekvivalent "beräknings" formel som undviker att beräkna avvikelser explicit, användbar när beräkning sker manuellt eller i kalkylblad:
σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N
För procentuell varians: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)
Med vårt exempeldata (4, 7, 13, 2, 8):
- Σxᵢ = 34, så (Σxᵢ)² = 1 156
- Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
- Population varians = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16 ✓
- Procentuell varians = 70,8 / 4 = 17,7 ✓
Denna formel är numeriskt identisk men kan lida av fluktueringsproblem vid beräkning med stora värden. För beräkningsstabilitet föredrar man Welfords online-algoritm (som behandlar en värde i taget) i programvaruimplementeringar.
Relaterade statistiska mått
Varians är ett av flera mått på spridning. Varje har olika styrkor:
| Mått | Formel | Enheter | Tålighet mot utbuktningar | Bäst för |
|---|---|---|---|---|
| Varians (σ² eller s²) | Medelvärde av kvadrerade avvikelser | Quadrierade enheter | Låg — mycket känslig | Teoretisk statistik, ANOVA |
| Standardavvikelse (σ eller s) | √Varians | Samma som data | Låg | Redovisning av spridning i ursprungliga enheter |
| Interval | Max − Min | Samma som data | Mycket låg | Snabb kontroll, små prover |
| Interkvartilavvikelse (IQR) | Q3 − Q1 | Samma som data | Hög | Skruvade fördelningar, boxdiagram |
| Medel absolut avvikelse (MAD) | Medelvärde av |xᵢ − medelvärde| | Samma som data | Moderat | Intuitivt mått på spridning |
| Koefficient av variation (CV) | (SD / Medelvärde) × 100% | Procent | Låg | Jämförelse av spridning över olika skalor |
För normala (kägelliknande) fördelningar har standardavvikelsen en särskild tolkning: cirka 68% av data faller inom ±1 SD från medelvärdet, 95% inom ±2 SD, och 99,7% inom ±3 SD. Detta är den empiriska regeln (68-95-99,7-regeln).
Varians i kalkylblad och programmering
De flesta verktyg har inbyggda variansfunktioner. Se till att välja rätt version (population vs. sample):
| Verktyg | Probenvarians | Population varians |
|---|---|---|
| Excel / Google Sheets | VAR.S(range) eller VAR(range) | VAR.P(range) eller VARP(range) |
| Python (NumPy) | np.var(data, ddof=1) | np.var(data) |
| Python (statistics) | statistics.variance(data) | statistics.pvariance(data) |
| R | var(x) | var(x) * (n-1)/n |
| JavaScript | Manuell beräkning (inget inbyggt) | Manuell beräkning |
| SQL (PostgreSQL) | VAR_SAMP(column) | VAR_POP(column) |
| MATLAB | var(x) | var(x, 1) |
Not: Pythons NumPy använder population varians som standard (ddof=0), medan R:s var() använder sample varians. Detta är en vanlig källa till förvirring när man jämför resultat över olika språk.
Praktiska tillämpningar av varians
| Fält | Tillämpning | Exempel |
|---|---|---|
| Finans | Investeringsrisk | Stor varians = mer volatila aktieavkastningar |
| Industri | Kvalitetskontroll | Låg varians = konsekvent produktstorlek |
| Medicin | Kliniska prövningar | Mätning av variabilitet i patienters svar |
| Sportsvetenskap | Prestandanalys | Variabilitet i idrottarens prestation under säsongen |
| Utbildning | Testresultat | Förståelse av spridning av elevers prestation |
Varians i finans: Portföljrisken
I finansen mäter varians och standardavvikelse investeringsrisk. Högre varians betyder att avkastningarna fluktuerar mer — investeringen är mer riskabel. Harry Markowitz' Modern Portföljteori (1952, Nobelpris 1990) använder varians som centrala riskmått.
För en portfölj av två tillgångar beror den kombinerade variansen på individuella varianser och korrelationen mellan tillgångarna:
σ²portfölj = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂
Var w = vikt, σ² = varians och ρ = korrelation. När ρ < 1 (tillgångarna rör sig inte i perfekt synkronisering) är portföljens varians mindre än den viktade medelvärdet av individuella varianser. Detta är den matematiska grunden för diversifiering — kombination av oberoende tillgångar minskar totalrisken utan proportionellt att minska förväntad avkastning.
| Tillgångsklass (2000–2023) | Årlig avkastning | Årlig SD (Volatilitet) |
|---|---|---|
| US Stora Kapital (S&P 500) | ~7,5% | ~15% |
| US Liten Kapital (Russell 2000) | ~7,0% | ~20% |
| Internationell utvecklad (EAFE) | ~4,5% | ~17% |
| US Obligationer (Aggregat) | ~4,0% | ~4% |
| Guld | ~8,0% | ~16% |
Ett portfölj som kombinerar aktier och obligationer har en standardavvikelse betydligt lägre än aktier ensamma, medan den fortfarande fångar de flesta av aktieavkastningspremien.
Varians i kvalitetskontroll (Six Sigma)
Industrin använder varians för att kontrollera produktkvalitet. Six Sigma-metodiken, utvecklad av Motorola i början av 1980-talet, syftar till att minska processvariansen tills nästan inga produkter faller utanför specifikationsgränser.
| Sigma-nivå | Defekter per miljon (DPMO) | Avkastning | Processförmåga (Cpk) |
|---|---|---|---|
| 1σ | 691 462 | 30,9% | 0,33 |
| 2σ | 308 538 | 69,1% | 0,67 |
| 3σ | 66 807 | 93,3% | 1,00 |
| 4σ | 6 210 | 99,38% | 1,33 |
| 5σ | 233 | 99,977% | 1,67 |
| 6σ | 3,4 | 99,99966% | 2,00 |
Ett process som fungerar på 6σ producerar endast 3,4 defekter per miljon möjligheter. Processförmågan Cpk är direkt relaterad till variansen: Cpk = (USL − μ) / (3σ), där USL är den övre specifikationsgränsen. Minskning av variansen (genom bättre maskiner, utbildning eller material) ökar Cpk och driver processen mot Six Sigma-kvalitet.
Arbetsexempel från olika områden
De här verkliga världsexemplet visar hur variansen beräknas och tolkas i praktiken:
Exempel 1: Aktieavkastningsvolatilitet
Månadsavkastning för en aktie under 6 månader: +3,2%, −1,5%, +4,8%, −0,7%, +2,1%, +1,6%
- Medelvärde = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
- Avvikelser: 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
- Upptagna: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
- Summa av upptagna = 27,947
- Procentuell varians = 27,947/5 = 5,589 (%²)
- Standardavvikelse = √5,589 = 2,364% per månad
- Årlig volatilitet ≈ 2,364% × √12 = 8,19%
Denna aktie har medelvolatilitet. S&P 500 har historiskt sett ~15% årlig volatilitet, så denna aktie är ungefär halva så volatil som breda marknaden.
Exempel 2: Tillverkningskvalitetskontroll
Ett verk har tillverkat spikar med mål längd 50,00 mm. En provtagning av 8 spikar mäter: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.
- Medelvärde = 400,05/8 = 50,00625 mm
- Procentuell varians = 0,000655 mm²
- Standardavvikelse = 0,0256 mm
- Med specifikationer på 50,00 ± 0,10 mm: Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22
Ett Cpk på 1,22 betyder att processen är kapabel men har liten marginal. Industristandarden mål är Cpk ≥ 1,33 (4σ-förmåga), så denna process behöver ha tätare kontroll för att uppnå det nivån.
Exempel 3: Studenters provresultat
Ett klass på 10 elever fick följande poäng på ett prov: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73.
- Medelvärde = 810/10 = 81,0
- Population varians (hela klassen) = 72,2
- Standardavvikelse = 8,50
- Koefficient av variation = 8,50/81,0 × 100% = 10,5%
Ett CV på 10,5% indikerar en medelvolatilitet – de flesta eleverna presterade inom en rimlig räckvidd av medelvärdet. Om CV översteg 25% skulle läraren kunna undersöka om provet hade frågor som var för svåra för vissa elever eller om det fanns en bimodal fördelning (två distinkta grupper).
Vanliga fel när man beräknar varians
Undvik dessa vanliga fel:
| Fel | Varför det är fel | Korrektion |
|---|---|---|
| Använda N istället för N−1 för prover | Underuppskattar den verkliga populationens varians | Använd N−1 för alla data som är ett urval från en större population |
| Måla absoluta avvikelser istället för att uppta | Ger MAD, inte varians | Uppta varje avvikelse, sedan beräkna medelvärde. Ta √ för standardavvikelse |
| Glöm att uppta innan medelvärde | Positiva och negativa avvikelser avvecklas, ger ~0 | Uppta alltid avvikelserna först |
| Jämföra varians över olika skalor | Varians beroende på enheter; $² ≠ kg² | Använd koefficient av variation (CV) för jämförelse över skalor |
| Anta att varians = standardavvikelse | Varians är SD²; enheter är kvadrerade | Ta √ för varians för att få SD |
ANOVA: Jämförelse av Varians mellan Grupper
Analys av Varians (ANOVA) är en statistisk test som jämför medelvärden för flera grupper genom att analysera varians. Trots namnet testar det om medelvärdena skiljer sig åt, inte om varianserna skiljer sig åt.
ANOVA delar upp totala variansen i två komponenter:
- Varians mellan grupper: Hur mycket medelvärdena skiljer sig från det totala medelvärdet
- Varians inom grupper: Hur mycket enskilda värden varierar inom varje grupp
F-statistiken = Varians mellan grupper / Varians inom grupper. Ett stort F betyder att grupperna är mer olika från varandra än förväntat av slumpen. Om F överstiger kritiska värdet (eller p < 0,05), är minst en gruppmedelvärde signifikant olika.
Exempel: Jämförelse av provresultat för elever som undervisats med tre olika metoder. ANOVA säger dig om undervisningsmetoden spelar roll; post-hoc-tester (Tukey, Bonferroni) säger dig vilka metoder som skiljer sig.
💡 Vet du?
- Varians introducerades av Ronald Fisher 1918 — samma artikel där han myntade begreppet "varians."
- I finansvärlden är varians grund för Modern Portfolio Theory. En portföljens varians beror inte bara på enskilda tillgångars varians, utan också på korrelationer mellan tillgångarna.
- Det koefficient av variation (CV = standardavvikelse / medelvärde × 100%) låter dig jämföra variabiliteten mellan datamängder med olika enheter eller skalor.
- Chebyshevs olikhet garanterar att för alla fördelningar (inte bara normalfördelningen), minst 75% av data faller inom ±2 standardavvikelser och minst 89% inom ±3 standardavvikelser. Detta är svagare än det empiriska regeln men gäller allmänt.
Ofta ställda frågor
Vad är skillnaden mellan varians och standardavvikelse?
Varians är medelvärdet av kvadrerade avvikelser från medelvärdet; standardavvikelsen är dess kvadratrots. Standardavvikelsen är i samma enheter som den ursprungliga datan (t.ex. dollar, kg, sekunder), vilket gör den mer lättförståelig. Variansen är användbar i matematiska operationer (varianser av oberoende variabler läggs direkt), medan standardavvikelsen är bättre för att beskriva spridning till en icke-teknisk publik.
När ska jag använda sampel- vs. population varians?
Använd population varians när datan innehåller alla medlemmar i gruppen du analyserar (t.ex. alla anställda i ett företag). Använd sampel varians när datan är en delmängd av en större grupp (t.ex. en enkätundersökning av 500 väljare för att uppskatta alla väljares åsikter). I de flesta verkliga forsknings- och statistiska sammanhang är sampel varians lämplig.
Kan variansen vara negativ?
Nej. Variansen är alltid noll eller positiv eftersom den beräknas från kvadrerade värden. Variansen är 0 endast när alla datapunkter är identiska (ingen spridning). En negativ varians är matematiskt omöjlig och indikerar ett beräkningfel.
Vad är en "hög" eller "låg" varians?
Hög och låg är relativt till skalan och sammanhanget för datan. En varians på 10 är "låg" för människohöjd i cm men "hög" för höjd i meter. Koefficienten för variation (SD / medelvärde × 100%) är skaloberoende och tillåter jämförelse över olika datamängder. I kvalitetskontroll definieras acceptabla variansområden för varje mätning.
Hur relaterar variansen till den normala distributionen?
Den normala (Gaussiska) distributionen beskrivs fullständigt av bara två parametrar: medelvärdet (μ) och variansen (σ²). Den bekanta s.k. "bellskurvan" är bredare när variansen är stor och smalare när variansen är liten. För normala data gäller det empiriska regeln: 68,3% inom ±1σ, 95,4% inom ±2σ och 99,7% inom ±3σ. Många statistiska tester (t-test, ANOVA, regression) antar att datan följer en normal distribution eller att sampelmäden är ungefär normala (via Central Limit Theoremet).
Vad är poolad varians?
Poolad varians är en viktad medelvärdesblandning av sampelvarianser från två eller flera grupper, använd i två-sampelt-testet när man antar lika varianser över grupperna. Formeln är: s²poolad = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Detta producerar ett enda variansuppskattning som innehåller information från båda sampel, vilket ökar statistisk kraft när lika-varians-anteckningen är giltig.