Skip to main content
🔬 Advanced

Varians-beregner – Populations- og stikprøvevarians

Beregn varians og standardafvigelse for et datasæt. Understøtter populations- og stikprøvevarians. Gratis online statistikberegner til øjeblikkelige resultater.

hvad er Variance?

Variance måler udbredelsen af en dataset — hvor langt værdierne er fra middelværdien. En lav variance betyder, at data punkterne samles omkring middelværdien; en høj variance betyder, at de er udbredt meget bredt.

Variance beregnes som gennemsnittet af kvadrerede forskelle fra middelværdien:

Hvor xᵢ er hver data punkt, μ (eller x̄) er middelværdien, og N er antallet af værdier. Standardafvigelsen er blot kvadratroden af variance — det er på samme enhed som den oprindelige data, hvilket gør det mere tolkbar.

Hvorfor kvadrerer vi forskellene? To grunde: (1) kvadrering fjerner negative værdier, så at afvigelse oven over og under middelværdien ikke afbalancerer hinanden, og (2) kvadrering giver overvægt til udsving, så at variance er følsom over for ekstreme værdier. Dette egenskab er både en styrke (udsving detektion) og en svaghed (udsving følsomhed). For data med ekstreme udsving, overvejer man at bruge median absolut afvigelse (MAD) som en mere robust alternativ.

Population vs. Sample Variance

Den vigtigste forskel er den nævnte - N vs. (N−1) - kendt som Bessels korrektion:

TypeDenominatorBrug nårSymbol
Population VarianceNDe har data om hele populationenσ²
Sample VarianceN−1De har en prøve fra en større population

I praksis er det fleste virkelige data en prøve. Brugning af N−1 (prøvevarianse) giver en uskyldig skønsmåde af den sande population variance. Brugning af N (population variance) på en prøve systematisk underestimerer den sande variance.

Eksempel: Prøve af en ny medicin på 50 patienter betyder brug af prøvevarianse (s²). Analyse af alle elever i en klasse betyder brug af population variance (σ²).

Hvorfor virker Bessels korrektion? Når du beregner prøvemiddelværdien, bruger du en "grad af frihed" - middelværdien beregnes fra data selv, så afvigelsene fra middelværdien er ikke fuldt uafhængige. Division af (N−1) i stedet for N kompenserer for denne tab af en grad af frihed, hvilket giver en uskyldig skønsmåde af population variance. Når N vokser meget, bliver forskellen mellem N og N−1 ubetydelig.

Trin-for-trin beregning af Variance

Med data sæt: 4, 7, 13, 2, 8

  1. Beregning af middelværdien: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
  2. Fund af afvigelse fra middelværdien: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
  3. Kvadrering af afvigelsene: 7,84; 0,04; 38,44; 23,04; 1,44
  4. Sum af kvadrerede afvigelsesværdier: 7,84+0,04+38,44+23,04+1,44 = 70,8
  5. Population variance: 70,8 ÷ 5 = 14,16
  6. Prøvevarianse: 70,8 ÷ 4 = 17,7
  7. Standardafvigelse: √14,16 = 3,76 (population) eller √17,7 = 4,21 (prøve)

Formel for Variance

Der er en ekvivalent "computational" formel, der undgår at beregne afvigelsesværdier eksplisitt, nyttig når man beregner ved hånden eller i tabeller:

σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N

For prøvevarianse: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)

Med vores eksempeldata (4, 7, 13, 2, 8):

  1. Σxᵢ = 34, så (Σxᵢ)² = 1.156
  2. Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
  3. Population variance = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16
  4. Prøvevarianse = 70,8 / 4 = 17,7

Dette formel er numerisk identisk, men kan lide af floating-point præcision problemer, når værdierne er meget store. For computere stabilitet, foretrækkes Welfords online-algoritme (som behandler én værdi ad gangen) i software-implementationer.

Relaterede statistiske målinger

Varians er en af flere måder at måle udbredelsen. Hver har forskellige fordele:

MålingFormelEnhederRobusthed mod udsvingBedst til
Varians (σ² eller s²)Gennemsnit af kvadrerede afvigelseKvadrerede enhederlav — meget følsomTeoretisk statistik, ANOVA
Standardafvigelse (σ eller s)√VariansSamme som datalavAt rapportere udbredelsen i oprindelige enheder
IntervalMax − MinSamme som dataMeget lavSnarvejekontrol, små samlinger
Interkvartilinterval (IQR)Q3 − Q1Samme som dataHøjSkewed distributions, box plots
Medel absolut afvigelse (MAD)Gennemsnit af |xᵢ − gennemsnit|Samme som dataModeratIntuitiv måling af udbredelse
Effektivitet af variation (CV)(SD / Gennemsnit) × 100%ProcentlavAt sammenligne udbredelse over forskellige skalaer

For normale (kugleformige) fordelinger har standardafvigelsen en særlig fortolkning: ca. 68% af dataen ligger inden for ±1 SD af gennemsnittet, 95% inden for ±2 SD, og 99,7% inden for ±3 SD. Dette er den empiriske regel (68-95-99,7 regel).

Varians i tabeller og programmering

De fleste værktøjer har bygget-in varians-funktioner. Sørg for at vælge den korrekte version (population vs. sample):

VærktøjSample VariancePopulation Variance
Excel / Google SheetsVAR.S(range) eller VAR(range)VAR.P(range) eller VARP(range)
Python (NumPy)np.var(data, ddof=1)np.var(data)
Python (statistics)statistics.variance(data)statistics.pvariance(data)
Rvar(x)var(x) * (n-1)/n
JavaScriptManuel beregning (ingen bygget-in)Manuel beregning
SQL (PostgreSQL)VAR_SAMP(column)VAR_POP(column)
MATLABvar(x)var(x, 1)

Noter: Pythons NumPy har som standard population varians (ddof=0), mens Rs var() har som standard sample varians. Dette er en almindelig kilde til forvirring, når man sammenligner resultater over forskellige sprog.

Praktiske anvendelser af varians

OmraadeAnvendelseEksempel
FinansInvestitionsrisikoHøj varians = mere ustabile aktieindbetalinger
ProduktionKvalitetskontrollav varians = konstante produktmål
MedicinKliniske forsøgMåling af variabilitet i patientrespons
SportsvidenskabPerfomanceanalyseVariabilitet i atletisk performance over sæson
UddannelseTestresultatanalyseForståelse af udbredelsen af studerendes ydeevne

Varians i finans: Portefølje risiko

I finans anvendes varians og standardafvigelse til at måle investeringsrisiko. Højere varians betyder, at indbetalingerne fluktuerer mere — investeringen er mere risikabel. Harry Markowitz' Modern Portefølje Teori (1952, Nobelpris 1990) bruger varians som den centrale risikomåling.

For en portefølje af to aktiver afhænger den kombinerede varians af individuelle variancer og korrelationen mellem aktiverne:

σ²portefølje = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂

Hvor w = vægt, σ² = varians og ρ = korrelation. Når ρ < 1 (aktiverne bevæger sig ikke i perfekt synkronitet), er porteføljevariansen mindre end den vejet gennemsnit af individuelle variancer. Dette er den matematiske grundlag for diversificering — kombination af uafhængige aktiver reducerer overordnet risiko uden at proporsionelt reducere forventet return.

Aktivklasse (2000-2023)Årlig returnÅrlig SD (Volatilitet)
US Store Kapital (S&P 500)~7,5%~15%
US Lille Kapital (Russell 2000)~7,0%~20%
International udviklet (EAFE)~4,5%~17%
US Obligationer (Aggregate)~4,0%~4%
Guld~8,0%~16%

En portefølje, der kombinerer aktier og obligationer, har som regel en standardafvigelse, der er betydeligt lavere end aktier alene, mens den stadig kaprer den meste af aktieafkasten.

Varians i kvalitetskontrol (Six Sigma)

Produktion anvender varians til at kontrollere produktkvalitet. Six Sigma-metodikken, udviklet af Motorola i 1980'erne, søger at reducere procesvarians, så næsten ingen produkter falder uden for specifikationsgrænser.

Sigma niveauFejl per million (DPMO)YieldProceskapacitet (Cpk)
691.46230,9%0,33
308.53869,1%0,67
66.80793,3%1,00
6.21099,38%1,33
23399,977%1,67
3,499,99966%2,00

En proces, der opererer på 6σ, producerer kun 3,4 fejl per million muligheder. Proceskapacitetsindekset Cpk er direkte forbundet til varians: Cpk = (USL − μ) / (3σ), hvor USL er den øvre specifikationsgrænse. Reduktion af varians (gennem bedre maskiner, træning eller materialer) øger Cpk og fremmer processen mod Six Sigma-kvalitet.

Eksempler fra forskellige felter

Disse virkelige eksempler viser, hvordan varians beregnes og tolkes i praksis:

Eksempel 1: Aktieavkastningsvolatilitet

Månedlige avkastninger for en aktie over 6 måneder: +3,2%, −1,5%, +4,8%, −0,7%, +2,1%, +1,6%

  1. Mean = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
  2. Deviations: 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
  3. Squared: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
  4. Sum of squares = 27,947
  5. Sample variance = 27,947/5 = 5,589 (%²)
  6. Standard deviation = √5,589 = 2,364% per måned
  7. Årlig volatilitet ≈ 2,364% × √12 = 8,19%

Dette aktie har moderat volatilitet. S&P 500 har historiskvis ~15% årlig volatilitet, så denne aktie er omkring halv så volatil som den brede marked.

Eksempel 2: Produktion af kvalitetskontrol

En fabrik producerer skruer med mål længde 50,00 mm. En prøve af 8 skruer måler: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

  1. Mean = 400,05/8 = 50,00625 mm
  2. Sample variance = 0,000655 mm²
  3. Standard deviation = 0,0256 mm
  4. Med specifikationer på 50,00 ± 0,10 mm: Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22

Ett Cpk på 1,22 betyder, at processen er i stand til at producere, men har lidt margin. Industriens standardmål er Cpk ≥ 1,33 (4σ kapacitet), så denne proces skal have tættere kontrol for at opnå dette niveau.

Eksempel 3: Elevresultater

Klassen består af 10 elever, der scorer: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 på en eksamen.

  1. Mean = 810/10 = 81,0
  2. Population variance (hele klassen) = 72,2
  3. Standard deviation = 8,50
  4. Coefficient of variation = 8,50/81,0 × 100% = 10,5%

Ett CV på 10,5% indikerer en moderat spredning – de fleste elever opnåede en rimelig afstand fra gennemsnittet. Hvis CV overstiger 25%, kan læreren undersøge, om der var spørgsmål, der var for svære for nogle elever, eller om der var en bimodal fordeling (to forskellige grupper).

Almindelige fejl ved beregning af varians

Undgå disse hyppige fejl:

FejlHvorfor det er forkertKorrigering
Bruk af N i stedet for N−1 for prøverUnderestimerer sande population variansBruk N−1 for alle data, der er en prøve fra en større population
Averagning af absoluta afvigelser i stedet for kvadreringGiver MAD, ikke variansKvadrér hver afvigelse, såg derefter gennemsnit. Tag √ for standardafvigelse
Forbliver ved at kvadrere før gennemsnittetPositive og negative afvigelser afkompilerer hinanden, giver ~0Kvadrér altid afvigelser først
Forventer, at varians = standardafvigelseVarians er SD²; enhederne er kvadreredeTage √ af varians til at få SD

ANOVA: Sammenligning af Varians Over Grupper

Analysen af Varians (ANOVA) er en statistisk test, der sammenligner gennemsnittet af flere grupper ved at analysere varians. Selv om navnet lyder sådan, tester det, om gruppegennemsnittene skelner, ikke om varianserne skelner.

ANOVA deler total varians op i to komponenter:

Den F-statistik = Mellan-gruppe varians / Innenfor-gruppe varians. En stor F betyder, at grupperne er mere forskellige fra hinanden end forventet ved tilfældighed. Hvis F overstiger kritisk værdi (eller p < 0,05), er mindst én gruppegennemsnit signifikant forskelligt.

Eksempel: Sammenligning af testresultater af studerende, der er undervist af tre forskellige metoder. ANOVA fortæller, om undervisningsmetoden har betydning; efterfølgende tests (Tukey, Bonferroni) fortæller, hvilke metoder skelner.

💡 Ved du det?

Ofte Stillede Spørgsmål

Hvad er forskellen mellem variation og standardafvigelse?

Variation er gennemsnittet af kvadrerede afvigelse fra gennemsnittet; standardafvigelse er dens kvadratrods. Standardafvigelse er i samme enhed som den oprindelige data (f.eks. dollars, kg, sekunder), hvilket gør det mere forståeligt. Variation er nyttig i matematiske operationer (variancer af uafhængige variabler adderes direkte), mens standardafvigelse er bedre til at beskrive udbredelsen til en ikke-teknisk publikum.

Når skal jeg bruge prøven og population varians?

Brug population varians, når dine data indeholder alle medlemmer af gruppen, du analyserer (f.eks. alle ansatte i en virksomhed). Brug prøven varians, når dine data er en undergruppe af en større gruppe (f.eks. en undersøgelse af 500 vælgere til at anslå alle vælgernes holdninger). I de fleste virkelige forsknings- og statistikker er prøven varians passende.

Kan variation være negativ?

Nej. Variation er altid nul eller positiv, fordi det er beregnet fra kvadrerede værdier. Variation = 0 kun, når alle datapunkter er ens (ingen udbredelse). En negativ variation er matematisk umulig og indikerer en fejl i beregningen.

Hvad er en "høj" eller "lav" variation?

Høj og lav er relativt til skalaen og konteksten for dataene. En variation på 10 er "lav" for menneskehøjder i cm, men "høj" for højder i meter. Koefficienten for variation (SD / gennemsnit × 100%) er skalaen uafhængig og tillader sammenligning over forskellige datasets. I kvalitetskontrol definerer specifikationer acceptabelle variationsspor for hver måling.

Hvordan hænger variation sammen med den normale distribution?

Den normale (Gaussian) distribution beskrives fuldstændigt af kun to parametre: gennemsnittet (μ) og variationen (σ²). Den velkendte kurve er bredere, når variationen er stor og smalere, når variationen er lille. For normale data gælder det empiriske regel: 68,3% inden for ±1σ, 95,4% inden for ±2σ og 99,7% inden for ±3σ. Mange statistiske tester (t-test, ANOVA, regression) antager, at data følger en normal distribution eller at prøvenmålinger er omkring normal (via Central Limit Theorem).

Hvad er pooleret variation?

Pooleret variation er en vejet gennemsnit af prøven variancer fra to eller flere grupper, brugt i to-prøven t-test, når du antager, at variancerne er ens over grupperne. Formlen er: s²pooled = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Dette producerer en enkelt variansestimating, der indgår information fra begge prøver, og øger statistisk magt, når lige-varians-forudsætningen er gyldig.

Relaterede Kalkulatortabeller