🔬 Advanced

Varians-beregner – Populations- og stikprøvevarians

Beregn varians og standardafvigelse for et datasæt. Understøtter populations- og stikprøvevarians. Gratis online statistikberegner til øjeblikkelige resultater.

hvad er Variance?

Variance måler udbredelsen af en dataset — hvor langt værdierne er fra middelværdien. En lav variance betyder, at data punkterne samles omkring middelværdien; en høj variance betyder, at de er udbredt meget bredt.

Variance beregnes som gennemsnittet af kvadrerede forskelle fra middelværdien:

Population variance (σ²): σ² = Σ(xᵢ − μ)² / N
Sample variance (s²): s² = Σ(xᵢ − x̄)² / (N−1)

Hvor xᵢ er hver data punkt, μ (eller x̄) er middelværdien, og N er antallet af værdier. Standardafvigelsen er blot kvadratroden af variance — det er på samme enhed som den oprindelige data, hvilket gør det mere tolkbar.

Hvorfor kvadrerer vi forskellene? To grunde: (1) kvadrering fjerner negative værdier, så at afvigelse oven over og under middelværdien ikke afbalancerer hinanden, og (2) kvadrering giver overvægt til udsving, så at variance er følsom over for ekstreme værdier. Dette egenskab er både en styrke (udsving detektion) og en svaghed (udsving følsomhed). For data med ekstreme udsving, overvejer man at bruge median absolut afvigelse (MAD) som en mere robust alternativ.

Population vs. Sample Variance

Den vigtigste forskel er den nævnte - N vs. (N−1) - kendt som Bessels korrektion:

Type	Denominator	Brug når	Symbol
Population Variance	N	De har data om hele populationen	σ²
Sample Variance	N−1	De har en prøve fra en større population	s²

I praksis er det fleste virkelige data en prøve. Brugning af N−1 (prøvevarianse) giver en uskyldig skønsmåde af den sande population variance. Brugning af N (population variance) på en prøve systematisk underestimerer den sande variance.

Eksempel: Prøve af en ny medicin på 50 patienter betyder brug af prøvevarianse (s²). Analyse af alle elever i en klasse betyder brug af population variance (σ²).

Hvorfor virker Bessels korrektion? Når du beregner prøvemiddelværdien, bruger du en "grad af frihed" - middelværdien beregnes fra data selv, så afvigelsene fra middelværdien er ikke fuldt uafhængige. Division af (N−1) i stedet for N kompenserer for denne tab af en grad af frihed, hvilket giver en uskyldig skønsmåde af population variance. Når N vokser meget, bliver forskellen mellem N og N−1 ubetydelig.

Trin-for-trin beregning af Variance

Med data sæt: 4, 7, 13, 2, 8

Beregning af middelværdien: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
Fund af afvigelse fra middelværdien: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
Kvadrering af afvigelsene: 7,84; 0,04; 38,44; 23,04; 1,44
Sum af kvadrerede afvigelsesværdier: 7,84+0,04+38,44+23,04+1,44 = 70,8
Population variance: 70,8 ÷ 5 = 14,16
Prøvevarianse: 70,8 ÷ 4 = 17,7
Standardafvigelse: √14,16 = 3,76 (population) eller √17,7 = 4,21 (prøve)

Formel for Variance

Der er en ekvivalent "computational" formel, der undgår at beregne afvigelsesværdier eksplisitt, nyttig når man beregner ved hånden eller i tabeller:

σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N

For prøvevarianse: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)

Med vores eksempeldata (4, 7, 13, 2, 8):

Σxᵢ = 34, så (Σxᵢ)² = 1.156
Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
Population variance = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16 ✓
Prøvevarianse = 70,8 / 4 = 17,7 ✓

Dette formel er numerisk identisk, men kan lide af floating-point præcision problemer, når værdierne er meget store. For computere stabilitet, foretrækkes Welfords online-algoritme (som behandler én værdi ad gangen) i software-implementationer.

Relaterede statistiske målinger

Varians er en af flere måder at måle udbredelsen. Hver har forskellige fordele:

Måling	Formel	Enheder	Robusthed mod udsving	Bedst til
Varians (σ² eller s²)	Gennemsnit af kvadrerede afvigelse	Kvadrerede enheder	lav — meget følsom	Teoretisk statistik, ANOVA
Standardafvigelse (σ eller s)	√Varians	Samme som data	lav	At rapportere udbredelsen i oprindelige enheder
Interval	Max − Min	Samme som data	Meget lav	Snarvejekontrol, små samlinger
Interkvartilinterval (IQR)	Q3 − Q1	Samme som data	Høj	Skewed distributions, box plots
Medel absolut afvigelse (MAD)	Gennemsnit af \|xᵢ − gennemsnit\|	Samme som data	Moderat	Intuitiv måling af udbredelse
Effektivitet af variation (CV)	(SD / Gennemsnit) × 100%	Procent	lav	At sammenligne udbredelse over forskellige skalaer

For normale (kugleformige) fordelinger har standardafvigelsen en særlig fortolkning: ca. 68% af dataen ligger inden for ±1 SD af gennemsnittet, 95% inden for ±2 SD, og 99,7% inden for ±3 SD. Dette er den empiriske regel (68-95-99,7 regel).

Varians i tabeller og programmering

De fleste værktøjer har bygget-in varians-funktioner. Sørg for at vælge den korrekte version (population vs. sample):

Værktøj	Sample Variance	Population Variance
Excel / Google Sheets	`VAR.S(range)` eller `VAR(range)`	`VAR.P(range)` eller `VARP(range)`
Python (NumPy)	`np.var(data, ddof=1)`	`np.var(data)`
Python (statistics)	`statistics.variance(data)`	`statistics.pvariance(data)`
R	`var(x)`	`var(x) * (n-1)/n`
JavaScript	Manuel beregning (ingen bygget-in)	Manuel beregning
SQL (PostgreSQL)	`VAR_SAMP(column)`	`VAR_POP(column)`
MATLAB	`var(x)`	`var(x, 1)`

Noter: Pythons NumPy har som standard population varians (ddof=0), mens Rs var() har som standard sample varians. Dette er en almindelig kilde til forvirring, når man sammenligner resultater over forskellige sprog.

Praktiske anvendelser af varians

Omraade	Anvendelse	Eksempel
Finans	Investitionsrisiko	Høj varians = mere ustabile aktieindbetalinger
Produktion	Kvalitetskontrol	lav varians = konstante produktmål
Medicin	Kliniske forsøg	Måling af variabilitet i patientrespons
Sportsvidenskab	Perfomanceanalyse	Variabilitet i atletisk performance over sæson
Uddannelse	Testresultatanalyse	Forståelse af udbredelsen af studerendes ydeevne

Varians i finans: Portefølje risiko

I finans anvendes varians og standardafvigelse til at måle investeringsrisiko. Højere varians betyder, at indbetalingerne fluktuerer mere — investeringen er mere risikabel. Harry Markowitz' Modern Portefølje Teori (1952, Nobelpris 1990) bruger varians som den centrale risikomåling.

For en portefølje af to aktiver afhænger den kombinerede varians af individuelle variancer og korrelationen mellem aktiverne:

σ²_portefølje = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂

Hvor w = vægt, σ² = varians og ρ = korrelation. Når ρ < 1 (aktiverne bevæger sig ikke i perfekt synkronitet), er porteføljevariansen mindre end den vejet gennemsnit af individuelle variancer. Dette er den matematiske grundlag for diversificering — kombination af uafhængige aktiver reducerer overordnet risiko uden at proporsionelt reducere forventet return.

Aktivklasse (2000-2023)	Årlig return	Årlig SD (Volatilitet)
US Store Kapital (S&P 500)	~7,5%	~15%
US Lille Kapital (Russell 2000)	~7,0%	~20%
International udviklet (EAFE)	~4,5%	~17%
US Obligationer (Aggregate)	~4,0%	~4%
Guld	~8,0%	~16%

En portefølje, der kombinerer aktier og obligationer, har som regel en standardafvigelse, der er betydeligt lavere end aktier alene, mens den stadig kaprer den meste af aktieafkasten.

Varians i kvalitetskontrol (Six Sigma)

Produktion anvender varians til at kontrollere produktkvalitet. Six Sigma-metodikken, udviklet af Motorola i 1980'erne, søger at reducere procesvarians, så næsten ingen produkter falder uden for specifikationsgrænser.

Sigma niveau	Fejl per million (DPMO)	Yield	Proceskapacitet (Cpk)
1σ	691.462	30,9%	0,33
2σ	308.538	69,1%	0,67
3σ	66.807	93,3%	1,00
4σ	6.210	99,38%	1,33
5σ	233	99,977%	1,67
6σ	3,4	99,99966%	2,00

En proces, der opererer på 6σ, producerer kun 3,4 fejl per million muligheder. Proceskapacitetsindekset Cpk er direkte forbundet til varians: Cpk = (USL − μ) / (3σ), hvor USL er den øvre specifikationsgrænse. Reduktion af varians (gennem bedre maskiner, træning eller materialer) øger Cpk og fremmer processen mod Six Sigma-kvalitet.

Eksempler fra forskellige felter

Disse virkelige eksempler viser, hvordan varians beregnes og tolkes i praksis:

Eksempel 1: Aktieavkastningsvolatilitet

Månedlige avkastninger for en aktie over 6 måneder: +3,2%, −1,5%, +4,8%, −0,7%, +2,1%, +1,6%

Mean = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
Deviations: 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
Squared: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
Sum of squares = 27,947
Sample variance = 27,947/5 = 5,589 (%²)
Standard deviation = √5,589 = 2,364% per måned
Årlig volatilitet ≈ 2,364% × √12 = 8,19%

Dette aktie har moderat volatilitet. S&P 500 har historiskvis ~15% årlig volatilitet, så denne aktie er omkring halv så volatil som den brede marked.

Eksempel 2: Produktion af kvalitetskontrol

En fabrik producerer skruer med mål længde 50,00 mm. En prøve af 8 skruer måler: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

Mean = 400,05/8 = 50,00625 mm
Sample variance = 0,000655 mm²
Standard deviation = 0,0256 mm
Med specifikationer på 50,00 ± 0,10 mm: Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22

Ett Cpk på 1,22 betyder, at processen er i stand til at producere, men har lidt margin. Industriens standardmål er Cpk ≥ 1,33 (4σ kapacitet), så denne proces skal have tættere kontrol for at opnå dette niveau.

Eksempel 3: Elevresultater

Klassen består af 10 elever, der scorer: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 på en eksamen.

Mean = 810/10 = 81,0
Population variance (hele klassen) = 72,2
Standard deviation = 8,50
Coefficient of variation = 8,50/81,0 × 100% = 10,5%

Ett CV på 10,5% indikerer en moderat spredning – de fleste elever opnåede en rimelig afstand fra gennemsnittet. Hvis CV overstiger 25%, kan læreren undersøge, om der var spørgsmål, der var for svære for nogle elever, eller om der var en bimodal fordeling (to forskellige grupper).

Almindelige fejl ved beregning af varians

Undgå disse hyppige fejl:

Fejl	Hvorfor det er forkert	Korrigering
Bruk af N i stedet for N−1 for prøver	Underestimerer sande population varians	Bruk N−1 for alle data, der er en prøve fra en større population
Averagning af absoluta afvigelser i stedet for kvadrering	Giver MAD, ikke varians	Kvadrér hver afvigelse, såg derefter gennemsnit. Tag √ for standardafvigelse
Forbliver ved at kvadrere før gennemsnittet	Positive og negative afvigelser afkompilerer hinanden, giver ~0	Kvadrér altid afvigelser først
Forventer, at varians = standardafvigelse	Varians er SD²; enhederne er kvadrerede	Tage √ af varians til at få SD

ANOVA: Sammenligning af Varians Over Grupper

Analysen af Varians (ANOVA) er en statistisk test, der sammenligner gennemsnittet af flere grupper ved at analysere varians. Selv om navnet lyder sådan, tester det, om gruppegennemsnittene skelner, ikke om varianserne skelner.

ANOVA deler total varians op i to komponenter:

Mellan-gruppe varians: Hvor meget gruppegennemsnittene skelner fra det samlede gennemsnit
Innenfor-gruppe varians: Hvor meget individuelle værdier varierer inden for hver gruppe

Den F-statistik = Mellan-gruppe varians / Innenfor-gruppe varians. En stor F betyder, at grupperne er mere forskellige fra hinanden end forventet ved tilfældighed. Hvis F overstiger kritisk værdi (eller p < 0,05), er mindst én gruppegennemsnit signifikant forskelligt.

Eksempel: Sammenligning af testresultater af studerende, der er undervist af tre forskellige metoder. ANOVA fortæller, om undervisningsmetoden har betydning; efterfølgende tests (Tukey, Bonferroni) fortæller, hvilke metoder skelner.

💡 Ved du det?

Varians blev introduceret af Ronald Fisher i 1918 — samme artikel, hvor han også myntede udtrykket "varians."
I finans, er varians grundlaget for Moderne Portefølje Teori. En porteføljes varians afhænger ikke kun af individuelle aktivets varians, men også af korrelationer mellem aktiver.
Det koefficient for variation (CV = standardafvigelse / gennemsnit × 100%) tillader sammenligning af variabilitet over datasets med forskellige enheder eller skalaer.
Chebyshevs usikkerhed garanterer, at mindst 75% af data falder inden for ±2 standardafvigelse og mindst 89% inden for ±3 standardafvigelse. Dette er svagere end det empiriske regel, men gælder universelt.

Ofte Stillede Spørgsmål

Hvad er forskellen mellem variation og standardafvigelse?

Variation er gennemsnittet af kvadrerede afvigelse fra gennemsnittet; standardafvigelse er dens kvadratrods. Standardafvigelse er i samme enhed som den oprindelige data (f.eks. dollars, kg, sekunder), hvilket gør det mere forståeligt. Variation er nyttig i matematiske operationer (variancer af uafhængige variabler adderes direkte), mens standardafvigelse er bedre til at beskrive udbredelsen til en ikke-teknisk publikum.

Når skal jeg bruge prøven og population varians?

Brug population varians, når dine data indeholder alle medlemmer af gruppen, du analyserer (f.eks. alle ansatte i en virksomhed). Brug prøven varians, når dine data er en undergruppe af en større gruppe (f.eks. en undersøgelse af 500 vælgere til at anslå alle vælgernes holdninger). I de fleste virkelige forsknings- og statistikker er prøven varians passende.

Kan variation være negativ?

Nej. Variation er altid nul eller positiv, fordi det er beregnet fra kvadrerede værdier. Variation = 0 kun, når alle datapunkter er ens (ingen udbredelse). En negativ variation er matematisk umulig og indikerer en fejl i beregningen.

Hvad er en "høj" eller "lav" variation?

Høj og lav er relativt til skalaen og konteksten for dataene. En variation på 10 er "lav" for menneskehøjder i cm, men "høj" for højder i meter. Koefficienten for variation (SD / gennemsnit × 100%) er skalaen uafhængig og tillader sammenligning over forskellige datasets. I kvalitetskontrol definerer specifikationer acceptabelle variationsspor for hver måling.

Hvordan hænger variation sammen med den normale distribution?

Den normale (Gaussian) distribution beskrives fuldstændigt af kun to parametre: gennemsnittet (μ) og variationen (σ²). Den velkendte kurve er bredere, når variationen er stor og smalere, når variationen er lille. For normale data gælder det empiriske regel: 68,3% inden for ±1σ, 95,4% inden for ±2σ og 99,7% inden for ±3σ. Mange statistiske tester (t-test, ANOVA, regression) antager, at data følger en normal distribution eller at prøvenmålinger er omkring normal (via Central Limit Theorem).

Hvad er pooleret variation?

Pooleret variation er en vejet gennemsnit af prøven variancer fra to eller flere grupper, brugt i to-prøven t-test, når du antager, at variancerne er ens over grupperne. Formlen er: s²_pooled = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Dette producerer en enkelt variansestimating, der indgår information fra begge prøver, og øger statistisk magt, når lige-varians-forudsætningen er gyldig.

Relaterede Kalkulatortabeller

Standardafvigelse Kalkulator
Gennemsnit Median Mode Kalkulator
Z-Score Kalkulator
Sandsynligheds Kalkulator
Gennemsnit Kalkulator