🔬 Advanced

Variance Calculator – Population & Sample Variance

Calculate variance and standard deviation for a data set. Supports population and sample variance. Free online statistics calculator for instant results.

Wat is Variance?

Variance meet de uitbreiding van een dataset — hoe ver de waarden zijn van de gemiddelde. Een laag variantere betekent dat de gegevenspunten zich dicht bij de gemiddelde bevinden; een hoog variantere betekent dat ze zich ver uit elkaar bevinden.

Variance wordt berekend als het gemiddelde van de opgetelde verschillen van de gemiddelde:

Bevolkingsvariatie (σ²): σ² = Σ(xᵢ − μ)² / N
Steekproefvariatie (s²): s² = Σ(xᵢ − x̄)² / (N−1)

Waarbij xᵢ is elk gegevenspunt, μ (of x̄) is het gemiddelde, en N is het aantal waarden. De standaarddeviatie is eenvoudigweg de wortel van de variantere — het is in dezelfde eenheden als de oorspronkelijke gegevens, waardoor het beter te interpreteren is.

Waarom worden de verschillen gekwadraat? Twee redenen: (1) kwadreren elimineert negatieve waarden zodat afwijkingen boven en onder de gemiddelde niet worden gecanceld, en (2) kwadreren geeft ongelijke gewichten aan uitstekers, waardoor de variantere gevoelig is voor extreme waarden. Deze eigenschap is zowel een voordeel (uitstekersdetectie) als een nadeel (uitstekersgevoeligheid). Voor gegevens met extreme uitstekers, overweeg het gebruik van de mediaan absolute afwijking (MAD) als een meer robuuste alternatief.

Bevolkings- vs. Steekproefvariatie

De sleutelverschillen is de teller — N vs. (N−1) — bekend als Bessel's correctie:

Type	Teller	Gebruik wanneer	Symbool
Bevolkingsvariatie	N	Je hebt gegevens over de hele bevolking	σ²
Steekproefvariatie	N−1	Je hebt een steekproef uit een grotere bevolking	s²

In de praktijk is de meeste reële wereldgegevens een steekproef. Het gebruik van N−1 (steekproefvariatie) produceert een ongebiaseerd schatting van de ware bevolkingsvariatie. Het gebruik van N (bevolkingsvariatie) op een steekproef onder- en schat de ware variantere systematisch.

Forbeeld: Het testen van een nieuwe medicijn op 50 patiënten betekent het gebruik van steekproefvariatie (s²). Het analyseren van alle studenten in een klas betekent het gebruik van bevolkingsvariatie (σ²).

Waarom werkt Bessel's correctie? Als je de steekproefgemiddelde berekent, gebruik je één "graad van vrijheid" — het gemiddelde wordt berekend vanuit de gegevens zelf, dus de afwijkingen van het gemiddelde zijn niet volledig onafhankelijk. Door te delen door (N−1) in plaats van N compenseert dit de verlies van één graad van vrijheid, waardoor een ongebiaseerde schatting van de bevolkingsvariatie wordt verkregen. Als N groot wordt, wordt de verschillen tussen N en N−1 onbeduidend.

Stappen voor varianterecalcultatie

Gegeven de dataset: 4, 7, 13, 2, 8

Bereken het gemiddelde: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
Find de afwijkingen van het gemiddelde: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
Kwadreren de afwijkingen: 7,84; 0,04; 38,44; 23,04; 1,44
Sum van kwadraten: 7,84+0,04+38,44+23,04+1,44 = 70,8
Bevolkingsvariatie: 70,8 ÷ 5 = 14,16
Steekproefvariatie: 70,8 ÷ 4 = 17,7
Standaarddeviatie: √14,16 = 3,76 (bevolkingsvariatie) of √17,7 = 4,21 (steekproefvariatie)

Korte formule voor varianterecultatie

Er is een equivalent "computatieve" formule die de afwijkingen expliciet berekent, handig wanneer handmatig of in spreadsheets wordt berekend:

σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N

For steekproefvariatie: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)

Met onze voorbeeldgegevens (4, 7, 13, 2, 8):

Σxᵢ = 34, dus (Σxᵢ)² = 1.156
Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
Bevolkingsvariatie = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16 ✓
Steekproefvariatie = 70,8 / 4 = 17,7 ✓

Deze formule is nummeriek identiek, maar kan lijden aan precisieproblemen wanneer waarden zeer groot zijn. Voor computatieve stabiliteit wordt de online algoritme van Welford (die één waarde tegelijk verwerkt) in softwareimplementaties voorkeur.

Verwante Statistische Maatregelen

Variatie is een van de verschillende maatregelen voor spreiding. Elke heeft verschillende sterke punten:

Maatregel	Formule	Eenheden	Robuustheid tegen Outliers	Best voor
Variatie (σ² of s²)	Gemiddelde van opgetelde afwijkingen	Verkregen eenheden	Laag — zeer gevoelig	Theoretische statistiek, ANOVA
Standaardafwijking (σ of s)	√Variatie	Zelfde als gegevens	Laag	Verwerving van spreiding in oorspronkelijke eenheden
Range	Max − Min	Zelfde als gegevens	Extreem laag	Snelle controle, kleine monsters
Interkwartielbereik (IQR)	Q3 − Q1	Zelfde als gegevens	Hoog	Verstoorde verdelingen, boxplots
Gemiddelde Absoluut Afwijking (MAD)	Gemiddelde van \|xᵢ − gemiddelde\|	Zelfde als gegevens	Middelmatig	Intuïtieve maatregel voor spreiding
Coëfficiënt van Variatie (CV)	(SD / Gemiddelde) × 100%	Percentage	Laag	Compareren van spreiding over verschillende schalen

Voor normale (belvormige) verdelingen heeft de standaardafwijking een speciale interpretatie: ongeveer 68% van de gegevens valt binnen ±1 SD van het gemiddelde, 95% binnen ±2 SD, en 99,7% binnen ±3 SD. Dit is de empirische regel (68-95-99,7-regel).

Variatie in Tabellen en Programmeren

De meeste tools hebben ingebouwde variatiefuncties. Zorg ervoor dat je de juiste versie (populatie vs. monster) kiest:

Tool	Monster Variatie	Populatie Variatie
Excel / Google Sheets	`VAR.S(range)` of `VAR(range)`	`VAR.P(range)` of `VARP(range)`
Python (NumPy)	`np.var(data, ddof=1)`	`np.var(data)`
Python (statistics)	`statistics.variance(data)`	`statistics.pvariance(data)`
R	`var(x)`	`var(x) * (n-1)/n`
JavaScript	Handmatige berekening (geen ingebouwd)	Handmatige berekening
SQL (PostgreSQL)	`VAR_SAMP(column)`	`VAR_POP(column)`
MATLAB	`var(x)`	`var(x, 1)`

Opmerking: Pythons NumPy gebruikt standaard de populatie variatie (ddof=0), terwijl Rs var() standaard de monster variatie gebruikt. Dit is een veelvoorkomende bron van verwarring bij het vergelijken van resultaten over talen.

Praktische Toepassingen van Variatie

Field	Toepassing	Forbeeld
Financiën	Investeringsrisico	Hoog variatie = meer volatiele aandelenrendementen
Productie	Kwaliteitscontrole	Laag variatie = consistente productdimensies
Geneeskunde	Medische proeven	Meetbaarheid van variatie in patiëntenrespons
Sportwetenschap	Prestatieanalyse	Variatie in atletische prestaties over het seizoen
Onderwijs	Testresultatenanalyse	Verstoorde spreiding van studentenprestaties

Variatie in Financiën: Portefeuille Risico

In de financiën meet variatie en standaardafwijking het investeringsrisico. Hogere variatie betekent dat de rendementen meer schommelen — de investering is riskanter. Harry Markowitz' Modern Portefeuille Theorie (1952, Nobelprijs 1990) gebruikt variatie als centrale risicomaatregel.

Voor een portefeuille van twee activa hangt de gecombineerde variatie af van individuele variaties en de correlatie tussen activa:

σ²_portefeuille = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂

Waarin w = gewicht, σ² = variatie, en ρ = correlatie. Als ρ < 1 (activa bewegen niet in perfecte harmonie), is de portefeuille variatie kleiner dan de gewogen gemiddelde van individuele variaties. Dit is de wiskundige basis van diversificatie — combineren van onafhankelijke activa vermindert het totale risico zonder het verwachte rendement proportioneel te verminderen.

Activaklasse (2000–2023)	Jaarlijks Rendement	Jaarlijks SD (Vluchtigheid)
VS Groot Kapitaal (S&P 500)	~7,5%	~15%
VS Klein Kapitaal (Russell 2000)	~7,0%	~20%
Internationale Ontwikkelde (EAFE)	~4,5%	~17%
VS Obligaties (Aggregaat)	~4,0%	~4%
Goud	~8,0%	~16%

Een portefeuille die combinaties aandelen en obligaties heeft, heeft een standaardafwijking die aanzienlijk lager is dan aandelen alleen, terwijl het nog steeds de meeste van de aandelenrendementen opvangt.

Variatie in Kwaliteitscontrole (Six Sigma)

Productie gebruikt variatie om productkwaliteit te controleren. De Six Sigma methode, ontwikkeld door Motorola in de jaren 80, streeft ernaar om de procesvariabele te verminderen tot bijna geen producten buiten de specificatiegrenzen vallen.

Sigma niveau	Defecten per Miljoen (DPMO)	Yield	Procescapaciteit (Cpk)
1σ	691.462	30,9%	0,33
2σ	308.538	69,1%	0,67
3σ	66.807	93,3%	1,00
4σ	6.210	99,38%	1,33
5σ	233	99.977%	1,67
6σ	3,4	99.99966%	2,00

Een proces dat op 6σ draait, produceert slechts 3,4 defecten per miljoen kansen. De procescapaciteit Cpk staat rechtstreeks in verband met variatie: Cpk = (USL − μ) / (3σ), waarbij USL de bovenste specificatiegrens is. Door variatie te verminderen (door betere machines, training of materialen) neemt Cpk toe en duwt het proces naar Six Sigma kwaliteit.

Werkevallen voorbeelden uit verschillende sectoren

Deze werkevallen laten zien hoe variatie wordt berekend en geïnterpreteerd in de praktijk:

Forbeeld 1: Stortingsrendement volatiliteit

Maandelijkse rendementen voor een aandeel over 6 maanden: +3,2%, −1,5%, +4,8%, −0,7%, +2,1%, +1,6%

Gemiddelde = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
Deviaties: 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
Verkregen: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
Sum van verkregen = 27,947
Steekproefvariatie = 27,947/5 = 5,589 (%²)
Standaarddeviatie = √5,589 = 2,364% per maand
Jaarlijks gemiddelde volatiliteit ≈ 2,364% × √12 = 8,19%

Dit aandeel heeft gemiddelde volatiliteit. De S&P 500 heeft historisch ongeveer 15% jaarlijks gemiddelde volatiliteit, dus dit aandeel is ongeveer de helft zo volatiel als de brede markt.

Forbeeld 2: Kwaliteitscontrole in de productie

Een fabriek produceert schroeven met een doelstelling van 50,00 mm. Een steekproef van 8 schroeven meet: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

Gemiddelde = 400,05/8 = 50,00625 mm
Steekproefvariatie = 0,000655 mm²
Standaarddeviatie = 0,0256 mm
Met specifieke limieten van 50,00 ± 0,10 mm: Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22

Een Cpk van 1,22 betekent dat de proces in staat is, maar heeft weinig marge. De industrie standaard doel is Cpk ≥ 1,33 (4σ capaciteit), dus dit proces moet nauwkeuriger worden om dat niveau te bereiken.

Forbeeld 3: Studenten examenresultaten

Een klas van 10 studenten scoort: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 op een examen.

Gemiddelde = 810/10 = 81,0
Bevolkingsvariatie (gehele klas) = 72,2
Standaarddeviatie = 8,50
Coëfficiënt van variatie = 8,50/81,0 × 100% = 10,5%

Een CV van 10,5% geeft aan dat de spreiding gemiddeld is — de meeste studenten scoorden binnen een redelijke range van het gemiddelde. Als CV meer dan 25% was, zou de docent onderzoeken of de test vragen te moeilijk waren voor sommige studenten of of er een bimodale verdeling (twee distincte groepen) was.

Algemene fouten bij het berekenen van variatie

Vermy de volgende frequente fouten:

Fout	Waarom het fout is	Correctie
Gebruik van N in plaats van N−1 voor steekproeven	Onderinschatting van de werkelijke bevolkingsvariatie	Gebruik N−1 voor elk gegevens dat een steekproef is van een grotere bevolking
Averageren van absolute deviaties in plaats van het squaring	Geef MAD, niet variatie	Square elke deviatie, dan gemiddelde. Neem √ voor standaarddeviatie
Vergeten om voor het squaring	Positieve en negatieve deviaties annuleren elkaar uit, geven ~0	Alleen squaring doen
Vergeten om voor het squaring	Vergeten om voor het squaring	Alleen squaring doen
Compareren van variatie over verschillende schalen	Variatie hangt af van de eenheden; $² ≠ kg²	Gebruik coëfficiënt van variatie (CV) voor vergelijking over schalen
Assumeren dat variatie = standaarddeviatie	Variatie is SD²; eenheden zijn gekwadrateerd	Nemen de vierkantswortel van variatie om SD te krijgen

ANOVA: Vergelijking van Variatie Tussen Groepen

Analyse van Variatie (ANOVA) is een statistische test die de gemiddelden van meerdere groepen vergelijkt door de variatie te analyseren. Hoewel de naam het zegt, test het of de gemiddelden verschillen, niet of de variaties verschillen.

ANOVA deelt de totale variatie in twee componenten:

Variatie tussen groepen: Hoeveel groepsgemiddelden afwijken van het algemene gemiddelde
Variatie binnen groepen: Hoeveel individuele waarden variëren binnen elke groep

De F-statistiek = Variatie tussen groepen / Variatie binnen groepen. Een grote F betekent dat de groepen meer verschillen van elkaar dan verwacht door toeval. Als F de kritische waarde (of p < 0,05) overschrijdt, zijn ten minste één groepsgemiddelde significant verschillend.

Forbeeld: Vergelijking van testcijfers van studenten die onderwezen zijn door drie verschillende methoden. ANOVA vertelt je of de onderwijsmethode van invloed is; post-hoc tests (Tukey, Bonferroni) vertellen je welke methoden verschillen.

💡 Weet je dat?

Variatie werd geïntroduceerd door Ronald Fisher in 1918 — hetzelfde artikel waarin hij de term "variatie" bedacht.
In de financiën is variatie de basis van Modern Portfolio Theory. De variatie van een portefeuille hangt niet alleen af van de individuele assetvariatie, maar ook van de correlaties tussen assets.
De coëfficiënt van variatie (CV = standaarddeviatie / gemiddelde × 100%) maakt het mogelijk om de variabiliteit te vergelijken tussen datasets met verschillende eenheden of schalen.
Chebyshev's onevenwichtigheid garandeert dat voor elke verdeling (niet alleen normaal), minstens 75% van de gegevens binnen ±2 standaardafwijkingen en minstens 89% binnen ±3 standaardafwijkingen valt. Dit is zwakker dan de empirische regel, maar toepasbaar op alle verdelingen.

Veelgestelde Vragen

Wat is het verschil tussen variatie en standaarddeviatie?

Variatie is het gemiddelde van de opgetelde afwijkingen van de gemiddelde; standaarddeviatie is de wortel van de variatie. Standaarddeviatie is in dezelfde eenheden als de oorspronkelijke gegevens (bijv. dollars, kg, seconden), wat het makkelijker te interpreteren maakt. Variatie is handig voor wiskundige operaties (variaties van onafhankelijke variabelen worden rechtstreeks toegevoegd), terwijl standaarddeviatie beter geschikt is voor het beschrijven van de spreiding voor een niet-technische doelgroep.

Wanneer moet ik variatie van de bevolking gebruiken versus steekproef variatie?

Gebruik variatie van de bevolking wanneer uw gegevens alle leden van de groep bevatten die u analyseert (bijv. alle medewerkers in een bedrijf). Gebruik steekproef variatie wanneer uw gegevens een subset zijn van een grotere groep (bijv. een enquête van 500 kiezers om de mening van alle kiezers te schatten). In de meeste reële onderzoeken en statistiek is steekproef variatie geschikt.

Kan variatie negatief zijn?

Nee. Variatie is altijd 0 of positief omdat het wordt berekend van opgetelde waarden. Variatie = 0 alleen wanneer alle gegevenspunten identiek zijn (geen spreiding). Een negatieve variatie is wiskundig onmogelijk en geeft aan dat een berekeningfout is gemaakt.

Wat is een "hoog" of "laag" variatie?

Hoog en laag zijn relatief ten opzichte van de schaal en context van de gegevens. Een variatie van 10 is "laag" voor menselijke lengtes in cm, maar "hoog" voor lengtes in meters. Het coëfficiënt van de variatie (SD / gemiddelde × 100%) is onafhankelijk van de schaal en maakt het mogelijk om verschillende datasets te vergelijken. In de kwaliteitscontrole definiëren specificaties de aanvaardbare variatieruimten voor elke meting.

Hoe staat variatie in verband met de normale verdeling?

De normale (Gaussische) verdeling wordt volledig beschreven door slechts twee parameters: het gemiddelde (μ) en de variatie (σ²). Het bekende belcurve is breed wanneer de variatie groot is en smaller wanneer de variatie klein is. Voor normale gegevens geldt de empirische regel: 68,3% binnen ±1σ, 95,4% binnen ±2σ en 99,7% binnen ±3σ. Veel statistische tests (t-test, ANOVA, regressie) nemen aan dat de gegevens een normale verdeling volgen of dat de steekproefgemiddelden ongeveer normaal zijn (via de Centrale Limietstelling).

Wat is gegroepeerde variatie?

Gegroepeerde variatie is een gewogen gemiddelde van steekproefvariaties uit twee of meer groepen, gebruikt in de twee-steekproef-t-test wanneer u aanneemt dat de variaties gelijk zijn tussen groepen. De formule is: s²_pooled = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Dit produceert een enkel variatieniveau dat informatie uit beide steekproeven incorporeert, waardoor de statistische kracht toeneemt wanneer de gelijke-verdelingsveronderstelling geldig is.