Skip to main content
🔬 Advanced

Variance Calculator – Population & Sample Variance

Calculate variance and standard deviation for a data set. Supports population and sample variance. Free online statistics calculator for instant results.

Wat is Variance?

Variance meet de uitbreiding van een dataset — hoe ver de waarden zijn van de gemiddelde. Een laag variantere betekent dat de gegevenspunten zich dicht bij de gemiddelde bevinden; een hoog variantere betekent dat ze zich ver uit elkaar bevinden.

Variance wordt berekend als het gemiddelde van de opgetelde verschillen van de gemiddelde:

Waarbij xᵢ is elk gegevenspunt, μ (of x̄) is het gemiddelde, en N is het aantal waarden. De standaarddeviatie is eenvoudigweg de wortel van de variantere — het is in dezelfde eenheden als de oorspronkelijke gegevens, waardoor het beter te interpreteren is.

Waarom worden de verschillen gekwadraat? Twee redenen: (1) kwadreren elimineert negatieve waarden zodat afwijkingen boven en onder de gemiddelde niet worden gecanceld, en (2) kwadreren geeft ongelijke gewichten aan uitstekers, waardoor de variantere gevoelig is voor extreme waarden. Deze eigenschap is zowel een voordeel (uitstekersdetectie) als een nadeel (uitstekersgevoeligheid). Voor gegevens met extreme uitstekers, overweeg het gebruik van de mediaan absolute afwijking (MAD) als een meer robuuste alternatief.

Bevolkings- vs. Steekproefvariatie

De sleutelverschillen is de teller — N vs. (N−1) — bekend als Bessel's correctie:

TypeTellerGebruik wanneerSymbool
BevolkingsvariatieNJe hebt gegevens over de hele bevolkingσ²
SteekproefvariatieN−1Je hebt een steekproef uit een grotere bevolking

In de praktijk is de meeste reële wereldgegevens een steekproef. Het gebruik van N−1 (steekproefvariatie) produceert een ongebiaseerd schatting van de ware bevolkingsvariatie. Het gebruik van N (bevolkingsvariatie) op een steekproef onder- en schat de ware variantere systematisch.

Forbeeld: Het testen van een nieuwe medicijn op 50 patiënten betekent het gebruik van steekproefvariatie (s²). Het analyseren van alle studenten in een klas betekent het gebruik van bevolkingsvariatie (σ²).

Waarom werkt Bessel's correctie? Als je de steekproefgemiddelde berekent, gebruik je één "graad van vrijheid" — het gemiddelde wordt berekend vanuit de gegevens zelf, dus de afwijkingen van het gemiddelde zijn niet volledig onafhankelijk. Door te delen door (N−1) in plaats van N compenseert dit de verlies van één graad van vrijheid, waardoor een ongebiaseerde schatting van de bevolkingsvariatie wordt verkregen. Als N groot wordt, wordt de verschillen tussen N en N−1 onbeduidend.

Stappen voor varianterecalcultatie

Gegeven de dataset: 4, 7, 13, 2, 8

  1. Bereken het gemiddelde: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
  2. Find de afwijkingen van het gemiddelde: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
  3. Kwadreren de afwijkingen: 7,84; 0,04; 38,44; 23,04; 1,44
  4. Sum van kwadraten: 7,84+0,04+38,44+23,04+1,44 = 70,8
  5. Bevolkingsvariatie: 70,8 ÷ 5 = 14,16
  6. Steekproefvariatie: 70,8 ÷ 4 = 17,7
  7. Standaarddeviatie: √14,16 = 3,76 (bevolkingsvariatie) of √17,7 = 4,21 (steekproefvariatie)

Korte formule voor varianterecultatie

Er is een equivalent "computatieve" formule die de afwijkingen expliciet berekent, handig wanneer handmatig of in spreadsheets wordt berekend:

σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N

For steekproefvariatie: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)

Met onze voorbeeldgegevens (4, 7, 13, 2, 8):

  1. Σxᵢ = 34, dus (Σxᵢ)² = 1.156
  2. Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
  3. Bevolkingsvariatie = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16
  4. Steekproefvariatie = 70,8 / 4 = 17,7

Deze formule is nummeriek identiek, maar kan lijden aan precisieproblemen wanneer waarden zeer groot zijn. Voor computatieve stabiliteit wordt de online algoritme van Welford (die één waarde tegelijk verwerkt) in softwareimplementaties voorkeur.

Verwante Statistische Maatregelen

Variatie is een van de verschillende maatregelen voor spreiding. Elke heeft verschillende sterke punten:

MaatregelFormuleEenhedenRobuustheid tegen OutliersBest voor
Variatie (σ² of s²)Gemiddelde van opgetelde afwijkingenVerkregen eenhedenLaag — zeer gevoeligTheoretische statistiek, ANOVA
Standaardafwijking (σ of s)√VariatieZelfde als gegevensLaagVerwerving van spreiding in oorspronkelijke eenheden
RangeMax − MinZelfde als gegevensExtreem laagSnelle controle, kleine monsters
Interkwartielbereik (IQR)Q3 − Q1Zelfde als gegevensHoogVerstoorde verdelingen, boxplots
Gemiddelde Absoluut Afwijking (MAD)Gemiddelde van |xᵢ − gemiddelde|Zelfde als gegevensMiddelmatigIntuïtieve maatregel voor spreiding
Coëfficiënt van Variatie (CV)(SD / Gemiddelde) × 100%PercentageLaagCompareren van spreiding over verschillende schalen

Voor normale (belvormige) verdelingen heeft de standaardafwijking een speciale interpretatie: ongeveer 68% van de gegevens valt binnen ±1 SD van het gemiddelde, 95% binnen ±2 SD, en 99,7% binnen ±3 SD. Dit is de empirische regel (68-95-99,7-regel).

Variatie in Tabellen en Programmeren

De meeste tools hebben ingebouwde variatiefuncties. Zorg ervoor dat je de juiste versie (populatie vs. monster) kiest:

ToolMonster VariatiePopulatie Variatie
Excel / Google SheetsVAR.S(range) of VAR(range)VAR.P(range) of VARP(range)
Python (NumPy)np.var(data, ddof=1)np.var(data)
Python (statistics)statistics.variance(data)statistics.pvariance(data)
Rvar(x)var(x) * (n-1)/n
JavaScriptHandmatige berekening (geen ingebouwd)Handmatige berekening
SQL (PostgreSQL)VAR_SAMP(column)VAR_POP(column)
MATLABvar(x)var(x, 1)

Opmerking: Pythons NumPy gebruikt standaard de populatie variatie (ddof=0), terwijl Rs var() standaard de monster variatie gebruikt. Dit is een veelvoorkomende bron van verwarring bij het vergelijken van resultaten over talen.

Praktische Toepassingen van Variatie

FieldToepassingForbeeld
FinanciënInvesteringsrisicoHoog variatie = meer volatiele aandelenrendementen
ProductieKwaliteitscontroleLaag variatie = consistente productdimensies
GeneeskundeMedische proevenMeetbaarheid van variatie in patiëntenrespons
SportwetenschapPrestatieanalyseVariatie in atletische prestaties over het seizoen
OnderwijsTestresultatenanalyseVerstoorde spreiding van studentenprestaties

Variatie in Financiën: Portefeuille Risico

In de financiën meet variatie en standaardafwijking het investeringsrisico. Hogere variatie betekent dat de rendementen meer schommelen — de investering is riskanter. Harry Markowitz' Modern Portefeuille Theorie (1952, Nobelprijs 1990) gebruikt variatie als centrale risicomaatregel.

Voor een portefeuille van twee activa hangt de gecombineerde variatie af van individuele variaties en de correlatie tussen activa:

σ²portefeuille = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂

Waarin w = gewicht, σ² = variatie, en ρ = correlatie. Als ρ < 1 (activa bewegen niet in perfecte harmonie), is de portefeuille variatie kleiner dan de gewogen gemiddelde van individuele variaties. Dit is de wiskundige basis van diversificatie — combineren van onafhankelijke activa vermindert het totale risico zonder het verwachte rendement proportioneel te verminderen.

Activaklasse (2000–2023)Jaarlijks RendementJaarlijks SD (Vluchtigheid)
VS Groot Kapitaal (S&P 500)~7,5%~15%
VS Klein Kapitaal (Russell 2000)~7,0%~20%
Internationale Ontwikkelde (EAFE)~4,5%~17%
VS Obligaties (Aggregaat)~4,0%~4%
Goud~8,0%~16%

Een portefeuille die combinaties aandelen en obligaties heeft, heeft een standaardafwijking die aanzienlijk lager is dan aandelen alleen, terwijl het nog steeds de meeste van de aandelenrendementen opvangt.

Variatie in Kwaliteitscontrole (Six Sigma)

Productie gebruikt variatie om productkwaliteit te controleren. De Six Sigma methode, ontwikkeld door Motorola in de jaren 80, streeft ernaar om de procesvariabele te verminderen tot bijna geen producten buiten de specificatiegrenzen vallen.

Sigma niveauDefecten per Miljoen (DPMO)YieldProcescapaciteit (Cpk)
691.46230,9%0,33
308.53869,1%0,67
66.80793,3%1,00
6.21099,38%1,33
23399.977%1,67
3,499.99966%2,00

Een proces dat op 6σ draait, produceert slechts 3,4 defecten per miljoen kansen. De procescapaciteit Cpk staat rechtstreeks in verband met variatie: Cpk = (USL − μ) / (3σ), waarbij USL de bovenste specificatiegrens is. Door variatie te verminderen (door betere machines, training of materialen) neemt Cpk toe en duwt het proces naar Six Sigma kwaliteit.

Werkevallen voorbeelden uit verschillende sectoren

Deze werkevallen laten zien hoe variatie wordt berekend en geïnterpreteerd in de praktijk:

Forbeeld 1: Stortingsrendement volatiliteit

Maandelijkse rendementen voor een aandeel over 6 maanden: +3,2%, −1,5%, +4,8%, −0,7%, +2,1%, +1,6%

  1. Gemiddelde = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
  2. Deviaties: 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
  3. Verkregen: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
  4. Sum van verkregen = 27,947
  5. Steekproefvariatie = 27,947/5 = 5,589 (%²)
  6. Standaarddeviatie = √5,589 = 2,364% per maand
  7. Jaarlijks gemiddelde volatiliteit ≈ 2,364% × √12 = 8,19%

Dit aandeel heeft gemiddelde volatiliteit. De S&P 500 heeft historisch ongeveer 15% jaarlijks gemiddelde volatiliteit, dus dit aandeel is ongeveer de helft zo volatiel als de brede markt.

Forbeeld 2: Kwaliteitscontrole in de productie

Een fabriek produceert schroeven met een doelstelling van 50,00 mm. Een steekproef van 8 schroeven meet: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

  1. Gemiddelde = 400,05/8 = 50,00625 mm
  2. Steekproefvariatie = 0,000655 mm²
  3. Standaarddeviatie = 0,0256 mm
  4. Met specifieke limieten van 50,00 ± 0,10 mm: Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22

Een Cpk van 1,22 betekent dat de proces in staat is, maar heeft weinig marge. De industrie standaard doel is Cpk ≥ 1,33 (4σ capaciteit), dus dit proces moet nauwkeuriger worden om dat niveau te bereiken.

Forbeeld 3: Studenten examenresultaten

Een klas van 10 studenten scoort: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 op een examen.

  1. Gemiddelde = 810/10 = 81,0
  2. Bevolkingsvariatie (gehele klas) = 72,2
  3. Standaarddeviatie = 8,50
  4. Coëfficiënt van variatie = 8,50/81,0 × 100% = 10,5%

Een CV van 10,5% geeft aan dat de spreiding gemiddeld is — de meeste studenten scoorden binnen een redelijke range van het gemiddelde. Als CV meer dan 25% was, zou de docent onderzoeken of de test vragen te moeilijk waren voor sommige studenten of of er een bimodale verdeling (twee distincte groepen) was.

Algemene fouten bij het berekenen van variatie

Vermy de volgende frequente fouten:

FoutWaarom het fout isCorrectie
Gebruik van N in plaats van N−1 voor steekproevenOnderinschatting van de werkelijke bevolkingsvariatieGebruik N−1 voor elk gegevens dat een steekproef is van een grotere bevolking
Averageren van absolute deviaties in plaats van het squaringGeef MAD, niet variatieSquare elke deviatie, dan gemiddelde. Neem √ voor standaarddeviatie
Vergeten om voor het squaringPositieve en negatieve deviaties annuleren elkaar uit, geven ~0Alleen squaring doen
Vergeten om voor het squaringVergeten om voor het squaringAlleen squaring doen
Compareren van variatie over verschillende schalenVariatie hangt af van de eenheden; $² ≠ kg²Gebruik coëfficiënt van variatie (CV) voor vergelijking over schalen
Assumeren dat variatie = standaarddeviatieVariatie is SD²; eenheden zijn gekwadrateerdNemen de vierkantswortel van variatie om SD te krijgen

ANOVA: Vergelijking van Variatie Tussen Groepen

Analyse van Variatie (ANOVA) is een statistische test die de gemiddelden van meerdere groepen vergelijkt door de variatie te analyseren. Hoewel de naam het zegt, test het of de gemiddelden verschillen, niet of de variaties verschillen.

ANOVA deelt de totale variatie in twee componenten:

De F-statistiek = Variatie tussen groepen / Variatie binnen groepen. Een grote F betekent dat de groepen meer verschillen van elkaar dan verwacht door toeval. Als F de kritische waarde (of p < 0,05) overschrijdt, zijn ten minste één groepsgemiddelde significant verschillend.

Forbeeld: Vergelijking van testcijfers van studenten die onderwezen zijn door drie verschillende methoden. ANOVA vertelt je of de onderwijsmethode van invloed is; post-hoc tests (Tukey, Bonferroni) vertellen je welke methoden verschillen.

💡 Weet je dat?

Veelgestelde Vragen

Wat is het verschil tussen variatie en standaarddeviatie?

Variatie is het gemiddelde van de opgetelde afwijkingen van de gemiddelde; standaarddeviatie is de wortel van de variatie. Standaarddeviatie is in dezelfde eenheden als de oorspronkelijke gegevens (bijv. dollars, kg, seconden), wat het makkelijker te interpreteren maakt. Variatie is handig voor wiskundige operaties (variaties van onafhankelijke variabelen worden rechtstreeks toegevoegd), terwijl standaarddeviatie beter geschikt is voor het beschrijven van de spreiding voor een niet-technische doelgroep.

Wanneer moet ik variatie van de bevolking gebruiken versus steekproef variatie?

Gebruik variatie van de bevolking wanneer uw gegevens alle leden van de groep bevatten die u analyseert (bijv. alle medewerkers in een bedrijf). Gebruik steekproef variatie wanneer uw gegevens een subset zijn van een grotere groep (bijv. een enquête van 500 kiezers om de mening van alle kiezers te schatten). In de meeste reële onderzoeken en statistiek is steekproef variatie geschikt.

Kan variatie negatief zijn?

Nee. Variatie is altijd 0 of positief omdat het wordt berekend van opgetelde waarden. Variatie = 0 alleen wanneer alle gegevenspunten identiek zijn (geen spreiding). Een negatieve variatie is wiskundig onmogelijk en geeft aan dat een berekeningfout is gemaakt.

Wat is een "hoog" of "laag" variatie?

Hoog en laag zijn relatief ten opzichte van de schaal en context van de gegevens. Een variatie van 10 is "laag" voor menselijke lengtes in cm, maar "hoog" voor lengtes in meters. Het coëfficiënt van de variatie (SD / gemiddelde × 100%) is onafhankelijk van de schaal en maakt het mogelijk om verschillende datasets te vergelijken. In de kwaliteitscontrole definiëren specificaties de aanvaardbare variatieruimten voor elke meting.

Hoe staat variatie in verband met de normale verdeling?

De normale (Gaussische) verdeling wordt volledig beschreven door slechts twee parameters: het gemiddelde (μ) en de variatie (σ²). Het bekende belcurve is breed wanneer de variatie groot is en smaller wanneer de variatie klein is. Voor normale gegevens geldt de empirische regel: 68,3% binnen ±1σ, 95,4% binnen ±2σ en 99,7% binnen ±3σ. Veel statistische tests (t-test, ANOVA, regressie) nemen aan dat de gegevens een normale verdeling volgen of dat de steekproefgemiddelden ongeveer normaal zijn (via de Centrale Limietstelling).

Wat is gegroepeerde variatie?

Gegroepeerde variatie is een gewogen gemiddelde van steekproefvariaties uit twee of meer groepen, gebruikt in de twee-steekproef-t-test wanneer u aanneemt dat de variaties gelijk zijn tussen groepen. De formule is: s²pooled = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Dit produceert een enkel variatieniveau dat informatie uit beide steekproeven incorporeert, waardoor de statistische kracht toeneemt wanneer de gelijke-verdelingsveronderstelling geldig is.