Variance Calculator – Population & Sample Variance
Calculate variance and standard deviation for a data set. Supports population and sample variance. Free online statistics calculator for instant results.
Wat is Variance?
Variance meet de uitbreiding van een dataset — hoe ver de waarden zijn van de gemiddelde. Een laag variantere betekent dat de gegevenspunten zich dicht bij de gemiddelde bevinden; een hoog variantere betekent dat ze zich ver uit elkaar bevinden.
Variance wordt berekend als het gemiddelde van de opgetelde verschillen van de gemiddelde:
- Bevolkingsvariatie (σ²): σ² = Σ(xᵢ − μ)² / N
- Steekproefvariatie (s²): s² = Σ(xᵢ − x̄)² / (N−1)
Waarbij xᵢ is elk gegevenspunt, μ (of x̄) is het gemiddelde, en N is het aantal waarden. De standaarddeviatie is eenvoudigweg de wortel van de variantere — het is in dezelfde eenheden als de oorspronkelijke gegevens, waardoor het beter te interpreteren is.
Waarom worden de verschillen gekwadraat? Twee redenen: (1) kwadreren elimineert negatieve waarden zodat afwijkingen boven en onder de gemiddelde niet worden gecanceld, en (2) kwadreren geeft ongelijke gewichten aan uitstekers, waardoor de variantere gevoelig is voor extreme waarden. Deze eigenschap is zowel een voordeel (uitstekersdetectie) als een nadeel (uitstekersgevoeligheid). Voor gegevens met extreme uitstekers, overweeg het gebruik van de mediaan absolute afwijking (MAD) als een meer robuuste alternatief.
Bevolkings- vs. Steekproefvariatie
De sleutelverschillen is de teller — N vs. (N−1) — bekend als Bessel's correctie:
| Type | Teller | Gebruik wanneer | Symbool |
|---|---|---|---|
| Bevolkingsvariatie | N | Je hebt gegevens over de hele bevolking | σ² |
| Steekproefvariatie | N−1 | Je hebt een steekproef uit een grotere bevolking | s² |
In de praktijk is de meeste reële wereldgegevens een steekproef. Het gebruik van N−1 (steekproefvariatie) produceert een ongebiaseerd schatting van de ware bevolkingsvariatie. Het gebruik van N (bevolkingsvariatie) op een steekproef onder- en schat de ware variantere systematisch.
Forbeeld: Het testen van een nieuwe medicijn op 50 patiënten betekent het gebruik van steekproefvariatie (s²). Het analyseren van alle studenten in een klas betekent het gebruik van bevolkingsvariatie (σ²).
Waarom werkt Bessel's correctie? Als je de steekproefgemiddelde berekent, gebruik je één "graad van vrijheid" — het gemiddelde wordt berekend vanuit de gegevens zelf, dus de afwijkingen van het gemiddelde zijn niet volledig onafhankelijk. Door te delen door (N−1) in plaats van N compenseert dit de verlies van één graad van vrijheid, waardoor een ongebiaseerde schatting van de bevolkingsvariatie wordt verkregen. Als N groot wordt, wordt de verschillen tussen N en N−1 onbeduidend.
Stappen voor varianterecalcultatie
Gegeven de dataset: 4, 7, 13, 2, 8
- Bereken het gemiddelde: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
- Find de afwijkingen van het gemiddelde: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
- Kwadreren de afwijkingen: 7,84; 0,04; 38,44; 23,04; 1,44
- Sum van kwadraten: 7,84+0,04+38,44+23,04+1,44 = 70,8
- Bevolkingsvariatie: 70,8 ÷ 5 = 14,16
- Steekproefvariatie: 70,8 ÷ 4 = 17,7
- Standaarddeviatie: √14,16 = 3,76 (bevolkingsvariatie) of √17,7 = 4,21 (steekproefvariatie)
Korte formule voor varianterecultatie
Er is een equivalent "computatieve" formule die de afwijkingen expliciet berekent, handig wanneer handmatig of in spreadsheets wordt berekend:
σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N
For steekproefvariatie: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)
Met onze voorbeeldgegevens (4, 7, 13, 2, 8):
- Σxᵢ = 34, dus (Σxᵢ)² = 1.156
- Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
- Bevolkingsvariatie = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16 ✓
- Steekproefvariatie = 70,8 / 4 = 17,7 ✓
Deze formule is nummeriek identiek, maar kan lijden aan precisieproblemen wanneer waarden zeer groot zijn. Voor computatieve stabiliteit wordt de online algoritme van Welford (die één waarde tegelijk verwerkt) in softwareimplementaties voorkeur.
Verwante Statistische Maatregelen
Variatie is een van de verschillende maatregelen voor spreiding. Elke heeft verschillende sterke punten:
| Maatregel | Formule | Eenheden | Robuustheid tegen Outliers | Best voor |
|---|---|---|---|---|
| Variatie (σ² of s²) | Gemiddelde van opgetelde afwijkingen | Verkregen eenheden | Laag — zeer gevoelig | Theoretische statistiek, ANOVA |
| Standaardafwijking (σ of s) | √Variatie | Zelfde als gegevens | Laag | Verwerving van spreiding in oorspronkelijke eenheden |
| Range | Max − Min | Zelfde als gegevens | Extreem laag | Snelle controle, kleine monsters |
| Interkwartielbereik (IQR) | Q3 − Q1 | Zelfde als gegevens | Hoog | Verstoorde verdelingen, boxplots |
| Gemiddelde Absoluut Afwijking (MAD) | Gemiddelde van |xᵢ − gemiddelde| | Zelfde als gegevens | Middelmatig | Intuïtieve maatregel voor spreiding |
| Coëfficiënt van Variatie (CV) | (SD / Gemiddelde) × 100% | Percentage | Laag | Compareren van spreiding over verschillende schalen |
Voor normale (belvormige) verdelingen heeft de standaardafwijking een speciale interpretatie: ongeveer 68% van de gegevens valt binnen ±1 SD van het gemiddelde, 95% binnen ±2 SD, en 99,7% binnen ±3 SD. Dit is de empirische regel (68-95-99,7-regel).
Variatie in Tabellen en Programmeren
De meeste tools hebben ingebouwde variatiefuncties. Zorg ervoor dat je de juiste versie (populatie vs. monster) kiest:
| Tool | Monster Variatie | Populatie Variatie |
|---|---|---|
| Excel / Google Sheets | VAR.S(range) of VAR(range) | VAR.P(range) of VARP(range) |
| Python (NumPy) | np.var(data, ddof=1) | np.var(data) |
| Python (statistics) | statistics.variance(data) | statistics.pvariance(data) |
| R | var(x) | var(x) * (n-1)/n |
| JavaScript | Handmatige berekening (geen ingebouwd) | Handmatige berekening |
| SQL (PostgreSQL) | VAR_SAMP(column) | VAR_POP(column) |
| MATLAB | var(x) | var(x, 1) |
Opmerking: Pythons NumPy gebruikt standaard de populatie variatie (ddof=0), terwijl Rs var() standaard de monster variatie gebruikt. Dit is een veelvoorkomende bron van verwarring bij het vergelijken van resultaten over talen.
Praktische Toepassingen van Variatie
| Field | Toepassing | Forbeeld |
|---|---|---|
| Financiën | Investeringsrisico | Hoog variatie = meer volatiele aandelenrendementen |
| Productie | Kwaliteitscontrole | Laag variatie = consistente productdimensies |
| Geneeskunde | Medische proeven | Meetbaarheid van variatie in patiëntenrespons |
| Sportwetenschap | Prestatieanalyse | Variatie in atletische prestaties over het seizoen |
| Onderwijs | Testresultatenanalyse | Verstoorde spreiding van studentenprestaties |
Variatie in Financiën: Portefeuille Risico
In de financiën meet variatie en standaardafwijking het investeringsrisico. Hogere variatie betekent dat de rendementen meer schommelen — de investering is riskanter. Harry Markowitz' Modern Portefeuille Theorie (1952, Nobelprijs 1990) gebruikt variatie als centrale risicomaatregel.
Voor een portefeuille van twee activa hangt de gecombineerde variatie af van individuele variaties en de correlatie tussen activa:
σ²portefeuille = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂
Waarin w = gewicht, σ² = variatie, en ρ = correlatie. Als ρ < 1 (activa bewegen niet in perfecte harmonie), is de portefeuille variatie kleiner dan de gewogen gemiddelde van individuele variaties. Dit is de wiskundige basis van diversificatie — combineren van onafhankelijke activa vermindert het totale risico zonder het verwachte rendement proportioneel te verminderen.
| Activaklasse (2000–2023) | Jaarlijks Rendement | Jaarlijks SD (Vluchtigheid) |
|---|---|---|
| VS Groot Kapitaal (S&P 500) | ~7,5% | ~15% |
| VS Klein Kapitaal (Russell 2000) | ~7,0% | ~20% |
| Internationale Ontwikkelde (EAFE) | ~4,5% | ~17% |
| VS Obligaties (Aggregaat) | ~4,0% | ~4% |
| Goud | ~8,0% | ~16% |
Een portefeuille die combinaties aandelen en obligaties heeft, heeft een standaardafwijking die aanzienlijk lager is dan aandelen alleen, terwijl het nog steeds de meeste van de aandelenrendementen opvangt.
Variatie in Kwaliteitscontrole (Six Sigma)
Productie gebruikt variatie om productkwaliteit te controleren. De Six Sigma methode, ontwikkeld door Motorola in de jaren 80, streeft ernaar om de procesvariabele te verminderen tot bijna geen producten buiten de specificatiegrenzen vallen.
| Sigma niveau | Defecten per Miljoen (DPMO) | Yield | Procescapaciteit (Cpk) |
|---|---|---|---|
| 1σ | 691.462 | 30,9% | 0,33 |
| 2σ | 308.538 | 69,1% | 0,67 |
| 3σ | 66.807 | 93,3% | 1,00 |
| 4σ | 6.210 | 99,38% | 1,33 |
| 5σ | 233 | 99.977% | 1,67 |
| 6σ | 3,4 | 99.99966% | 2,00 |
Een proces dat op 6σ draait, produceert slechts 3,4 defecten per miljoen kansen. De procescapaciteit Cpk staat rechtstreeks in verband met variatie: Cpk = (USL − μ) / (3σ), waarbij USL de bovenste specificatiegrens is. Door variatie te verminderen (door betere machines, training of materialen) neemt Cpk toe en duwt het proces naar Six Sigma kwaliteit.
Werkevallen voorbeelden uit verschillende sectoren
Deze werkevallen laten zien hoe variatie wordt berekend en geïnterpreteerd in de praktijk:
Forbeeld 1: Stortingsrendement volatiliteit
Maandelijkse rendementen voor een aandeel over 6 maanden: +3,2%, −1,5%, +4,8%, −0,7%, +2,1%, +1,6%
- Gemiddelde = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
- Deviaties: 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
- Verkregen: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
- Sum van verkregen = 27,947
- Steekproefvariatie = 27,947/5 = 5,589 (%²)
- Standaarddeviatie = √5,589 = 2,364% per maand
- Jaarlijks gemiddelde volatiliteit ≈ 2,364% × √12 = 8,19%
Dit aandeel heeft gemiddelde volatiliteit. De S&P 500 heeft historisch ongeveer 15% jaarlijks gemiddelde volatiliteit, dus dit aandeel is ongeveer de helft zo volatiel als de brede markt.
Forbeeld 2: Kwaliteitscontrole in de productie
Een fabriek produceert schroeven met een doelstelling van 50,00 mm. Een steekproef van 8 schroeven meet: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.
- Gemiddelde = 400,05/8 = 50,00625 mm
- Steekproefvariatie = 0,000655 mm²
- Standaarddeviatie = 0,0256 mm
- Met specifieke limieten van 50,00 ± 0,10 mm: Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22
Een Cpk van 1,22 betekent dat de proces in staat is, maar heeft weinig marge. De industrie standaard doel is Cpk ≥ 1,33 (4σ capaciteit), dus dit proces moet nauwkeuriger worden om dat niveau te bereiken.
Forbeeld 3: Studenten examenresultaten
Een klas van 10 studenten scoort: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 op een examen.
- Gemiddelde = 810/10 = 81,0
- Bevolkingsvariatie (gehele klas) = 72,2
- Standaarddeviatie = 8,50
- Coëfficiënt van variatie = 8,50/81,0 × 100% = 10,5%
Een CV van 10,5% geeft aan dat de spreiding gemiddeld is — de meeste studenten scoorden binnen een redelijke range van het gemiddelde. Als CV meer dan 25% was, zou de docent onderzoeken of de test vragen te moeilijk waren voor sommige studenten of of er een bimodale verdeling (twee distincte groepen) was.
Algemene fouten bij het berekenen van variatie
Vermy de volgende frequente fouten:
| Fout | Waarom het fout is | Correctie |
|---|---|---|
| Gebruik van N in plaats van N−1 voor steekproeven | Onderinschatting van de werkelijke bevolkingsvariatie | Gebruik N−1 voor elk gegevens dat een steekproef is van een grotere bevolking |
| Averageren van absolute deviaties in plaats van het squaring | Geef MAD, niet variatie | Square elke deviatie, dan gemiddelde. Neem √ voor standaarddeviatie |
| Vergeten om voor het squaring | Positieve en negatieve deviaties annuleren elkaar uit, geven ~0 | Alleen squaring doen |
| Vergeten om voor het squaring | Vergeten om voor het squaring | Alleen squaring doen |
| Compareren van variatie over verschillende schalen | Variatie hangt af van de eenheden; $² ≠ kg² | Gebruik coëfficiënt van variatie (CV) voor vergelijking over schalen |
| Assumeren dat variatie = standaarddeviatie | Variatie is SD²; eenheden zijn gekwadrateerd | Nemen de vierkantswortel van variatie om SD te krijgen |
ANOVA: Vergelijking van Variatie Tussen Groepen
Analyse van Variatie (ANOVA) is een statistische test die de gemiddelden van meerdere groepen vergelijkt door de variatie te analyseren. Hoewel de naam het zegt, test het of de gemiddelden verschillen, niet of de variaties verschillen.
ANOVA deelt de totale variatie in twee componenten:
- Variatie tussen groepen: Hoeveel groepsgemiddelden afwijken van het algemene gemiddelde
- Variatie binnen groepen: Hoeveel individuele waarden variëren binnen elke groep
De F-statistiek = Variatie tussen groepen / Variatie binnen groepen. Een grote F betekent dat de groepen meer verschillen van elkaar dan verwacht door toeval. Als F de kritische waarde (of p < 0,05) overschrijdt, zijn ten minste één groepsgemiddelde significant verschillend.
Forbeeld: Vergelijking van testcijfers van studenten die onderwezen zijn door drie verschillende methoden. ANOVA vertelt je of de onderwijsmethode van invloed is; post-hoc tests (Tukey, Bonferroni) vertellen je welke methoden verschillen.
💡 Weet je dat?
- Variatie werd geïntroduceerd door Ronald Fisher in 1918 — hetzelfde artikel waarin hij de term "variatie" bedacht.
- In de financiën is variatie de basis van Modern Portfolio Theory. De variatie van een portefeuille hangt niet alleen af van de individuele assetvariatie, maar ook van de correlaties tussen assets.
- De coëfficiënt van variatie (CV = standaarddeviatie / gemiddelde × 100%) maakt het mogelijk om de variabiliteit te vergelijken tussen datasets met verschillende eenheden of schalen.
- Chebyshev's onevenwichtigheid garandeert dat voor elke verdeling (niet alleen normaal), minstens 75% van de gegevens binnen ±2 standaardafwijkingen en minstens 89% binnen ±3 standaardafwijkingen valt. Dit is zwakker dan de empirische regel, maar toepasbaar op alle verdelingen.
Veelgestelde Vragen
Wat is het verschil tussen variatie en standaarddeviatie?
Variatie is het gemiddelde van de opgetelde afwijkingen van de gemiddelde; standaarddeviatie is de wortel van de variatie. Standaarddeviatie is in dezelfde eenheden als de oorspronkelijke gegevens (bijv. dollars, kg, seconden), wat het makkelijker te interpreteren maakt. Variatie is handig voor wiskundige operaties (variaties van onafhankelijke variabelen worden rechtstreeks toegevoegd), terwijl standaarddeviatie beter geschikt is voor het beschrijven van de spreiding voor een niet-technische doelgroep.
Wanneer moet ik variatie van de bevolking gebruiken versus steekproef variatie?
Gebruik variatie van de bevolking wanneer uw gegevens alle leden van de groep bevatten die u analyseert (bijv. alle medewerkers in een bedrijf). Gebruik steekproef variatie wanneer uw gegevens een subset zijn van een grotere groep (bijv. een enquête van 500 kiezers om de mening van alle kiezers te schatten). In de meeste reële onderzoeken en statistiek is steekproef variatie geschikt.
Kan variatie negatief zijn?
Nee. Variatie is altijd 0 of positief omdat het wordt berekend van opgetelde waarden. Variatie = 0 alleen wanneer alle gegevenspunten identiek zijn (geen spreiding). Een negatieve variatie is wiskundig onmogelijk en geeft aan dat een berekeningfout is gemaakt.
Wat is een "hoog" of "laag" variatie?
Hoog en laag zijn relatief ten opzichte van de schaal en context van de gegevens. Een variatie van 10 is "laag" voor menselijke lengtes in cm, maar "hoog" voor lengtes in meters. Het coëfficiënt van de variatie (SD / gemiddelde × 100%) is onafhankelijk van de schaal en maakt het mogelijk om verschillende datasets te vergelijken. In de kwaliteitscontrole definiëren specificaties de aanvaardbare variatieruimten voor elke meting.
Hoe staat variatie in verband met de normale verdeling?
De normale (Gaussische) verdeling wordt volledig beschreven door slechts twee parameters: het gemiddelde (μ) en de variatie (σ²). Het bekende belcurve is breed wanneer de variatie groot is en smaller wanneer de variatie klein is. Voor normale gegevens geldt de empirische regel: 68,3% binnen ±1σ, 95,4% binnen ±2σ en 99,7% binnen ±3σ. Veel statistische tests (t-test, ANOVA, regressie) nemen aan dat de gegevens een normale verdeling volgen of dat de steekproefgemiddelden ongeveer normaal zijn (via de Centrale Limietstelling).
Wat is gegroepeerde variatie?
Gegroepeerde variatie is een gewogen gemiddelde van steekproefvariaties uit twee of meer groepen, gebruikt in de twee-steekproef-t-test wanneer u aanneemt dat de variaties gelijk zijn tussen groepen. De formule is: s²pooled = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Dit produceert een enkel variatieniveau dat informatie uit beide steekproeven incorporeert, waardoor de statistische kracht toeneemt wanneer de gelijke-verdelingsveronderstelling geldig is.