Calculator Varianță – Varianță de Populație și de Eșantion
Calculați varianța și deviația standard pentru un set de date. Suportă varianța de populație și de eșantion. Calculator gratuit online de statistici pentru rezultate instant.
Ceea ce este Varianța?
Varianța măsoară dispersia unui set de date — cât de departe sunt valorile de la medie. O varianță mică înseamnă că punctele de date se grupează în jurul mediei; o varianță mare înseamnă că sunt răspândite larg.
Varianța se calculează ca medie a diferențelor pătrate de la medie:
- Varianța populației (σ²): σ² = Σ(xᵢ − μ)² / N
- Varianța eşantionului (s²): s² = Σ(xᵢ − x̄)² / (N−1)
Unde xᵢ este fiecare punct de date, μ (sau x̄) este mediana, și N este numărul de valori. Deviiația standard este simplu rădăcina pătrată a varianței — este în aceeași unitate ca datele originale, făcând-o mai ușor de interpretat.
De ce se pătratează diferențele? Două motive: (1) pătratul elimină valorile negative astfel încât deviațiile deasupra și sub medie să nu se anuleze, și (2) pătratul acordă greutate disproporționată valorilor extreme, făcând varianța sensibilă la valori extreme. Această proprietate este atât o forță (detectarea valorilor extreme), cât și o slăbiciune (sensibilitatea la valorile extreme). Pentru datele cu valori extreme, considerați utilizarea deviației absolute medii (MAD) ca alternativă mai robustă.
Varianța populației vs. eşantionului
Deosebirea cheie este numărătorul — N vs. (N−1) — cunoscută sub numele de corecția lui Bessel:
| Tip | Numărător | Utilizați când | Simbol |
|---|---|---|---|
| Varianța populației | N | Aveți date pe întreaga populație | σ² |
| Varianța eşantionului | N−1 | Aveți un eşantion dintr-o populație mai mare | s² |
În practică, majoritatea datelor reale sunt eşantioane. Utilizarea N−1 (varianța eşantionului) produce o estimare nedreaptă a varianței reale a populației. Utilizarea N (varianța populației) pe un eşantion subestimează sistematic varianța reală.
Exemplu: Testarea unui nou medicament pe 50 de pacienți înseamnă utilizarea varianței eşantionului (s²). Analiza a tuturor elevilor dintr-o clasă înseamnă utilizarea varianței populației (σ²).
De ce funcționează corecția lui Bessel? Când calculați mediana eşantionului, utilizați un "grad de libertate" — mediana este calculată din date, așa că deviațiile de la medie nu sunt complet independente. Împărțirea la (N−1) în loc de N compensă pierderea unui grad de libertate, producând un estimator nedrept al varianței populației. Când N crește, diferența între N și N−1 devine neglijabilă.
Calcularea pas cu pas a varianței
Datele setului: 4, 7, 13, 2, 8
- Calculați mediana: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
- Gasirea deviațiilor de la medie: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
- Pătratul deviațiilor: 7,84; 0,04; 38,44; 23,04; 1,44
- Suma pătratelor: 7,84+0,04+38,44+23,04+1,44 = 70,8
- Varianța populației: 70,8 ÷ 5 = 14,16
- Varianța eşantionului: 70,8 ÷ 4 = 17,7
- Deviiația standard: √14,16 = 3,76 (populație) sau √17,7 = 4,21 (eşantion)
Formula scurtă pentru varianță
Există o formulă echivalentă "computațională" care evită calcularea deviațiilor explicit, utilă când se calculează manual sau în tabelele de calcul:
σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N
Pentru varianța eşantionului: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)
În exemplul nostru de date (4, 7, 13, 2, 8):
- Σxᵢ = 34, așa că (Σxᵢ)² = 1.156
- Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
- Varianța populației = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16 ✓
- Varianța eşantionului = 70,8 / 4 = 17,7 ✓
Această formulă este identică numeric, dar poate suferi de probleme de precizie a numărului în cazul valorilor foarte mari. Pentru stabilitatea calculului, algoritmul online Welford (care procesează valori una câte una) este preferat în implementările software.
Probe Statistice Relaționate
Variabilitatea este una dintre mai multe măsuri de răspândire. Fiecare are puncte forte diferite:
| Măsură | Formula | Unități | Robustitate la anomaliile extreme | Cel mai bun pentru |
|---|---|---|---|---|
| Variance (σ² sau s²) | Medie a deplasărilor pătrate | Unități pătrate | Scăzută — foarte sensibilă | Statistica teoretică, ANOVA |
| Deviatie Standardă (σ sau s) | √Variance | La fel ca datele | Scăzută | Prezentarea răspândirii în unități originale |
| Intervalul de variație | Max - Min | La fel ca datele | Extrem de scăzută | Verificare rapidă, mici eșantioane |
| Intervalul interquartil (IQR) | Q3 - Q1 | La fel ca datele | Înaltă | Distribuții asimetrice, diagrame de box |
| Medie Absolută a Deplasării (MAD) | Medie a |xᵢ - medie| | La fel ca datele | Moderată | Măsură intuitivă a răspândirii |
| Coeficientul de Variație (CV) | (SD / Medie) × 100% | Procentaj | Scăzută | Compararea răspândirii în diferite scalări |
Pentru distribuții normale (bell-curve), deviația standard are o interpretare specială: aproximativ 68% din date se află în ±1 SD de la medie, 95% în ±2 SD, și 99,7% în ±3 SD. Acesta este regula empirică (68-95-99,7).
Variabilitate în Tabele de Calcul și Programe
Majoritatea instrumentelor au funcții de variație integrate. Asigurați-vă că alegeți versiunea corectă (populație vs. eșantion):
| Instrument | Variabilitate a eșantionului | Variabilitatea populației |
|---|---|---|
| Excel / Google Sheets | VAR.S(range) sau VAR(range) | VAR.P(range) sau VARP(range) |
| Python (NumPy) | np.var(data, ddof=1) | np.var(data) |
| Python (statistics) | statistics.variance(data) | statistics.pvariance(data) |
| R | var(x) | var(x) * (n-1)/n |
| JavaScript | Calcul manual (fără funcție integrată) | Calcul manual |
| SQL (PostgreSQL) | VAR_SAMP(column) | VAR_POP(column) |
| MATLAB | var(x) | var(x, 1) |
Nota: Python-ului NumPy îi este specifică variația populației (ddof=0), în timp ce R-ului var() îi este specifică variația eșantionului. Acesta este un punct comun de confuzie când se compară rezultatele între limbi.
Aplicarea Practică a Variabilității
| Domeniul | Aplicare | Exemplu |
|---|---|---|
| Finanțe | Riscul investițiilor | Variabilitate ridicată = fluctuații ale returnurilor de pe piață |
| Producție | Controlul calității | Variabilitate scăzută = dimensiuni constante ale produsului |
| Medicină | Proba clinice | Măsurarea variabilității răspunsurilor pacienților |
| Știința sportului | Analiza performanței | Variabilitatea performanței sportivilor pe parcursul unei sezoane |
| Educație | Analiza scorurilor de test | Compreționarea răspândirii performanței elevilor |
Variabilitate în Finanțe: Riscul Portofoliului
În finanțe, variația și deviația standard măsoară riscul investițiilor. Variabilitatea ridicată înseamnă că returnele fluctuează mai mult — investiția este mai riscantă. Teoria portofoliului modernă a lui Harry Markowitz (1952, Premiul Nobel 1990) folosește variația ca măsură centrală a riscului.
Pentru un portofoliu format din două active, variația combinată depinde de variațiile individuale și de corelația dintre active:
σ²portofoliu = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂
Unde w = greutate, σ² = variație, și ρ = corelație. Când ρ < 1 (activele nu se mișcă în sincron perfect), variația portofoliului este mai mică decât media ponderată a variațiilor individuale. Acesta este baza matematică a diversificării — combinarea activelor necorelate reduce riscul general fără a reduce în mod proporțional așteptarea de returnă.
| Clasa de active (2000-2023) | Returnă anuală | Volatilitate anuală (Volatilitate) |
|---|---|---|
| Capital mare al SUA (S&P 500) | ~7,5% | ~15% |
| Capital mic al SUA (Russell 2000) | ~7,0% | ~20% |
| Desvoltat internațional (EAFE) | ~4,5% | ~17% |
| Titluri de stat al SUA (Agregat) | ~4,0% | ~4% |
| Aur | ~8,0% | ~16% |
Un portofoliu care combină acțiuni și titluri de stat are o deviație standard semnificativ mai mică decât acțiunile singure, în timp ce încă captură majoritatea premiumului de returnă a acțiunilor.
Variabilitate în Controlul Calității (Six Sigma)
Producția folosește variația pentru a controla calitatea produselor. Metoda Six Sigma, dezvoltată de Motorola în anii 1980, are ca scop reducerea variației procesului până la aproape zero produse care nu îndeplinesc limitele de specificație.
| Nivelul Sigma | Defecțiuni pe milion (DPMO) | Yield | Capacitatea procesului (Cpk) |
|---|---|---|---|
| 1σ | 691.462 | 30,9% | 0,33 |
| 2σ | 308.538 | 69,1% | 0,67 |
| 3σ | 66.807 | 93,3% | 1,00 |
| 4σ | 6.210 | 99,38% | 1,33 |
| 5σ | 233 | 99,977% | 1,67 |
| 6σ | 3,4 | 99,99966% | 2,00 |
Un proces care operează la 6σ produce doar 3,4 defecțiuni pe milion de oportunități. Indicele de capacitate a procesului Cpk se referă direct la variație: Cpk = (USL - μ) / (3σ), unde USL este limita superioară de specificație. Reducerea variației (prin mașini mai bune, antrenament sau materiale) crește Cpk și îndreaptă procesul spre calitatea Six Sigma.
Exemple de lucru din domenii diferite
Exemplele reale de laolaltă arată cum se calculează și se interpretează varianța în practică:
Exemplul 1: Volatilitatea returnurilor de acțiuni
Returnuri lunare pentru o acțiune pe 6 luni: +3,2%, -1,5%, +4,8%, -0,7%, +2,1%, +1,6%
- Media = (3,2-1,5+4,8-0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
- Deviatiuni: 1,617, -3,083, 3,217, -2,283, 0,517, 0,017
- Spatii pătrate: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
- Suma pătratelor = 27,947
- Variancea eşantionului = 27,947/5 = 5,589 (%²)
- Deviia standardă = √5,589 = 2,364% pe lună
- Volatilitatea anualizată ≈ 2,364% × √12 = 8,19%
Acestă acțiune are o volatilitate moderată. S&P 500 are o volatilitate anualizată de aproximativ 15%, deci această acțiune este aproximativ la jumătatea acestei volatilități din piață.
Exemplul 2: Controlul calității în fabricație
O fabrică produce vârfuri cu lungimea țintă 50,00 mm. O eșantion de 8 vârfuri măsoară: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.
- Media = 400,05/8 = 50,00625 mm
- Variancea eşantionului = 0,000655 mm²
- Deviia standardă = 0,0256 mm
- În limitele specifice de 50,00 ± 0,10 mm: Cpk = (50,10 - 50,006) / (3 × 0,0256) = 1,22
Un Cpk de 1,22 înseamnă că procesul este capabil, dar are puțină marjă. Standardele industriale de referință sunt Cpk ≥ 1,33 (4σ), deci acest proces are nevoie de o control mai strânsă pentru a atinge acest nivel.
Exemplul 3: Notele elevilor
Clasa de 10 elevi obține următoarele note: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73.
- Media = 810/10 = 81,0
- Variancea populației (clasa întreagă) = 72,2
- Deviia standardă = 8,50
- Coeficientul de variație = 8,50/81,0 × 100% = 10,5%
Un CV de 10,5% indică o dispersie moderată - majoritatea elevilor au obținut note într-un interval rezonabil de la medie. Dacă CV-ul ar fi depășit 25%, profesorul ar putea investiga dacă testul a avut întrebări prea dificile pentru unii elevi sau dacă există o distribuție bimodală (două grupuri distincte).
Greșeli frecvente la calcularea varianței
Evitați aceste erori frecvente:
| Greșeală | De ce este greșit | Corectare |
|---|---|---|
| Utilizarea a N în loc de N-1 pentru eşantioane | Subestimează varianța populației reale | Utilizați N-1 pentru orice date care sunt un eşantion dintr-o populație mai mare |
| Averigerea deviațiilor absolute în loc de pătrate | Da MAD, nu varianță | Spatiați fiecare deviație, apoi media. Ia rădăcina pentru deviația standardă |
| Uitarea de a spătia înainte de a media | Deviatiunile pozitive și negative se anulează, dând ~0 | Spătiați întotdeauna deviațiile |
| Compararea varianței între diferite scalări | Variancea depinde de unități; %² ≠ kg² | Utilizați coeficientul de variație (CV) pentru comparații inter-scaună |
| Assumând că varianța = deviația standardă | Variancea este SD²; unitățile sunt pătrate | Ia rădăcina pătrată a varianței pentru a obține SD |
ANOVA: Compararea Varianței Între Grupuri
Analiza de Varianță (ANOVA) este un test statistic care compară medii ale mai multor grupuri prin analizarea varianței. Deși numele sugerează asta, el testează dacă medii diferă, nu dacă varianțele diferă.
ANOVA împarte varianța totală în două componente:
- Variancea dintre grupe: În ce măsură medii diferă de media generală
- Variancea în interiorul grupurilor: În ce măsură valorile individuale variază în fiecare grup
Statistica F = Variancea dintre grupe / Variancea în interiorul grupurilor. Un F mare înseamnă că grupurile sunt mai diferite una de alta decât se așteaptă la întâmplare. Dacă F depășește valoarea critică (sau p < 0,05), cel puțin o medie a grupurilor este semnificativ diferită.
Exemplu: Compararea scorurilor la test de studenți instruiți de trei metode diferite. ANOVA vă spune dacă metoda de predare contează; testele post-hoc (Tukey, Bonferroni) vă spun care metode diferă.
💡 Știi că?
- Variancea a fost introdusă de Ronald Fisher în 1918 — același articol în care a inventat termenul "varianță."
- In finante, varianța este baza teoriei portofoliului modern. Varianta unui portofoliu depinde nu numai de varianța individuală a activelor, ci și de corelațiile dintre ele.
- Coeficientul de variație (CV = deviația standard / medie × 100%) permite compararea variabilității între seturi de date cu unități sau scală diferite.
- Inegalitatea lui Chebyshev garantează că pentru oricare distribuție (nu numai normală), cel puțin 75% din date se află într-un interval de ±2 deviații standard și cel puțin 89% într-un interval de ±3 deviații standard. Acesta este mai slab decât regulul empiric, dar se aplică universal.
Întrebări frecvente
Ce este diferența între varianță și deviație standard?
Varianța este media pătratelor deviațiilor de la medie; deviația standard este rădăcina pătrată a acesteia. Deviația standard este în unitățile originale (de exemplu, dolari, kg, secunde), făcând-o mai ușor de interpretat. Varianța este utilă în operațiuni matematice (varianțele variabilelor independente se adaugă direct), în timp ce deviația standard este mai bună pentru a descrie răspândirea unui public non-tehnic.
Când trebuie să folosesc varianța de eșantion vs. varianța populației?
Folosiți varianța populației atunci când datele conțin toți membrii grupului pe care îl analizați (de exemplu, toți angajații unei companii). Folosiți varianța de eșantion atunci când datele sunt un subiect al unui grup mai mare (de exemplu, un sondaj de 500 de alegători pentru a estima opinia tuturor alegătorilor). În majoritatea cercetărilor și statisticilor din lumea reală, varianța de eșantion este adecvată.
Varianța poate fi negativă?
Da. Varianța este întotdeauna zero sau pozitivă deoarece este calculată din valori pătrate. Varianța = 0 numai atunci când toate punctele de date sunt identice (fără răspândire). O varianță negativă este matematic imposibilă și indică o eroare de calcul.
Ce este o "varianță ridicată" sau "scăzută"?
Înalt și scăzut sunt relativ la scală și contextul datelor. O varianță de 10 este "scăzută" pentru înălțimi umane în cm, dar "ridicată" pentru înălțimi în metri. Coeficientul de variație (SD / medie × 100%) este independent de scală și permite compararea între diferite seturi de date. În controlul calității, specificațiile definesc intervalele acceptabile de variație pentru fiecare măsurare.
În ce măsură varianța se referă la distribuția normală?
Distribuția normală (Gaussian) este descrisă complet de doar două parametri: medie (μ) și varianța (σ²). Curba de bimodă este mai largă atunci când varianța este mare și mai îngustă atunci când varianța este mică. Pentru date normale, regulile empirice se aplică: 68,3% în ±1σ, 95,4% în ±2σ și 99,7% în ±3σ. Multe teste statistice (testul t, ANOVA, regresia) presupun că datele urmează o distribuție normală sau că mijloacele de eșantionare sunt aproximativ normale (prin Teorema Limitelor Centrale).
Ce este varianța combinată?
Varianța combinată este o medie ponderată a varianțelor de eșantion din două sau mai multe grupuri, utilizată în testul t de două eșantioane atunci când presupuneți că varianțele sunt egale între grupuri. Formula este: s²combinat = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Acest lucru produce o estimare unică a varianței care include informații din ambele eșantioane, crescând puterea statistică atunci când ipoteza de varianță egală este valabilă.