Calcolatore di varianza - Popolazione e varianza del campione
Calcolare la varianza e la deviazione standard per un insieme di dati. Supporta la varianza della popolazione e del campione. Calcolatore statistico online gratuito per risultati istantanei.
Che cos'è la varianza?
La varianza misura ilspargimentodi un insieme di dati - quanto i valori sono lontani dalla media. Una bassa varianza significa che i punti di dati si raggruppano vicino alla media; un'alta varianza significa che sono ampiamente distribuiti.
La varianza è calcolata come la media delle differenze al quadrato rispetto alla media:
- Varianza della popolazione (σ2):σ2 = Σ(xi - μ) 2 / N
- Variazione del campione (s2):s2 = Σ(xi - x̄) 2 / (N-1)
Dove xi è ogni punto di dati, μ (o x̄) è la media e N è il numero di valori.deviazione standardè semplicemente la radice quadrata della varianza -- è nelle stesse unità dei dati originali, rendendola più interpretabile.
Perché quadriamo le differenze? Due ragioni: (1) il quadrato elimina i valori negativi in modo che le deviazioni al di sopra e al di sotto della media non si annullino, e (2) il quadrato dà un peso sproporzionato ai valori anomali, rendendo la varianza sensibile ai valori estremi. Questa proprietà è sia un punto di forza (rilevamento anomalo) che una debolezza (sensibilità anomalo).deviazione media assoluta (MAD)come alternativa più solida.
Popolazione rispetto alla varianza del campione
La differenza chiave è il denominatore -- N vs. (N-1) -- noto come correzione di Bessel:
| Tipo | Denominatore | Quando utilizzare | Simbolo |
|---|---|---|---|
| Variazione della popolazione | N | Hai dati sull'intera popolazione | σ² |
| Variazione del campione | N - 1 | Si ha un campione da una popolazione più grande | s² |
In pratica, la maggior parte dei dati reali è costituita da un campione.stima imparzialeL'uso di N (varianza della popolazione) su un campione sottovaluta sistematicamente la vera varianza.
Esempio: testare un nuovo farmaco su 50 pazienti significa utilizzare la varianza del campione (s2). analizzare tutti gli studenti in una classe significa utilizzare la varianza della popolazione (σ2).
Perché la correzione di Bessel funziona?Quando si calcola la media del campione, si usa un "grado di libertà" - la media è calcolata dai dati stessi, quindi le deviazioni dalla media non sono completamente indipendenti. Dividere per (N-1) invece di N compensa questa perdita di un grado di libertà, producendo un stimatore imparziale della varianza della popolazione. Man mano che N cresce, la differenza tra N e N-1 diventa trascurabile.
Calcolo della varianza passo dopo passo
Data la serie di dati: 4, 7, 13, 2, 8
- Calcolare la media:(4+7+13+2+8) ÷ 5 = 34/5 =6,8
- Trova le deviazioni dalla media:(4-6.8) =-2.8; (7-6.8) =0.2; (13-6.8) =6.2; (2-6.8) =-4.8; (8-6.8) =1.2
- Al quadrato le deviazioni:7.84; 0.04; 38.44; 23.04; 1.44
- Somma dei quadrati:7,84+0,04+38,44+23,04+1,44 =70,8
- Varianza della popolazione:70,8 / 5 =14 e 16
- Varianza del campione:70,8 / 4 =17,7
- deviazione standard:√14.16 =3,76(popolazione) o √17.7 =4.21(campione)
Formula di scorciatoia per la varianza
Esiste una formula "calcolatoriale" equivalente che evita di calcolare esplicitamente le deviazioni, utile quando si calcola a mano o in fogli di calcolo:
Per i veicoli a motore a motore a trazione interna, il valore di riferimento è il valore di riferimento per il veicolo a trazione interna con il veicolo a motore a trazione interna.
Per la varianza del campione:s2 = (Σxi2 - (Σxi)2/N) / (N-1)
Usando i nostri dati di esempio (4, 7, 13, 2, 8):
- Σxi = 34, quindi (Σxi) 2 = 1.156
- Σxi2 = 16 + 49 + 169 + 4 + 64 = 302
- Varianza della popolazione = (302 - 1156/5) / 5 = (302 - 231,2) / 5 = 70,8 / 5 =14 e 16 ✓
- Varianza del campione = 70,8 / 4 =17,7 ✓
Questa formula è numericamente identica ma può soffrire di problemi di precisione a virgola mobile quando i valori sono molto grandi. Per la stabilità computazionale, l'algoritmo online di Welford (che elabora un valore alla volta) è preferito nelle implementazioni software.
Misure statistiche correlate
La varianza è una delle diverse misure di diffusione.
| Misurazione | Formulazione | Unità | Robustezza rispetto ai valori anomali | Migliore per |
|---|---|---|---|---|
| Varianza (σ2 o s2) | Media delle deviazioni al quadrato | Unità al quadrato | Basso - molto sensibile | Statistica teorica, ANOVA |
| Deviazione standard (σ o s) | √Varianza | Lo stesso dei dati | Basso | Spread di segnalazione in unità originarie |
| Gamma | Max - Min | Lo stesso dei dati | Molto basso | Controllo rapido, campioni piccoli |
| Intervallo interquartile (IQR) | Q3 - Q1 | Lo stesso dei dati | Alti | Distribuzioni distorte, grafici di casella |
| Diversione media assoluta (MAD) | Percentuale media di | Lo stesso dei dati | Moderato | Misura intuitiva della diffusione |
| Coefficiente di variazione (CV) | (SD / media) x 100% | Percentuale | Basso | Confronto degli spread su diverse scale |
Per le distribuzioni normali (curva a campana), la deviazione standard ha un'interpretazione speciale: circa il 68% dei dati rientra entro +/-1 SD della media, il 95% entro +/-2 SD e il 99,7% entro +/-3 SD.regola empirica(regola 68-95-99.7).
Varianza nei fogli di calcolo e nella programmazione
La maggior parte degli strumenti ha funzioni di varianza integrate. Assicurati di scegliere la versione corretta (popolazione vs. campione):
| Strumento | Variazione del campione | Variazione della popolazione |
|---|---|---|
| Fogli Excel / Google | VAR.S(range) or VAR(range) | VAR.P(range) or VARP(range) |
| Python (NumPy) | np.var(data, ddof=1) | np.var(data) |
| Python (statistica) | statistics.variance(data) | statistics.pvariance(data) |
| R | var(x) | var(x) * (n-1)/n |
| JavaScript | Calcolo manuale (non integrato) | Calcolo manuale |
| SQL (PostgreSQL) | VAR_SAMP(column) | VAR_POP(column) |
| Matlab | var(x) | var(x, 1) |
Nota: NumPy di Python per impostazione predefinitapopolazionevarianza (ddof=0), mentre le Rvar()di default acampioneQuesta è una fonte comune di confusione quando si confrontano i risultati in diverse lingue.
Applicazioni pratiche della varianza
| Campo | Applicazione | Esempio |
|---|---|---|
| Finanza | Rischio di investimento | Varianza elevata = rendimenti delle azioni più volatili |
| Fabbricazione | Controllo della qualità | Varianza ridotta = dimensioni del prodotto coerenti |
| Medicina | Studi clinici | Misura della variabilità delle risposte dei pazienti |
| Scienze dello sport | Analisi delle prestazioni | Variabilità delle prestazioni degli atleti nel corso della stagione |
| Istruzione | Analisi del punteggio del test | Comprendere la diffusione delle prestazioni degli studenti |
Varianza in finanza: rischio di portafoglio
In finanza, la varianza e la deviazione standard misurano il rischio di investimento.Teoria moderna del portafoglio(1952, Premio Nobel 1990) utilizza la varianza come misura centrale del rischio.
Per un portafoglio di due attività, la varianza combinata dipende dalle varianze individualiela correlazione tra le attività:
σ²portafoglio= w12σ12 + w22σ22 + 2·w1·w2·σ1·σ2·ρ12
Quando ρ < 1 (le attività non si muovono in perfetta sequenza), la varianza del portafoglio èmenoQuesta è la base matematica della diversificazione: combinare attività non correlate riduce il rischio complessivo senza ridurre proporzionalmente il rendimento atteso.
| Classe di attività (2000 - 2023) | Rendimento annuale | SD annualizzato (Volatilità) |
|---|---|---|
| L'industria dell'Unione ha continuato ad aumentare la propria quota di mercato nel periodo in esame. | ~7,5% | ~15% |
| Small Cap USA (Russell 2000) | ~ 7,0% | ~20% |
| Paesi sviluppati internazionali (EAFE) | ~4,5% | ~17% |
| Obbligazioni statunitensi (aggregato) | - 4,0% | ~4% |
| Oro | ~8,0% | ~16% |
Un portafoglio che combina azioni e obbligazioni ha in genere una deviazione standard significativamente inferiore rispetto alle sole azioni, pur catturando la maggior parte del premio di rendimento delle azioni.
Varianza nel controllo della qualità (Six Sigma)
La produzione utilizza la varianza per controllare la qualità del prodotto.Seis SigmaQuesta metodologia, sviluppata da Motorola negli anni '80, mira a ridurre la varianza del processo fino a quando praticamente nessun prodotto non supera i limiti delle specifiche.
| Livello Sigma | Difetti per milione (DPMO) | Cessione | Capacità di processo (Cpk) |
|---|---|---|---|
| 1σ | 691.462 | 30,9% | 0,33 |
| 2σ | 308.538 | 69,1% | 0,67 |
| 3σ | 66.807 | 93,3% | 1,00 € |
| 4σ | 6.210 | 99,38% | 1,33 |
| 5σ | 233 e | 99,977% | 1,67 |
| 6σ | 3,4 | 99,99966% | 2,00 ore |
Un processo funzionante a 6σ produce solo 3,4 difetti per milione di opportunità.CpkLa riduzione della varianza (attraverso migliori macchine, formazione o materiali) aumenta la Cpk e spinge il processo verso la qualità Six Sigma.
Esempi operativi provenienti da campi diversi
Questi esempi reali mostrano come la varianza viene calcolata e interpretata nella pratica:
Esempio 1: Volatilità dei rendimenti delle azioni
Rendimenti mensili per uno stock su 6 mesi: +3,2%, -1,5%, +4,8%, -0,7%, +2,1%, +1,6%
- Media = (3,2-1,5+4,8-0,7+2,1+1,6) / 6 = 9,5/6 =1,583%
- Devianze: 1.617, -3.083, 3.217, -2.283, 0.517, 0.017
- Al quadrato: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
- Somma dei quadrati = 27.947
- Varianza del campione = 27.947/5 =5.589 (%2)
- deviazione standard = √5.589 =2,364%per mese
- Volatilità annualizzata ~ 2,364% x √12 =8,19%
Questo titolo ha una volatilità moderata, lo S&P 500 ha storicamente una volatilità annualizzata di circa il 15%, quindi questo titolo è circa la metà della volatilità del mercato in generale.
Esempio 2: Controllo della qualità della fabbricazione
Una fabbrica produce bulloni con lunghezza obiettivo di 50,00 mm. Un campione di 8 bulloni misura: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.
- Media = 400,05/8 =50.00625 mm
- Varianza del campione =0,000655 mm2
- deviazione standard =0,0256 mm
- Con limiti di specifica di 50,00 +/- 0,10 mm: Cpk = (50,10 - 50,006) / (3 x 0,0256) =1.22
Un Cpk di 1,22 significa che il processo è capace ma ha poco margine. L'obiettivo standard del settore è Cpk >= 1,33 (capacità 4σ), quindi questo processo ha bisogno di un controllo più stretto per raggiungere quel livello.
Esempio 3: Punteggi dei test degli studenti
Una classe di 10 studenti ottiene i punteggi: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 in un esame.
- Media = 810/10 =81,0
- Varianza della popolazione (intera classe) =72,2
- deviazione standard =8,50
- Coefficiente di variazione = 8,50/81,0 x 100% =10,5%
Se il CV supera il 25%, l'istruttore potrebbe indagare se il test avesse domande troppo difficili per alcuni studenti o se ci fosse una distribuzione bimodale (due gruppi distinti).
Errori comuni nel calcolo della varianza
Evita questi errori frequenti:
| Errore | Perché è sbagliato | Correzione |
|---|---|---|
| Utilizzo di N invece di N-1 per i campioni | Sottovaluta la vera varianza della popolazione | Usare N-1 per tutti i dati che è un campione da una popolazione più grande |
| Media delle deviazioni assolute anziché quadrare | Fornisce MAD, non varianza | Al quadrato ogni deviazione, poi la media. |
| Dimenticare di quadrare prima di calcolare la media | Le deviazioni positive e negative si annullano, dando ~ 0 | Sempre prima le deviazioni quadrate. |
| Confronto della varianza su diverse scale | La varianza dipende dalle unità; $2 ≠ kg2 | Utilizzare il coefficiente di variazione (CV) per il confronto incrociato |
| Supponendo la varianza = deviazione standard | La varianza è SD2; le unità sono al quadrato | Prendi la radice quadrata della varianza per ottenere SD |
ANOVA: confronto della varianza tra i gruppi
Analisi della varianza (ANOVA)è un test statistico che confronta le medie di più gruppi analizzando la varianza. Nonostante il nome, verifica se le medie di gruppo differiscono, non se le varianze differiscono.
ANOVA suddivide la varianza totale in due componenti:
- Varianza tra i gruppi:Quanto le medie di gruppo differiscono dalla media complessiva
- Varianza all'interno del gruppo:Quanto variano i valori individuali all'interno di ciascun gruppo
IlF-statistica= Varianza tra gruppi / Varianza all'interno di gruppi. Un grande F significa che i gruppi sono più diversi l'uno dall'altro di quanto ci si aspetterebbe per caso. Se F supera il valore critico (o p < 0,05), almeno una media di gruppo è significativamente diversa.
Esempio: confrontare i punteggi dei test degli studenti che hanno seguito tre metodi diversi. ANOVA ti dice se il metodo di insegnamento è importante; i test post-hoc (Tukey, Bonferroni) ti diconocheI metodi differiscono.
Lo sapevi?
- La varianza fu introdotta da Ronald Fisher nel 1918 -- lo stesso articolo in cui coniò il termine "varianza".
- In finanza, la varianza è la base della moderna teoria del portafoglio. La varianza di un portafoglio non dipende solo dalla varianza delle singole attività, ma dalle correlazioni tra le attività.
- Il coefficiente di variazione (CV = deviazione standard / media x 100%) consente di confrontare la variabilità tra set di dati con diverse unità o scale.
- La disuguaglianza di Chebyshev garantisce che perqualsiasiQuesta è una distribuzione più debole rispetto alla regola empirica, ma si applica universalmente.
Domande frequenti
Qual è la differenza tra varianza e deviazione standard?
La varianza è la media delle deviazioni al quadrato dalla media; la deviazione standard è la sua radice quadrata. La deviazione standard è nelle stesse unità dei dati originali (ad esempio, dollari, kg, secondi), rendendola più interpretabile. La varianza è utile nelle operazioni matematiche (le varianze delle variabili indipendenti si sommano direttamente), mentre la deviazione standard è migliore per descrivere la diffusione a un pubblico non tecnico.
Quando devo usare la varianza del campione rispetto alla popolazione?
Usa la varianza della popolazione quando i tuoi dati contengono tutti i membri del gruppo che stai analizzando (ad esempio, tutti i dipendenti di una società). Usa la varianza del campione quando i tuoi dati sono un sottoinsieme di un gruppo più grande (ad esempio, un sondaggio di 500 elettori per stimare tutte le opinioni degli elettori). Nella maggior parte delle ricerche e delle statistiche del mondo reale, la varianza del campione è appropriata.
La varianza può essere negativa?
No. La varianza è sempre zero o positiva perché è calcolata da valori quadrati. Varianza = 0 solo quando tutti i punti dati sono identici (nessuna diffusione). Una varianza negativa è matematicamente impossibile e indica un errore di calcolo.
Che cos'è una varianza "alta" o "bassa"?
Il coefficiente di variazione (SD / media x 100%) è indipendente dalla scala e consente il confronto tra diversi set di dati. Nel controllo di qualità, le specifiche definiscono intervalli di varianza accettabili per ogni misura.
Come si relaziona la varianza con la distribuzione normale?
La distribuzione normale (gaussiana) è completamente descritta da solo due parametri: la media (μ) e la varianza (σ2). La curva a campana familiare è più ampia quando la varianza è grande e più stretta quando la varianza è piccola. Per i dati normali, la regola empirica è valida: 68,3% entro +/-1σ, 95,4% entro +/-2σ e 99,7% entro +/-3σ. Molti test statistici (t-test, ANOVA, regressione) assumono che i dati seguano una distribuzione normale o che le medie di campione approssimative siano normali (tramite il teorema del limite centrale).
Cos'e' la varianza aggregata?
La varianza aggregata è una media ponderata delle varianze del campione di due o più gruppi, utilizzata nel test t a due campioni quando si assumono uguali varianze tra i gruppi.riuniti= [(n1-1) s12 + (n2-1) s22] / (n1 + n2 - 2). Questo produce una sola stima di varianza che incorpora le informazioni di entrambi i campioni, aumentando il potere statistico quando l'assunzione di pari varianza è valida.
},{"@type":“Question”,“name”:“Can variance be negative?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“No. Variance is always zero or positive because it is calculated from squared values. Variance = 0 only when all data points are identical.”}},{"@type":“Question”,“name”:“How does variance relate to the normal distribution?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“The normal distribution is fully described by mean and variance. For normal data, 68% falls within ±1 standard deviation, 95% within ±2, and 99.7% within ±3.”}},{"@type":“Question”,“name”:“What is pooled variance?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“Pooled variance is a weighted average of sample variances from two or more groups, used in two-sample t-tests when assuming equal variances.”}}]}