Skip to main content
🔬 Advanced

Calcolatore di varianza - Popolazione e varianza del campione

Calcolare la varianza e la deviazione standard per un insieme di dati. Supporta la varianza della popolazione e del campione. Calcolatore statistico online gratuito per risultati istantanei.

★★★★★ 4.8/5 · 📊 0 calcoli · 🔒 Privato e gratuito

Che cos'è la varianza?

La varianza misura ilspargimentodi un insieme di dati - quanto i valori sono lontani dalla media. Una bassa varianza significa che i punti di dati si raggruppano vicino alla media; un'alta varianza significa che sono ampiamente distribuiti.

La varianza è calcolata come la media delle differenze al quadrato rispetto alla media:

Dove xi è ogni punto di dati, μ (o x̄) è la media e N è il numero di valori.deviazione standardè semplicemente la radice quadrata della varianza -- è nelle stesse unità dei dati originali, rendendola più interpretabile.

Perché quadriamo le differenze? Due ragioni: (1) il quadrato elimina i valori negativi in modo che le deviazioni al di sopra e al di sotto della media non si annullino, e (2) il quadrato dà un peso sproporzionato ai valori anomali, rendendo la varianza sensibile ai valori estremi. Questa proprietà è sia un punto di forza (rilevamento anomalo) che una debolezza (sensibilità anomalo).deviazione media assoluta (MAD)come alternativa più solida.

Popolazione rispetto alla varianza del campione

La differenza chiave è il denominatore -- N vs. (N-1) -- noto come correzione di Bessel:

TipoDenominatoreQuando utilizzareSimbolo
Variazione della popolazioneNHai dati sull'intera popolazioneσ²
Variazione del campioneN - 1Si ha un campione da una popolazione più grande

In pratica, la maggior parte dei dati reali è costituita da un campione.stima imparzialeL'uso di N (varianza della popolazione) su un campione sottovaluta sistematicamente la vera varianza.

Esempio: testare un nuovo farmaco su 50 pazienti significa utilizzare la varianza del campione (s2). analizzare tutti gli studenti in una classe significa utilizzare la varianza della popolazione (σ2).

Perché la correzione di Bessel funziona?Quando si calcola la media del campione, si usa un "grado di libertà" - la media è calcolata dai dati stessi, quindi le deviazioni dalla media non sono completamente indipendenti. Dividere per (N-1) invece di N compensa questa perdita di un grado di libertà, producendo un stimatore imparziale della varianza della popolazione. Man mano che N cresce, la differenza tra N e N-1 diventa trascurabile.

Calcolo della varianza passo dopo passo

Data la serie di dati: 4, 7, 13, 2, 8

  1. Calcolare la media:(4+7+13+2+8) ÷ 5 = 34/5 =6,8
  2. Trova le deviazioni dalla media:(4-6.8) =-2.8; (7-6.8) =0.2; (13-6.8) =6.2; (2-6.8) =-4.8; (8-6.8) =1.2
  3. Al quadrato le deviazioni:7.84; 0.04; 38.44; 23.04; 1.44
  4. Somma dei quadrati:7,84+0,04+38,44+23,04+1,44 =70,8
  5. Varianza della popolazione:70,8 / 5 =14 e 16
  6. Varianza del campione:70,8 / 4 =17,7
  7. deviazione standard:√14.16 =3,76(popolazione) o √17.7 =4.21(campione)

Formula di scorciatoia per la varianza

Esiste una formula "calcolatoriale" equivalente che evita di calcolare esplicitamente le deviazioni, utile quando si calcola a mano o in fogli di calcolo:

Per i veicoli a motore a motore a trazione interna, il valore di riferimento è il valore di riferimento per il veicolo a trazione interna con il veicolo a motore a trazione interna.

Per la varianza del campione:s2 = (Σxi2 - (Σxi)2/N) / (N-1)

Usando i nostri dati di esempio (4, 7, 13, 2, 8):

  1. Σxi = 34, quindi (Σxi) 2 = 1.156
  2. Σxi2 = 16 + 49 + 169 + 4 + 64 = 302
  3. Varianza della popolazione = (302 - 1156/5) / 5 = (302 - 231,2) / 5 = 70,8 / 5 =14 e 16
  4. Varianza del campione = 70,8 / 4 =17,7

Questa formula è numericamente identica ma può soffrire di problemi di precisione a virgola mobile quando i valori sono molto grandi. Per la stabilità computazionale, l'algoritmo online di Welford (che elabora un valore alla volta) è preferito nelle implementazioni software.

Misure statistiche correlate

La varianza è una delle diverse misure di diffusione.

MisurazioneFormulazioneUnitàRobustezza rispetto ai valori anomaliMigliore per
Varianza (σ2 o s2)Media delle deviazioni al quadratoUnità al quadratoBasso - molto sensibileStatistica teorica, ANOVA
Deviazione standard (σ o s)√VarianzaLo stesso dei datiBassoSpread di segnalazione in unità originarie
GammaMax - MinLo stesso dei datiMolto bassoControllo rapido, campioni piccoli
Intervallo interquartile (IQR)Q3 - Q1Lo stesso dei datiAltiDistribuzioni distorte, grafici di casella
Diversione media assoluta (MAD)Percentuale media diLo stesso dei datiModeratoMisura intuitiva della diffusione
Coefficiente di variazione (CV)(SD / media) x 100%PercentualeBassoConfronto degli spread su diverse scale

Per le distribuzioni normali (curva a campana), la deviazione standard ha un'interpretazione speciale: circa il 68% dei dati rientra entro +/-1 SD della media, il 95% entro +/-2 SD e il 99,7% entro +/-3 SD.regola empirica(regola 68-95-99.7).

Varianza nei fogli di calcolo e nella programmazione

La maggior parte degli strumenti ha funzioni di varianza integrate. Assicurati di scegliere la versione corretta (popolazione vs. campione):

StrumentoVariazione del campioneVariazione della popolazione
Fogli Excel / GoogleVAR.S(range) or VAR(range)VAR.P(range) or VARP(range)
Python (NumPy)np.var(data, ddof=1)np.var(data)
Python (statistica)statistics.variance(data)statistics.pvariance(data)
Rvar(x)var(x) * (n-1)/n
JavaScriptCalcolo manuale (non integrato)Calcolo manuale
SQL (PostgreSQL)VAR_SAMP(column)VAR_POP(column)
Matlabvar(x)var(x, 1)

Nota: NumPy di Python per impostazione predefinitapopolazionevarianza (ddof=0), mentre le Rvar()di default acampioneQuesta è una fonte comune di confusione quando si confrontano i risultati in diverse lingue.

Applicazioni pratiche della varianza

CampoApplicazioneEsempio
FinanzaRischio di investimentoVarianza elevata = rendimenti delle azioni più volatili
FabbricazioneControllo della qualitàVarianza ridotta = dimensioni del prodotto coerenti
MedicinaStudi cliniciMisura della variabilità delle risposte dei pazienti
Scienze dello sportAnalisi delle prestazioniVariabilità delle prestazioni degli atleti nel corso della stagione
IstruzioneAnalisi del punteggio del testComprendere la diffusione delle prestazioni degli studenti

Varianza in finanza: rischio di portafoglio

In finanza, la varianza e la deviazione standard misurano il rischio di investimento.Teoria moderna del portafoglio(1952, Premio Nobel 1990) utilizza la varianza come misura centrale del rischio.

Per un portafoglio di due attività, la varianza combinata dipende dalle varianze individualiela correlazione tra le attività:

σ²portafoglio= w12σ12 + w22σ22 + 2·w1·w2·σ1·σ2·ρ12

Quando ρ < 1 (le attività non si muovono in perfetta sequenza), la varianza del portafoglio èmenoQuesta è la base matematica della diversificazione: combinare attività non correlate riduce il rischio complessivo senza ridurre proporzionalmente il rendimento atteso.

Classe di attività (2000 - 2023)Rendimento annualeSD annualizzato (Volatilità)
L'industria dell'Unione ha continuato ad aumentare la propria quota di mercato nel periodo in esame.~7,5%~15%
Small Cap USA (Russell 2000)~ 7,0%~20%
Paesi sviluppati internazionali (EAFE)~4,5%~17%
Obbligazioni statunitensi (aggregato)- 4,0%~4%
Oro~8,0%~16%

Un portafoglio che combina azioni e obbligazioni ha in genere una deviazione standard significativamente inferiore rispetto alle sole azioni, pur catturando la maggior parte del premio di rendimento delle azioni.

Varianza nel controllo della qualità (Six Sigma)

La produzione utilizza la varianza per controllare la qualità del prodotto.Seis SigmaQuesta metodologia, sviluppata da Motorola negli anni '80, mira a ridurre la varianza del processo fino a quando praticamente nessun prodotto non supera i limiti delle specifiche.

Livello SigmaDifetti per milione (DPMO)CessioneCapacità di processo (Cpk)
691.46230,9%0,33
308.53869,1%0,67
66.80793,3%1,00 €
6.21099,38%1,33
233 e99,977%1,67
3,499,99966%2,00 ore

Un processo funzionante a 6σ produce solo 3,4 difetti per milione di opportunità.CpkLa riduzione della varianza (attraverso migliori macchine, formazione o materiali) aumenta la Cpk e spinge il processo verso la qualità Six Sigma.

Esempi operativi provenienti da campi diversi

Questi esempi reali mostrano come la varianza viene calcolata e interpretata nella pratica:

Esempio 1: Volatilità dei rendimenti delle azioni

Rendimenti mensili per uno stock su 6 mesi: +3,2%, -1,5%, +4,8%, -0,7%, +2,1%, +1,6%

  1. Media = (3,2-1,5+4,8-0,7+2,1+1,6) / 6 = 9,5/6 =1,583%
  2. Devianze: 1.617, -3.083, 3.217, -2.283, 0.517, 0.017
  3. Al quadrato: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
  4. Somma dei quadrati = 27.947
  5. Varianza del campione = 27.947/5 =5.589 (%2)
  6. deviazione standard = √5.589 =2,364%per mese
  7. Volatilità annualizzata ~ 2,364% x √12 =8,19%

Questo titolo ha una volatilità moderata, lo S&P 500 ha storicamente una volatilità annualizzata di circa il 15%, quindi questo titolo è circa la metà della volatilità del mercato in generale.

Esempio 2: Controllo della qualità della fabbricazione

Una fabbrica produce bulloni con lunghezza obiettivo di 50,00 mm. Un campione di 8 bulloni misura: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

  1. Media = 400,05/8 =50.00625 mm
  2. Varianza del campione =0,000655 mm2
  3. deviazione standard =0,0256 mm
  4. Con limiti di specifica di 50,00 +/- 0,10 mm: Cpk = (50,10 - 50,006) / (3 x 0,0256) =1.22

Un Cpk di 1,22 significa che il processo è capace ma ha poco margine. L'obiettivo standard del settore è Cpk >= 1,33 (capacità 4σ), quindi questo processo ha bisogno di un controllo più stretto per raggiungere quel livello.

Esempio 3: Punteggi dei test degli studenti

Una classe di 10 studenti ottiene i punteggi: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 in un esame.

  1. Media = 810/10 =81,0
  2. Varianza della popolazione (intera classe) =72,2
  3. deviazione standard =8,50
  4. Coefficiente di variazione = 8,50/81,0 x 100% =10,5%

Se il CV supera il 25%, l'istruttore potrebbe indagare se il test avesse domande troppo difficili per alcuni studenti o se ci fosse una distribuzione bimodale (due gruppi distinti).

Errori comuni nel calcolo della varianza

Evita questi errori frequenti:

ErrorePerché è sbagliatoCorrezione
Utilizzo di N invece di N-1 per i campioniSottovaluta la vera varianza della popolazioneUsare N-1 per tutti i dati che è un campione da una popolazione più grande
Media delle deviazioni assolute anziché quadrareFornisce MAD, non varianzaAl quadrato ogni deviazione, poi la media.
Dimenticare di quadrare prima di calcolare la mediaLe deviazioni positive e negative si annullano, dando ~ 0Sempre prima le deviazioni quadrate.
Confronto della varianza su diverse scaleLa varianza dipende dalle unità; $2 ≠ kg2Utilizzare il coefficiente di variazione (CV) per il confronto incrociato
Supponendo la varianza = deviazione standardLa varianza è SD2; le unità sono al quadratoPrendi la radice quadrata della varianza per ottenere SD

ANOVA: confronto della varianza tra i gruppi

Analisi della varianza (ANOVA)è un test statistico che confronta le medie di più gruppi analizzando la varianza. Nonostante il nome, verifica se le medie di gruppo differiscono, non se le varianze differiscono.

ANOVA suddivide la varianza totale in due componenti:

IlF-statistica= Varianza tra gruppi / Varianza all'interno di gruppi. Un grande F significa che i gruppi sono più diversi l'uno dall'altro di quanto ci si aspetterebbe per caso. Se F supera il valore critico (o p < 0,05), almeno una media di gruppo è significativamente diversa.

Esempio: confrontare i punteggi dei test degli studenti che hanno seguito tre metodi diversi. ANOVA ti dice se il metodo di insegnamento è importante; i test post-hoc (Tukey, Bonferroni) ti diconocheI metodi differiscono.

Lo sapevi?

Domande frequenti

Qual è la differenza tra varianza e deviazione standard?

La varianza è la media delle deviazioni al quadrato dalla media; la deviazione standard è la sua radice quadrata. La deviazione standard è nelle stesse unità dei dati originali (ad esempio, dollari, kg, secondi), rendendola più interpretabile. La varianza è utile nelle operazioni matematiche (le varianze delle variabili indipendenti si sommano direttamente), mentre la deviazione standard è migliore per descrivere la diffusione a un pubblico non tecnico.

Quando devo usare la varianza del campione rispetto alla popolazione?

Usa la varianza della popolazione quando i tuoi dati contengono tutti i membri del gruppo che stai analizzando (ad esempio, tutti i dipendenti di una società). Usa la varianza del campione quando i tuoi dati sono un sottoinsieme di un gruppo più grande (ad esempio, un sondaggio di 500 elettori per stimare tutte le opinioni degli elettori). Nella maggior parte delle ricerche e delle statistiche del mondo reale, la varianza del campione è appropriata.

La varianza può essere negativa?

No. La varianza è sempre zero o positiva perché è calcolata da valori quadrati. Varianza = 0 solo quando tutti i punti dati sono identici (nessuna diffusione). Una varianza negativa è matematicamente impossibile e indica un errore di calcolo.

Che cos'è una varianza "alta" o "bassa"?

Il coefficiente di variazione (SD / media x 100%) è indipendente dalla scala e consente il confronto tra diversi set di dati. Nel controllo di qualità, le specifiche definiscono intervalli di varianza accettabili per ogni misura.

Come si relaziona la varianza con la distribuzione normale?

La distribuzione normale (gaussiana) è completamente descritta da solo due parametri: la media (μ) e la varianza (σ2). La curva a campana familiare è più ampia quando la varianza è grande e più stretta quando la varianza è piccola. Per i dati normali, la regola empirica è valida: 68,3% entro +/-1σ, 95,4% entro +/-2σ e 99,7% entro +/-3σ. Molti test statistici (t-test, ANOVA, regressione) assumono che i dati seguano una distribuzione normale o che le medie di campione approssimative siano normali (tramite il teorema del limite centrale).

Cos'e' la varianza aggregata?

La varianza aggregata è una media ponderata delle varianze del campione di due o più gruppi, utilizzata nel test t a due campioni quando si assumono uguali varianze tra i gruppi.riuniti= [(n1-1) s12 + (n2-1) s22] / (n1 + n2 - 2). Questo produce una sola stima di varianza che incorpora le informazioni di entrambi i campioni, aumentando il potere statistico quando l'assunzione di pari varianza è valida.

},{"@type":“Question”,“name”:“Can variance be negative?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“No. Variance is always zero or positive because it is calculated from squared values. Variance = 0 only when all data points are identical.”}},{"@type":“Question”,“name”:“How does variance relate to the normal distribution?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“The normal distribution is fully described by mean and variance. For normal data, 68% falls within ±1 standard deviation, 95% within ±2, and 99.7% within ±3.”}},{"@type":“Question”,“name”:“What is pooled variance?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“Pooled variance is a weighted average of sample variances from two or more groups, used in two-sample t-tests when assuming equal variances.”}}]}