Standard Deviation Calculator

Cosa è la deviazione standard e perché è importante?

La deviazione standard misura quanto i dati sono dispersi intorno alla media (media). Una piccola deviazione standard significa che i valori si raggruppano strettamente intorno alla media; una grande deviazione standard significa che i valori sono ampiamente dispersi.

Due insiemi di dati possono avere la stessa media ma distribuzioni completamente diverse — la deviazione standard cattura questa differenza:

Dataset A: {9, 10, 10, 11, 10} — Media = 10, SD ≈ 0,63 (cluster stretto)
Dataset B: {2, 5, 10, 15, 18} — Media = 10, SD ≈ 5,83 (dispersi ampiamente)

Entrambi hanno una media di 10, ma Dataset B è quasi 10 volte più variabile. La deviazione standard rende visibile questo.

La deviazione standard è denotata σ (sigma) per una popolazione e s per un campione. È la radice quadrata della varianza, espressa nello stesso unità dei dati originali — rendendola più interpretabile della varianza sola.

Le applicazioni spaziano quasi in ogni campo: controllo della qualità (sono le parti prodotte coerenti entro la tolleranza?), finanza (rischio di investimento = volatilità di ritorno), medicina (è la lettura di un paziente entro 2 SD del normale?), educazione (come sono distribuiti i punteggi degli esami?), e analisi sportiva (quanto è coerente il rendimento di un atleta?).

Deviazione standard di popolazione vs campione

La scelta più importante quando si calcola la deviazione standard è se si sta lavorando con una popolazione (tutti i dati possibili) o un campione (una sottoselezione). Ciò determina quale formula utilizzare e influenza il risultato.

Deviazione standard di popolazione (σ): Utilizzare quando si ha dati per l'intero gruppo che si sta studiando. Formula: σ = √[Σ(xᵢ − μ)² / N]

Dove: μ = media della popolazione, N = numero di valori, Σ = somma di tutti i valori.

Deviazione standard di campione (s): Utilizzare quando i dati sono un campione tratto da una popolazione più ampia. Formula: s = √[Σ(xᵢ − x̄)² / (n−1)]

Dove: x̄ = media del campione, n = numero di valori nel campione, (n−1) = correzione di Bessel.

La correzione di Bessel divide per (n−1) invece di n perché i campioni tendono a sottostimare la vera varianza della popolazione — in particolare per piccoli campioni. Utilizzando (n−1) fornisce un stimatore non biasato della varianza della popolazione.

Quale utilizzare?

SD di popolazione: Si hanno dati per tutti gli studenti in una classe specifica; tutti i punteggi degli esami da un esame specifico; tutti gli impiegati in una singola azienda.
SD di campione: Si sono intervistati 500 americani sull'incidenza (inferendo a tutti gli americani); si sono misurati 30 widget da una produzione (inferendo a tutti i widget); qualsiasi studio scientifico con un campione.

Calcolo passo dopo passo della deviazione standard

Passiamo attraverso un esempio completo con numeri reali:

Dataset: Punteggi degli esami di 6 studenti: {72, 85, 91, 68, 79, 88}

Passo 1 — Trova la media: (72 + 85 + 91 + 68 + 79 + 88) / 6 = 483 / 6 = 80,5

Passo 2 — Trova ogni deviazione dalla media e alza al quadrato:

Punteggio (xᵢ)	Deviazione (xᵢ − x̄)	Al quadrato (xᵢ − x̄)²
72	72 − 80,5 = −8,5	72,25
85	85 − 80,5 = +4,5	20,25
91	91 − 80,5 = +10,5	110,25
68	68 − 80,5 = −12,5	156,25
79	79 − 80,5 = −1,5	2,25
88	88 − 80,5 = +7,5	56,25
Somma	0 (sempre)	417,50

Passo 3 — Calcola la varianza: Varianza del campione (n−1) = 417,50 / 5 = 83,50

Passo 4 — Prendi la radice quadrata per la deviazione standard: s = √83,50 ≈ 9,14

Interpretazione: La maggior parte dei punteggi cade entro circa 9,14 punti dalla media 80,5. Circa il 68% dei punteggi sarebbe previsto tra 71,4 e 89,6 (media ± 1 SD) se questo fosse una popolazione distribuita normalmente.

La Regola Empirica e la Distribuzione Normale

Per i dati che seguono una distribuzione normale (curva a campana), la Regola Empirica (68-95-99,7) vi dice esattamente quanti valori cadono in ogni intervallo di deviazione standard:

Intervallo	Percentuale di dati	Esempio (media=100, SD=15)
Media ± 1 SD	~68,27%	85 a 115
Media ± 2 SD	~95,45%	70 a 130
Media ± 3 SD	~99,73%	55 a 145
Al di là di ± 3 SD	~0,27%	Al di sotto di 55 o al di sopra di 145

L'applicazione classica è i punteggi di QI: media = 100, SD = 15. Un QI di 130 è 2 SD sopra la media — solo circa 2,3% delle persone ottengono un punteggio così alto. Un QI di 145 è 3 SD sopra la media — circa 0,13% delle persone (circa 1 su 750).

Nel controllo della qualità, lo standard Six Sigma richiede che i processi abbiano meno di 3,4 difetti per milione di opportunità — equivalente a mantenere la variazione entro ±6 deviazioni standard dalla meta, lasciando solo 0,00034% di tasso di difetti. Questo è la base statistica dei programmi di qualità di produzione Six Sigma.

Non tutti i dati sono distribuiti normalmente. Le distribuzioni di reddito sono destro-asimmetriche (alcuni redditi molto alti allungano la coda destra). In questi casi, la media e l'intervallo interquartile possono essere più informativi della media e della deviazione standard.

Altri Indicativi Statistici: Media, Mediana, Varianza e Altro

La deviazione standard è più significativa insieme ad altri indicatori statistici. Ecco come funzionano insieme:

Media (media aritmetica): Somma di tutti i valori ÷ conteggio. Sensibile agli outlier — un valore estremo può spostare significativamente la media.
Mediana: Il valore medio quando i dati sono ordinati. Più robusto degli outlier rispetto alla media. Per {1, 2, 3, 4, 100}: media = 22, mediana = 3.
Moda: Il valore più frequente. Utile per i dati categoriali; un insieme di dati può avere più modi o nessuno.
Range: Massimo − minimo. Simplice ma sensibile agli outlier; non descrive la forma della distribuzione.
Varianza (σ² o s²): Il quadrato della deviazione standard. Utile matematicamente ma più difficile da interpretare poiché è in unità quadrate. Esempio: se le altezze sono in centimetri, la varianza è in cm² — che non ha alcun significato fisico.
Coefficiente di Variazione (CV): (Deviazione standard / media) × 100%. Consente di confrontare la variabilità tra insiemi di dati con mezzi diversi. Un CV del 10% significa che la SD è il 10% della media — utile in finanza e biologia.
Errore Standard della Media (SEM): SD ÷ √n. Misura la precisione della media del campione come stima della media della popolazione. Man mano che la dimensione del campione cresce, il SEM si riduce — i campioni più grandi danno stime più precise.

Deviazione Standard in Finanza, Scienza e Sport

La deviazione standard ha interpretazioni specifiche e pratiche in diversi campi:

Finanza — Misurazione del rischio: In finanza, la deviazione standard dei rendimenti = volatilità = rischio. Una azione che restituisce il 10% annualmente con SD del 15% ha una probabilità del 68% di restituire tra −5% e +25% in qualsiasi anno. Lo S&P 500 ha una SD annuale di circa 15-20%. I portafogli di obbligazioni hanno di solito una SD di 3-7%. La performance corretta rispetto al rischio (Rapporto di Sharpe) = (rendimento - tasso di riferimento) / SD — più alto, meglio.

Scienza — Controllo della qualità e misura: Gli strumenti di laboratorio riportano le misure come media ± SD. Una lettura di termometro 37,2 ± 0,3°C significa che la misura è entro 0,3°C dalla vera misura con una fiducia del 68%. In studi clinici, la significatività statistica è definita tipicamente come l'effetto del trattamento che è più di 2 SDs dalla media del gruppo di controllo (p < 0,05).

Analisi sportiva: La consistenza di un giocatore è quantificata con la SD. Un giocatore di basket che media 25 punti a partita con SD di 3 è più affidabile di uno che media 25 con SD di 10. La previsione del tempo utilizza modelli di ensemble dove la SD delle previsioni di temperatura indica la fiducia — una SD stretta significa che i previsionisti concordano; una SD ampia significa alta incertezza.

Formazione: I punteggi Z esprimono quanti deviazioni standard un punteggio di un studente è lontano dalla media della classe: Z = (punteggio - media) / SD. Un punteggio Z di +2 significa che il punteggio è 2 SD sopra la media — meglio di circa il 97,7% degli studenti. Gli esami standardizzati come il SAT sono progettati in modo che i punteggi seguano una distribuzione normale approssimativa, consentendo queste comparazioni percentiliche.

Domande frequentemente poste

Che differenza c'è tra deviazione standard e varianza?

La varianza è la media dei deviazioni quadratiche dalla media. La deviazione standard è la radice quadrata della varianza. Entrambe misurano la dispersione, ma la deviazione standard è in unità dello stesso tipo dei dati (più facile da interpretare), mentre la varianza è in unità quadrate. Un dataset di altezze in cm ha varianza in cm² — non significativa. La DS in cm è direttamente comparabile alle misure originali.

Quando utilizzare la deviazione standard della popolazione vs quella della campione?

Utilizzare la DS della popolazione (σ, divide per N) quando hai dati per l'intera popolazione che stai descrivendo — tutti gli studenti in una classe specifica, tutti gli impiegati in un'azienda. Utilizzare la DS della campione (s, divide per n-1) quando i dati sono un sottoinsieme di una popolazione più grande e stai stimando la variabilità della popolazione — un sondaggio, partecipanti a un trial clinico, campioni di controllo da una produzione.

Cosa significa un alto o basso valore di deviazione standard?

Una bassa deviazione standard significa che i dati sono concentrati vicino alla media — coerenza, bassa variabilità. Una alta deviazione standard significa che i dati sono sparsi — alta variabilità. Nessuna è intrinsecamente migliore; dipende dal contesto. Nella produzione, una bassa DS è desiderata (coerenza). Negli investimenti, alcuni investitori accettano una DS più alta per potenziali ritorni più alti.

Cosa è un punteggio Z e come si relaziona con la deviazione standard?

Un punteggio Z misura quanti deviazioni standard un valore è lontano dalla media: Z = (valore - media) / DS. Un punteggio Z di 0 = esattamente medio. Z = +1 = 1 DS sopra la media (84° percentile). Z = -2 = 2 DS sotto la media (2,3° percentile). I punteggi Z consentono di confrontare valori da dataset diversi con scale diverse.

Cosa è l'errore standard e come si differenzia dalla deviazione standard?

La deviazione standard descrive la dispersione dei dati individuali. L'errore standard della media (SEM = DS/√n) descrive la precisione della media della campione come stima della media della popolazione reale. Man mano che aumenta la dimensione della campione, l'errore standard diminuisce (più dati = stima più precisa), ma la DS non cambia necessariamente. L'errore standard viene utilizzato nelle intervalli di confidenza; la DS descrive la distribuzione dei dati stessi.

La deviazione standard può essere negativa?

No. La deviazione standard è sempre zero o positiva. È zero solo quando tutti i valori dei dati sono identici (nessuna variabilità). Poiché è calcolata come radice quadrata di una somma di quadrati, non può essere negativa. Una varianza o una deviazione standard negative indicano un errore di calcolo.

Come gli outliar influiscono sulla deviazione standard?

Gli outliar possono aumentare notevolmente la deviazione standard perché le deviazioni sono quadrate — le grandi deviazioni dalla media contribuiscono in modo disproporzionato. Ad esempio, in {10, 11, 10, 12, 100}: rimuovere l'outliar (100) riduce la DS da ~38 a ~0,9. Quando sono presenti outliar, la media e l'intervallo interquartile (IQR) sono misure più robuste della tendenza centrale e della dispersione.

Cosa significa se la deviazione standard è zero?

Una deviazione standard di zero significa che tutti i valori nel dataset sono identici — non c'è alcuna variabilità. Ad esempio, {5, 5, 5, 5, 5} ha media = 5 e DS = 0. Ciò si verifica in dataset artificiali o fortemente vincolati. In dataset pratici, DS = 0 spesso indica un errore di raccolta dati o misure identiche.