Calculator Z-Score - Score standard, percentilu și probabilitate
Calculați scorurile z și convertiți-le în percentile folosind distribuția normală standard.
Ce este un Z-score?
Un z-score (numit și un scor standard) vă spune exact cât de multeabateri standardo anumită valoare se află peste sau sub media setului său de date. Formula este înșelător de simplă:z = (x - μ) / σ, unde x este valoarea observată, μ (mu) este media populației, iar σ (sigma) este deviația standard a populației.
Puterea scorurilor z constă în standardizare: prin convertirea valorilor brute în scoruri z, puteți compara măsurătorile de la scări complet diferite. Un student care a obținut un scor de 78 la un test de biologie (media 70, SD 10) are z = +0.8. Acelaşi student care a obținut un scor de 85 la un test de istorie (media 80, SD 3.33) are z = +1.5. În ciuda diferenței de scor brut, studentul a avut rezultate relativ mai bune în istorie - un fapt invizibil fără conversia scorului z.
Z-score-urile sunt fundamentale în statistică, psihologie, educație, medicină și controlul calității. Acestea se conectează direct la probabilitățile sub distribuția normală, permițându-vă să calculați procentul unei populații peste, sub sau între oricare două valori.
Distribuția normală standard și percentilele
Când z-score sunt trase, acestea urmeazăDistribuție normală standard-- o curbă în formă de clopoțel cu medie = 0 și abatere standard = 1. Aria de sub această curbă reprezintă probabilitatea: aria din stânga unui scor z este egală cu rangul percentilului (percentul valorilor care se încadrează sub acel scor z).
| Z-score | Percentil | % de mai sus | Interpretarea |
|---|---|---|---|
| -3.0 | 0,13% | 99,87% | Extrem de sub medie |
| - 2,0 | 2,28% | 97,72% | Foarte sub medie |
| - 1,5 | 6,68% | 93,32% | Sub medie |
| -1,0 | 15,87% | 84,13% | Puţin sub medie |
| -0,5 | 30,85% | 69,15% | Media scăzută |
| 0,0 | În cazul în care: | În cazul în care: | Exact la medie |
| +0,5 | 69,15% | 30,85% | Media ridicată |
| +1,0 | 84,13% | 15,87% | Puţin peste medie |
| +1,5 | 93,32% | 6,68% | Peste medie |
| +2,0 | 97,72% | 2,28% | Mult peste medie. |
| +3,0 | 99,87% | 0,13% | Extrem de peste medie |
Aceste percentile provin din funcția de distribuție cumulativă (CDF) a distribuției normale. În practică, le căutați într-un tabel z sau le calculați folosind un software (NORM.S.DIST din Excel, scipy.stats.norm.cdf din Python sau acest calculator).
Regula 68-95-99.7 (Regula empirică)
Unul dintre cele mai citate fapte în statistică,regula empiricădescrie procentul de date care se încadrează în 1, 2 și 3 deviații standard ale mediei într-o distribuție normală:
- +/-1σ (z între -1 și +1):68,27% din date
- +/-2σ (z între -2 și +2):95,45% din date
- +/-3σ (z între -3 și +3):99,73% din date
În mod echivalent, doar 5% din datele cu distribuție normală se încadrează cu mai mult de 2 abateri standard față de medie, și doar 0,27% (aproximativ 1 din 370) se încadrează peste 3 abateri standard.
| Distanță | Datele incluse | Datele excluse | 1-în-N raritate |
|---|---|---|---|
| +/-1σ | 68,27% | 31,73% | ~ 1 din 3 |
| +/-2σ | 95,45% | 4,55% | ~ 1 din 22 |
| +/-3σ | 99,73% | 0,27% | ~ 1 din 370 |
| +/-4σ | 99.9937% | 0,0063% | ~ 1 din 15.787 |
| +/-6σ | 99,9999998% | 0,0000002% | ~ 1 din 506.842.372 |
Managementul calității Six Sigma își propune să reducă defectele de fabricație la mai puțin de 3,4 la un milion de oportunități - un nivel care presupune o schimbare de proces de 1,5σ în timp, ceea ce îl face aproximativ echivalent cu +/-4,5σ. Aspirația performanței "six sigma" este de a face defectele statistic nesemnificative.
Z-scores în testele standardizate
Testele standardizate - SAT, ACT, testele IQ, GRE, GMAT - sunt concepute pentru a produce scoruri cu distribuție normală care pot fi convertite în mod semnificativ în percentile folosind scoruri z. Acest lucru permite compararea între diferite forme de test (care pot varia ușor în dificultate) și de-a lungul anilor.
Nivelul IQ-ului:Un IQ de 130 are z = (130-100) / 15 = +2.0, plasând persoana la percentilul 97.7. Un IQ de 145 are z = +3.0, plasându-i la percentilul 99.87 (aproximativ 1 din 740 de persoane).
Scores SAT:Fiecare secțiune (citire / scriere și matematică bazată pe dovezi) are o medie de ~ 500 și SD ~ 100. Un scor de matematică de 680 are z = (680-500)/100 = +1.8, aproximativ al 96-lea percentil. Un scor combinat de 1400 (z ~ +1.8 - 2.0) plasează un elev în aproximativ 5% dintre participanții la test.
| Încercare | Rău . | SD | Score de 1σ peste medie | Percentil |
|---|---|---|---|---|
| IQ | 100 de | 15 | 115 . | Al 84-lea |
| SAT (fiecare secțiune) | 500 şi | 100 de | 600 | Al 84-lea |
| ACT | 21 | 5 | 26 | Al 84-lea |
| GRE Verbal | 150 | 8,5 | 158,5 | Al 84-lea |
Z-scores în controlul calității și Six Sigma
În producție și controlul calității procesului, scorurile z sunt utilizate pentru a măsura capacitatea procesului - cât de bine un proces de producție se încadrează în limitele specificațiilor.
Capacitatea de procesare:Dacă media procesului este μ și deviația standard este σ, iar specificațiile impun ca ieșirea să se situeze între limita inferioară a specificațiilor (LSL) și limita superioară a specificațiilor (USL), atunci:
- zsuperioară= (USL - μ) / σ
- zinferioară= (μ - LSL) / σ
- Cp = (USL - LSL) / (6σ) -- măsuri ale diferenței față de lățimea specificației
- Cpk = min(zsuperioară, zinferioară) / 3 -- conturi pentru centrarea proceselor
Un Cpk >= 1.33 este necesar în mod obișnuit în industria auto și aerospațială (echivalent cu +/-4σ capacitatea de proces).
Z-score în intervalele de referință medicale
Laboratoarele medicale raportează rezultatele testelor în raport cu intervalele de referință, care sunt în mod obișnuit definite ca 95% centrală a unei populații sănătoase - corespunzătoare scorurilor z între -1,96 și +1,96. Un rezultat în afara acestui interval este marcat ca "anormal", deși acest lucru înseamnă pur și simplu că este statistic neobișnuit, nu neapărat îngrijorător din punct de vedere clinic.
Densitatea osoasă (scan DEXA):Rezultatele sunt raportate sub formă de puncte T (comparativ cu norma pentru adulţii tineri) şi puncte Z (comparativ cu norma pentru vârsta):
- T-score >= -1,0: normal
- T-score -1,0 până la -2,5: Osteopenie
- T-score < -2,5: Osteoporoză
Diagrame de creştere:Înălțimea, greutatea și circumferința capului copiilor sunt reprezentate ca scoruri z în raport cu normele de vârstă-sex. Un copil la percentilul 50 are z = 0; la percentilul 97 z = +1.88; la percentilul 3 z = -1.88.
Hematologie:Contele sanguine (emoglobină, celule albe, trombocite) au intervale de referinţă exprimate ca medie +/- 2SD. Valorile dincolo de aceste intervale declanşează revizuirea clinică, deşi variaţia individuală şi diferenţele de laborator înseamnă că contextul clinic este esenţial.
Testarea ipotezelor și testele Z
Z-score-urile formează baza testului z, unul dintre cele mai frecvent utilizate teste ale ipotezelor în statistică.
z = (x̄ - μ0) / (σ / √n)
unde x̄ este media eșantionului, μ0 este media ipotezată a populației, σ este deviația standard cunoscută a populației, iar n este mărimea eșantionului.
Aceste valori critice provin direct din distribuția normală: 95% din distribuție se încadrează în +/-1.96 SD, iar 99% în +/-2.576 SD.
| Nivel de semnificație (α) | Valoarea z critică (cu două cozi) | Interpretarea |
|---|---|---|
| 0,10 (10%) | +/-1,645 | 90% de încredere |
| 0,05 (5%) | +/-1,960 | Confianță de 95% (standard) |
| 0,01 (1%) | +/-2.576 | Încredere de 99% |
| 0,001 (0,1%) | +/- 3,291 | Încredere de 99,9% |
Limitările scorului Z şi când să nu-l folosiţi
Z-score-urile și calculele percentilelor derivate din acestea presupun că datele de bază urmează oDistribuție normală (Gaussian)Multe seturi de date din lumea reală încalcă această ipoteză:
- Venit și avere:Foarte înclinată spre dreapta - media este mult mai mare decât mediana, iar scorurile z subestimează dramatic cât de rară este bogăția extremă.
- Rezultate financiare:Au "cozi grase" - evenimentele extreme (prăbușiri de piață, surprize) apar mult mai frecvent decât prevede o distribuție normală. Modelele care utilizează scoruri z au subestimat probabilitatea crizei financiare din 2008.
- Metrice de social media:Următorii, like-urile și vizualizările urmează distribuțiile legii puterii, nu distribuțiile normale.
- Eșantioane mici:Cu mai puțin de ~ 30 de observații, distribuția t (cu cozi mai grele) este mai adecvată decât distribuția z.
Înainte de a aplica analiza scorului z, verificați întotdeauna dacă datele dvs. sunt aproximativ distribuite în mod normal folosind histograme, grafice Q-Q sau teste formale de normalitate (Shapiro-Wilk, Anderson-Darling). Dacă datele sunt anormale, luați în considerare transformări (logarithm, rădăcină pătrată) sau alternative non-parametrice.
Întrebări frecvente
Ce înseamnă un scor z de 1,5?
Un scor z de 1,5 înseamnă că valoarea este de 1,5 deviații standard peste medie, plasându-l aproximativ la percentilul 93. Aproximativ 93,3% din valori într-o distribuție normală se situează sub acest punct, iar 6,7% se situează deasupra acestuia.
Ce este un bun scor z?
"Bun" depinde de context. Pentru scorurile de test sau pentru valorile de performanță, scorurile z mai mari sunt mai bune. Pentru indicatorii de risc (colesterol, tensiune arterială), scorurile z apropiate de 0 sunt cele mai sănătoase. În controlul calității, scorurile z dincolo de defectele de flag +/-3 sau valorile anormale. Nu există un scor z universal "bun" - depinde de ceea ce se măsoară.
Cum calculez un scor z?
Subtrageți media de valoarea dvs., apoi împărțiți cu deviația standard: z = (x - μ) / σ. Exemplu: scor de 85, medie 70, SD 10 -> z = (85-70) / 10 = 1.5. Aceasta înseamnă că scorul este de 1,5 deviații standard peste media clasei.
Care este scorul z pentru percentilul 95?
Scorul z corespunzător percentilului 95 este aproximativ +1.645 (unilateral). Aceasta este, de asemenea, valoarea critică pentru un test de semnificație unilateral la α = 0.05. Pentru intervalul 95% cu două cozi (adică 95% central din distribuție), limitele sunt +/-1.96.
Poate un scor z să fie negativ?
Da. Un scor z negativ înseamnă că valoarea este sub medie. Un scor z de -1,0 înseamnă că valoarea este cu o deviație standard sub medie, la percentilul 15.87.
Care este diferența dintre un scor z și un scor t?
Ambele standardizează datele în raport cu media și deviația standard. Un scor z presupune că deviația standard a populației (σ) este cunoscută. Un scor t (sau t-statistic) utilizează deviația standard a eșantionului (e) ca o estimare atunci când σ este necunoscută și urmează distribuția t cu coada mai grea. Pentru eșantioane mari (n > 30), t și z sunt aproape identice.
Cum este z-score utilizat în finanțe?
Altman Z-score prezice riscul de faliment corporativ folosind o combinație ponderată de rapoarte financiare. În managementul riscurilor, z-score măsoară câte abateri standard este rentabilitatea portofoliului de la zero (Valoarea la risc).
Ce procent din date se încadrează în 2 abateri standard?
Aproximativ 95,45% din date se încadrează în intervalul +/-2σ al mediei într-o distribuție normală (regula empirică).
Cum convertesc un scor z într-un percentil?
Căutați scorul z într-un tabel normal standard (z-table), care oferă probabilitatea cumulativă. Multiplicați cu 100 pentru percentil. De exemplu, z = 1,0 -> 0,8413 -> percentilul 84. Alternativ, utilizați formula: percentil = Φ ((z) x 100, unde Φ este CDF normal standard. Excel: =NORM.S.DIST ((z,TRUE) x100.
Pentru ce se utilizează punctajul z în controlul calității?
În managementul calității Six Sigma, scorurile z măsoară capacitatea procesului. Un proces care rulează la +/-3σ (z = 3) produce 2.700 de defecte pe milion. La +/-6σ (z = 6) produce doar 3,4 de defecte pe milion (contabilizând deriva tipică a procesului). Indicii Cp și Cpk utilizează direct concepte de scor z pentru a cuantifica cât de bine un proces îndeplinește specificațiile.
Detectarea anomaliilor prin utilizarea scorurilor Z
Una dintre cele mai comune aplicații practice ale scorurilor z este detectarea anomaliilor - identificarea punctelor de date care sunt neobișnuit de departe de medie și pot reprezenta erori, evenimente extraordinare sau observații cu adevărat neobișnuite care necesită investigație.
Valoarea standard pentru identificarea valorilor anormale este z z > 3. Valorile cu mai mult de 3 deviații standard față de medie sunt așteptate doar în 0,27% din observații în cadrul unei distribuții normale - aproximativ 1 din 370 de puncte de date. Într-un set de date de 1000 de măsurători, te-ai aștepta doar la ~3 valori dincolo de +/-3σ din întâmplare. Dacă găsești 20 de astfel de valori, ceva neobișnuit se întâmplă - defecțiuni ale echipamentului, erori de introducere a datelor sau observații reale extreme.
Criterii mai stricte sunt utilizate în domenii specifice:
- Dispozitive medicale:Praguri de alarmă de la +/-2σ (rata de alarmă de 5%) la +/-3σ (rata de alarmă de 0,27%) în funcție de urgența clinică
- Piețe financiare:Evenimentele "grele" dincolo de +/-4σ apar mult mai frecvent decât prevede o distribuție normală - criza financiară din 2008 a implicat mișcări de 5 - 7σ care au fost teoretic "imposibile" în baza ipotezelor de distribuție normală
- Controlul calității:Valorile peste +/-3σ (defecte în cadrul Six Sigma) necesită investigarea procesului și analiza cauzelor profunde
- Cercetare științifică:Pragul de 5σ este necesar pentru a pretinde o descoperire de fizică a particulelor (ca în anunțul bosonului Higgs din 2012 de la CERN)
| Pragul scorului Z | % marcate (normale) | Utilizat în |
|---|---|---|
| "Într-adevar" 2.0 | 4,55% | Verificarea inițială a datelor |
| "Încă mai mult de 2,5". | 1,24% | Intervale de referință medicale |
| "Într-un an de zile" | 0,27% | Controlul calității, detectarea anomaliilor |
| "Z" este mai mare de 4.0. | 0,0063% | Analiza defectelor procesului |
| "Încă mai mult de 5.0". | 0,00006% | Declarația de descoperire a fizicii particulelor |
Avertisment important: datele din lumea reală au adesea cozi mai grele decât prognozează distribuția normală (distribuții leptokurtice). Întotdeauna inspectați valorile excepționale manual - un scor z de 4 ar putea fi o eroare de introducere a datelor (48 înregistrat ca 4,8) sau o valoare extremă reală cu semnificație importantă. Nu ștergeți niciodată în mod automat valorile excepționale fără investigație.
Z-Score în finanțe și managementul riscurilor
În finanțe, scorurile z au mai multe aplicații critice dincolo de statisticile academice.Altman Z-Score(1968), un model de predicție a falimentului care combină cinci rapoarte financiare într-un singur scor discriminant:
Z = 1,2x ((capitalul de lucru/totalul activelor) + 1,4x ((profiturile reținute/totalul activelor) + 3,3x ((EBIT/totalul activelor) + 0,6x ((capitalizarea pieței/totalul pasivelor) + 1,0x ((venituri/totalul activelor)
Interpretarea Altman Z-Score: Z > 2,99 = Zona de siguranță; 1,81 - 2,99 = Zona gri; Z < 1,81 = Zona de dificultate (risc ridicat de faliment). Modelul a prezis corect falimentul în 94% din cazuri în studiile originale și rămâne larg utilizat de analiștii de credit și investitorii de astăzi.
Valoarea la risc (VaR):În managementul riscurilor de portofoliu, VaR utilizează scoruri z pentru a cuantifica pierderile potențiale. VaR de 95% pe o zi pentru un portofoliu cu medie zilnică de rentabilitate μ și abatere standard σ este: VaR = -(μ + z x σ) unde z = -1.645 (percentilul 5). Dacă un portofoliu de 1 milion de dolari are μ zilnic = 0% și σ = 1%, VaR la o încredere de 95% = 1.645% x 1 milion de dolari = 16.450 dolari. Aceasta înseamnă că există o șansă de 5% de a pierde mai mult de 16.450 dolari într-o singură zi.
| Nivelul de încredere | Z-score utilizat | Interpretarea |
|---|---|---|
| Până la 90% | - 1.282 | Pierderi mai mari de 10% din zilele de tranzacționare |
| 95% din greutate | -1.645 | Pierderi mai mari de 5% din zilele de tranzacționare |
| 99% din totalul | - 2.326 | Pierderi mai mari de 1% din zilele de tranzacționare |
| 99,9% | -3.090 | Pierderi mai mari de 0,1% din zilele de tranzacționare |
Calcularea scorurilor Z cu date din eșantion
Când lucrați cu un eșantion (mai degrabă decât o populație cunoscută), estimați parametrii populației din eșantion. Media eșantionului (x̄) estimează μ, iar deviația standard a eșantionului (e) estimează σ. Formula scorului z rămâne aceeași: z = (x - x̄) / s.
Cu toate acestea, cu eșantioane mici, scorurile z rezultate urmează distribuția t (nu distribuția normală) datorită incertitudinii adăugate în estimarea σ. Distribuția t are cozi mai grele, reflectând această incertitudine mai mare. Pentru eșantioane de 30 sau mai multe, distribuția t și distribuția normală sunt aproape identice, iar scorurile z din ambele calcule sunt aproximativ echivalente.
Când aveți un set de date și doriți să standardizeze toate valorile (convertirea întregului set de date la z-score), acest lucru se numeștescalarea caracteristicilor or standardizareeste un pas de pre-procesare care pune toate caracteristicile pe aceeași scară (mean = 0, SD = 1), împiedicând caracteristicile cu valori absolute mai mari să domine algoritmii bazate pe distanță (KNN, SVM, rețele neuronale). După standardizare, scorurile z ale fiecărei caracteristici sunt direct comparabile indiferent de unitățile sau scara inițială.
Pentru a standardiza un set de date în Python:from sklearn.preprocessing import StandardScaler; scaler = StandardScaler(); X_scaled = scaler.fit_transform(X). În Excel: pentru fiecare valoare dintr-o coloană, calculează=STANDARDIZE(value, AVERAGE(range), STDEV(range)).