Kalkulačka směrodatné odchylky
Výpočet standardní odchylky, variance, průměru a dalšího pro jakýkoli soubor dat. Podporuje výpočty populace i vzorku. Bezplatné řešení krok za krokem.
Co je standardní odchylka a proč je důležitá?
Měření standardní odchylkyjak rozložené jsou vaše údaje kolem průměru (průměr)Malá směrodatná odchylka znamená, že hodnoty se těsně shlukují kolem průměru; velká směrodatná odchylka znamená, že hodnoty jsou široce rozptýlené.
Dvě soubory dat mohou mít stejný průměr, ale zcela odlišné rozdělení -- standardní odchylka zachycuje tento rozdíl:
- Soubor dat A: {9, 10, 10, 11, 10} -- průměr = 10, SD ~ 0,63 (přísný cluster)
- Soubor údajů B: {2, 5, 10, 15, 18} -- průměr = 10, SD ~ 5,83 (široké rozložení)
Obě mají průměr 10, ale soubor údajů B je téměř 10x variabilnější.
Standardní odchylka se označujeσ (sigma)pro populaci asJe to druhá odmocnina variance, vyjádřená ve stejných jednotkách jako původní data, což ji činí interpretovatelnější než samotnou varianci.
Aplikace zahrnují téměř všechny oblasti: kontrolu kvality (jsou vyráběné díly konzistentně v rámci tolerance?), finance (investiční riziko = volatilita návratnosti), medicína (je čtení pacienta v rozmezí 2 SD od normálu?), vzdělávání (jak jsou rozděleny výsledky testů?), a sportovní analýza (jak konzistentní je výkon sportovce?).
Populace vs. standardní odchylka vzorku
Nejdůležitější volbou při výpočtu směrodatné odchylky je, zda pracujete spočet obyvatel(všechny možné údaje) nebovzorekTo určuje, který vzorec použít a ovlivňuje výsledek.
Standardní odchylka populace (σ):Vzorec: σ = √[Σ(xi - μ) 2 / N]
kde: μ = populační průměr, N = počet hodnot, Σ = součet všech hodnot.
Standardní odchylka vzorku:Vzorec: s = √[Σ(xi - x̄) 2 / (n-1]
kde: x̄ = průměr vzorku, n = počet hodnot ve vzorku, (n-1) =Besselova korekce.
Besselova korekce se dělí (n-1) namísto n, protože vzorky mají tendenci podceňovat pravou populační odchylku - zejména u malých vzorků.nezaujatý odhadcepopulační variance.
Kterou použít?
- Populace SD:Máte data pro všechny studenty v konkrétní třídě, všechny výsledky testů z jedné konkrétní zkoušky, všechny zaměstnance v jedné společnosti.
- Vzorek SD:Zkoumali jste 500 Američanů ohledně příjmů (což se vztahuje na všechny Američany); změřili jste 30 výrobků z výrobního cyklu (což se vztahuje na všechny výrobky); jakoukoli vědeckou studii se vzorkem.
Postupný výpočet směrodatné odchylky
Pojďme si udělat kompletní příklad s reálnými čísly:
Soubor údajů:Hodnocení 6 studentů: {72, 85, 91, 68, 79, 88}
Krok 1 - Zjistěte průměr:(72 + 85 + 91 + 68 + 79 + 88) / 6 = 483 / 6 =80,5
Krok 2 - Zjistěte každou odchylku od průměru a umocněte ji:
| Hodnocení (xi) | Odchylka (xi - x̄) | Kvadrat (xi - x̄) 2 |
|---|---|---|
| 72 | 72 - 80,5 = -8,5 | 72,25 |
| 85 | 85 - 80,5 = +4,5 | 20,25 |
| 91 | 91 - 80,5 = +10,5 | 110,25 |
| 68 | 68 - 80,5 = - 12,5 | 156,25 |
| 79 | 79 - 80,5 = -1,5 | 2.25 |
| 88 | 88 - 80,5 = +7,5 | 56,25 |
| Součet | 0 (vždy) | 417,50 Kč |
Krok 3 - Výpočet odchylky:Variance vzorku (n-1) = 417,50 / 5 = 83,50
Krok 4 -- Vezměte odmocninu od směrodatné odchylky:s = √83,50 ~Číslo 9
Výklad:Přibližně 68% skóre by se očekávalo mezi 71,4 a 89,6 (průměr +/- 1 SD), pokud by se jednalo o normálně distribuovanou populaci.
Empirické pravidlo a normální rozdělení
Pro údaje, které následují ponormální rozdělení (klobouční křivka), empirické pravidlo (pravidlo 68-95-99,7) přesně uvádí, kolik hodnot se nachází v rozmezí standardní odchylky:
| Rozsah | Procento údajů | Příklad (průměr = 100, SD = 15) |
|---|---|---|
| Průměr +/- 1 SD | ~68,27% | 85 až 115 |
| Průměr +/- 2 SD | ~95,45% | 70 až 130 |
| Průměr +/- 3 SD | ~99,73% | 55 až 145 |
| Nad +/- 3 SD | ~0,27% | Pod 55 nebo nad 145 |
Klasická aplikace je IQ skóre: průměr = 100, SD = 15. IQ 130 je 2 SDs nad průměrem - jen asi 2,3% lidí má tak vysoké skóre. IQ 145 je 3 SDs nad průměrem - asi 0,13% lidí (přibližně 1 z 750).
V oblasti kontroly kvalityŠest SigmaStandard vyžaduje, aby procesy měly méně než 3,4 defektů na milion příležitostí - což odpovídá udržení odchylky v rozmezí +/-6 standardních odchylek od cíle, což zanechává pouze 0,00034% míru defektů. Toto je statistický základ výrobních programů Six Sigma.
Ne všechny údaje jsou normálně rozděleny. Rozdělení příjmů je nakloněno doprava (někteří velmi vysokí příjemci natáhnou pravý ocas). V takových případech může být medián a interkvartilní rozsah informativnější než průměr a standardní odchylka.
Další statistická měření: průměr, medián, odchylka a další
Standardní odchylka je nejvýznamnější spolu s dalšími popisnými statistikami.
- Průměr (arytmetický průměr):Součet všech hodnot ÷ počet. Citlivý na výstřední hodnoty - jedna extrémní hodnota může významně posunout průměr.
- Medián:Pro {1, 2, 3, 4, 100}: průměr = 22, medián = 3.
- Režim:Nejčastěji se vyskytující hodnota. Užitečná pro kategorické údaje; soubor dat může mít více režimů nebo žádný.
- Rozsah:Maximální - minimální. Jednoduché, ale citlivé na anomálie; nepopisuje tvar rozdělení.
- Odchylka (σ2 nebo s2):Kvadrat standardní odchylky. Matematicky užitečný, ale obtížněji interpretovatelný, protože je ve čtvercových jednotkách. Příklad: pokud jsou výšky v centimetrech, variance je v cm2 - což nemá žádný fyzikální význam.
- Koefficient variace (CV):(Standardní odchylka / průměr) x 100%. Umožňuje porovnávat variabilitu mezi datovými soubory s různými průměry. CV 10% znamená, že SD je 10% průměru - užitečné v oblasti financí a biologie.
- Standardní chyba průměru (SEM):SD ÷ √n. Měří přesnost průměru vzorku jako odhad populačního průměru. S rostoucí velikostí vzorku se SEM zmenšuje - větší vzorky poskytují přesnější odhady.
Standardní odchylka v oblasti financí, vědy a sportu
Standardní odchylka má specifické, praktické interpretace v různých oblastech:
Finanční -- Měření investičního rizika:Standardní odchylka výnosů = volatilita = riziko. Akcie s výnosem 10% ročně s SD 15% má 68% pravděpodobnost návratnosti mezi -5% a +25% v daném roce. S&P 500 má historicky roční SD asi 15 - 20%.
Věda -- Kontrola kvality a měření:Laboratorní přístroje hlásí měření jako průměr +/- SD. Termometr s hodnotou 37,2 +/- 0,3 °C znamená, že měření je v rozmezí 0,3 °C od skutečné hodnoty s důvěryhodností 68%. V klinických studiích se statistická významnost obvykle definuje jako léčebný účinek, který je více než 2 SD od průměru kontrolní skupiny (p < 0,05).
Sportovní analytici:Hráčova konzistentnost je kvantifikována SD. Basketbalista s průměrem 25 bodů za hru s SD 3 je spolehlivější než ten s průměrem 25 s SD 10. Předpověď počasí používá souborové modely, kde SD teplotních předpovědí indikuje důvěru - úzká SD znamená, že předpovědci souhlasí; široká SD znamená vysokou nejistotu.
Vzdělání:Z-score vyjadřuje, kolik standardních odchylek má skóre studenta od třídního průměru: Z = (score - průměr) / SD. Z-score +2 znamená skóre 2 SD nad průměrem - lepší než přibližně 97,7% studentů. Standardizované testy, jako je SAT, jsou navrženy tak, aby skóre sledovalo zhruba normální rozdělení, což umožňuje tyto percentilová srovnání.
Často kladené otázky
Jaký je rozdíl mezi standardní odchylkou a variancí?
Variance je průměr odchylek na druhou od průměru. Standardní odchylka je druhá odmocnina variance. Obě měří rozložení, ale standardní odchylka je ve stejných jednotkách jako data (snadněji interpretovatelná), zatímco variance je ve čtvercových jednotkách.
Kdy mám použít populaci proti vzorku standardní odchylky?
Použijte populační SD (σ, děleno N), když máte data pro celou populaci, kterou popisujete - všechny studenty v jedné konkrétní třídě, všechny zaměstnance v jedné společnosti. Použijte vzorkový SD (s, děleno n-1), když jsou vaše data podmnožinou větší populace a odhadujete variabilitu populace - vzorek průzkumu, účastníci klinické studie, vzorky kontroly kvality z výrobního cyklu.
Co znamená vysoká nebo nízká standardní odchylka?
Nízká standardní odchylka znamená, že datové body jsou shromážděny těsně kolem průměru - konzistence, nízká variabilita. Vysoká standardní odchylka znamená, že data jsou široce rozšířena - vysoká variabilita. Žádná z nich není v podstatě lepší; záleží na kontextu. V výrobě je požadována nízká SD (konsistence). V investičních výnosech někteří investoři přijímají vyšší SD pro vyšší potenciální výnosy.
Co je to Z-score a jak to souvisí se standardní odchylkou?
Z-score měří, kolik standardních odchylek má datový bod od průměru: Z = (hodnota - průměr) / SD. Z-score 0 = přesně průměr. Z = +1 = 1 SD nad průměrem (84. percentil). Z = -2 = 2 SD pod průměrem (2.3. percentil). Z-score umožňuje porovnávat hodnoty z různých datových souborů s různými stupnicemi.
Co je standardní chyba a jak se liší od standardní odchylky?
Standardní odchylka popisuje rozložení jednotlivých datových bodů. Standardní chyba průměru (SEM = SD/√n) popisuje přesnost výběrového průměru jako odhad skutečného průměru populace. S nárůstem výběrové velikosti SEM klesá (více dat = přesnější odhad), ale SD se nutně nemění. SEM se používá v intervalech spolehlivosti; SD popisuje rozdělení samotných dat.
Může být směrodatná odchylka záporná?
Ne. Standardní odchylka je vždy nulová nebo kladná. Je rovna nule pouze tehdy, když jsou všechny hodnoty dat identické (žádná variabilita). Jelikož se vypočítává jako odmocnina součtu čtverců, nemůže být záporná. Negativní variance nebo standardní odchylka by naznačovaly chybu výpočtu.
Jak výjimečné hodnoty ovlivňují standardní odchylku?
Extrémní hodnoty mohou výrazně zvětšit standardní odchylku, protože odchylky jsou umístěny na druhou stranu - velké odchylky od průměru přispívají nepřiměřeně. Například v {10, 11, 10, 12, 100}: odstranění extrémního hodnoty (100) snižuje SD z ~38 na ~0,9.
Co to znamená, když se standardní odchylka rovná nule?
Standardní odchylka nula znamená, že všechny hodnoty v souboru dat jsou identické - neexistuje žádná variabilita. Například {5, 5, 5, 5, 5} má průměr = 5 a SD = 0.