🔬 Advanced 🔥 Popular

Калькулятор стандартного відхилення

Розрахуйте стандартне відхилення, дисперсію, середнє значення та інше для будь-якого набору даних. Підтримує розрахунки для генеральної сукупності та вибірки.

Що таке стандартне відхилення та чому воно має значення?

Стандартне відхилення вимірює, як розпорошені дані навколо середнього значення (середньої). Малі стандартні відхилення означають, що значення згруповані близько до середнього значення, великі стандартні відхилення означають, що значення розкидані широко.

Дві набори даних можуть мати одне й те саме середнє значення, але зовсім різні розподіли — стандартне відхилення відображає цю різницю:

Набір даних А: {9, 10, 10, 11, 10} — Середнє значення = 10, SD ≈ 0,63 (згруповані близько до середнього значення)
Набір даних Б: {2, 5, 10, 15, 18} — Середнє значення = 10, SD ≈ 5,83 (широко розкидані)

Обидва мають середнє значення 10, але набір даних Б майже в 10 разів більш різноманітний. Стандартне відхилення робить це помітним.

Стандартне відхилення позначається σ (сигма) для населення і s для вибірки. Це квадратний корінь від дисперсії, виражений у одиницях, подібних до початкових даних — роблячи його більш інтерпретованим, ніж дисперсія сама по собі.

Застосування охоплює майже всі галузі: контроль якості (вироблені частини завжди знаходяться в межах допустимості?), фінанси (ризик інвестицій = волатильність відсотків), медицина (якщо рівень пацієнта знаходиться в межах 2 SD від норми?), освіта (як розподілені оцінки?), аналітика спорту (як стабільна є виконання спортсмена?).

Населення проти вибіркової стандартної відхилення

Найважливіша вибірка при розрахунку стандартного відхилення — чи працюєте ви з населенням (всі можливі дані) чи з вибіркою (підмножина). Це визначає, який формулу використовувати, і впливає на результат.

Насільне стандартне відхилення (σ): Використовуйте, коли у вас дані для всього групи, яку ви вивчаєте. Формула: σ = √[Σ(xᵢ − μ)² / N]

Де: μ = середнє значення населення, N = кількість значень, Σ = сума всіх значень.

Вибіркове стандартне відхилення (s): Використовуйте, коли дані є вибіркою, взятою з більшого населення. Формула: s = √[Σ(xᵢ − x̄)² / (n−1)]

Де: x̄ = середнє значення вибірки, n = кількість значень у вибірці, (n−1) = корекція Бесселя.

Корекція Бесселя ділять на (n−1) замість n, оскільки вибірки схильні недооцінювати справжню дисперсію населення — особливо для малих вибірок. Використання (n−1) забезпечує небайдужий оцінювач справжньої дисперсії населення.

Який використовувати?

Насільне SD: У вас дані про всіх учнів певного класу; усі оцінки з однієї конкретної здачі; усі працівники однієї компанії.
Вибіркове SD: Ви опитали 500 американців щодо доходів (відповідаючи усім американцям); ви виміряли 30 вироблених widget (відповідаючи усім widget); будь-яка науково-дослідницька робота з вибіркою.

Шаги по розрахунку стандартного відхилення

Давайте пройдемося повністю прикладом з справжніми числами:

Набір даних: Оцінки 6 учнів: {72, 85, 91, 68, 79, 88}

Шаг 1 — знайти середнє значення: (72 + 85 + 91 + 68 + 79 + 88) / 6 = 483 / 6 = 80,5

Шаг 2 — знайти відхилення від середнього значення та його квадрат:

Оцінка (xᵢ)	Відхилення (xᵢ − x̄)	Квадрат (xᵢ − x̄)²
72	72 − 80,5 = −8,5	72,25
85	85 − 80,5 = +4,5	20,25
91	91 − 80,5 = +10,5	110,25
68	68 − 80,5 = −12,5	156,25
79	79 − 80,5 = −1,5	2,25
88	88 − 80,5 = +7,5	56,25
Сума	0 (завжди)	417,50

Шаг 3 — розрахувати дисперсію: Вибіркова дисперсія (n−1) = 417,50 / 5 = 83,50

Шаг 4 — візьміть квадратний корінь для стандартного відхилення: s = √83,50 ≈ 9,14

Інтерпретація: Більшість оцінок знаходяться близько 9,14 від середнього значення 80,5. Приблизно 68% оцінок очікується між 71,4 і 89,6 (середнє значення ± 1 SD) якщо це було нормально розподілене населення.

Правила Емпіричний і нормальна розподіл

Для даних, що слідують нормальному розподілу (безперервій кривій), Правила Емпіричний (68-95-99,7 правило) розповідає точно, скільки значень потрапляє в кожен діапазон стандартної відхилення:

Діапазон	Відсоток даних	Приклад (середнє значення=100, SD=15)
Середнє значення ± 1 SD	~68,27%	85 до 115
Середнє значення ± 2 SD	~95,45%	70 до 130
Середнє значення ± 3 SD	~99,73%	55 до 145
Поза ± 3 SD	~0,27%	Нижче 55 або вище 145

Класичний приклад — оцінки інтелекту: середнє значення = 100, SD = 15. Оцінка інтелекту 130 — 2 SD вище середнього значення — лише близько 2,3% людей отримують такі високі оцінки. Оцінка інтелекту 145 — 3 SD вище середнього значення — близько 0,13% людей (приблизно 1 в 750).

У якості контролю якості, стандарт Шість Сігма вимагає, щоб процеси мали менше ніж 3,4 дефектів на мільйон можливостей — еквівалентно зберіганню варіації в межах ±6 стандартних відхилень від цілі, залишаючи лише 0,00034% дефектів. Це статистична основа програм якості виробництва Six Sigma.

Не всі дані мають нормальний розподіл. Розподіл доходів правозліва зміщений (ніжче декілька дуже високих прибутків розтягують праву кінцівку). У такому випадку середнє значення і інтерквартильний діапазон можуть бути більш інформативними, ніж середнє значення і стандартне відхилення.

Інші статистичні міри: середнє значення, медіана, дисперсія та інші

Стандартне відхилення найбільш змістовне поряд з іншими описовими статистиками. Тут вони працюють разом:

Середнє значення (арифметичний середній): Сума всіх значень ÷ кількість. Чутливий до аутлайтів — одне екстремальне значення може суттєво зміщувати середнє значення.
Медіана: Середнє значення після сортування даних. Більше стійке до аутлайтів, ніж середнє значення. Для {1, 2, 3, 4, 100}: середнє значення = 22, медіана = 3.
Режим: Найчастіше зустрічається значення. корисний для категоричних даних; набір даних може мати декілька режимів або жодного.
Діапазон: Максимальне − мінімальне. Простий, але чутливий до аутлайтів; не описує форму розподілу.
Дисперсія (σ² або s²): В квадраті стандартного відхилення. Корисний математично, але важче інтерпретувати, оскільки він знаходиться в квадратних одиницях. Приклад: якщо висоти вимірюються в сантиметрах, дисперсія знаходиться в см² — що має фізичний зміст.
Коефіцієнт варіації (CV): (Стандартне відхилення / середнє значення) × 100%. Дозволяє порівнювати варіацію між наборами даних з різними середніми значеннями. Коефіцієнт варіації 10% означає, що SD становить 10% від середнього значення — корисний у фінансах і біології.
Стандартна помилка середнього значення (SEM): SD ÷ √n. Оцінює точність вибіркової середньої як оцінки середнього значення населення. З ростом розміру вибірки SEM зменшується — більші вибірки дають більш точні оцінки.

Стандартне відхилення в фінансах, науці та спорті

Стандартне відхилення має спеціальні, практичні інтерпретації в різних галузях:

Фінанси — вимірювання ризику: У фінансах стандартне відхилення відсотків = волатильність = ризик. Акція, яка повертає 10% щорічно зі стандартним відхиленням 15% має 68% вірогідність повернути між −5% і +25% протягом будь-якого року. С&P 500 історично має щорічний SD близько 15–20%. Портфоліо облігацій звичайно мають SD від 3 до 7%. Ризико-відповідальне виконання (Коефіцієнт Шарпа) = (відсоток повернення − безрисковий ставка) / SD — чим вище, тим краще.

Наука — контроль якості та вимірювання: Лабораторні прилади повідомляють вимірювання як середнє ± SD. Термометр показує 37,2 ± 0,3 °C означає вимірювання знаходиться в межах 0,3 °C від справжньої вартості з 68% вірогідністю. У клінічних випробуваннях статистична значущість визначається як вплив лікування, який більше ніж на 2 SD від середнього значення групи контролю (p < 0,05).

Спортивна аналітика: Змістовність гравця вимірюється SD. Баскетболіст, який середньо набирає 25 очок за гру зі SD 3 більш надійний ніж той, хто середньо набирає 25 зі SD 10. Моделі прогнозування погоди використовують енсамблі, де SD температури прогнозів вказує на впевненість — вузьке SD означає фахівці згодні; широке SD означає високу неопределеність.

Освіта: З-оцінки виражають, скільки стандартних відхилень від середнього значення класу має оцінка студента: Z = (оцінка − середнє значення) / SD. З-оцінка +2 означає оцінка на 2 SD вище середнього значення — краще ніж близько 97,7% учнів. Стандартизовані випробування, такі як SAT, розроблені так, щоб оцінки слідували майже нормальному розподілу, що дозволяє порівнювати відсоткові порівняння.

Часто задавані питання

Що таке різниця між стандартним відхиленням та дисперсією?

Дисперсія — середнє відхилення від середнього значення. Стандартне відхилення — квадратний корінь із дисперсії. Обидва вимірюють розкид, але стандартне відхилення має ті ж одиниці, що й дані (легше інтерпретувати), тоді як дисперсія має квадратичні одиниці. Дані щодо висоти в см мають дисперсію в см² — не має змісту. Стандартне відхилення в см порівнянно безпосередньо зі справжніми вимірюваннями.

Коли використовувати стандартне відхилення населення проти вибіркового?

Використовуйте стандартне відхилення населення (σ, ділять на N) коли у вас дані стосуються всього населення, яке ви описує — всі студенти в одному певному класі, всі працівники в однієї компанії. Використовуйте вибіркове стандартне відхилення (s, ділять на n−1) коли дані є підмножкою більшого населення та ви оцінюєте варіативність населення — дослідницька вибірка, учасники клінічного випробування, контрольні зразки виробництва.

Що означає високе або низьке стандартне відхилення?

Низьке стандартне відхилення означає, що дані точки згруповані близько до середнього значення — консистентність, низька варіативність. Високе стандартне відхилення означає, що дані розкидані широко — висока варіативність. Ніщо не є іншим краще; залежить від контексту. У виробництві бажана низька SD (консистентність). У інвестиційних поверненнях деякі інвестори приймають вищу SD за вищу потенційну прибутковість.

Що таке Z-оцінка та як вона пов'язана зі стандартним відхиленням?

Z-оцінка вимірює, скільки стандартних відхилень від середнього значення є дані точка: Z = (значення − середнє значення) / SD. З-оцінка 0 = точно середнє значення. Z = +1 = 1 SD вище середнього значення (84-й перцентиль). Z = −2 = 2 SD нижче середнього значення (2,3-й перцентиль). З-оцінки дозволяють порівнювати значення різних наборів даних з різними масштабами.

Що таке стандартна помилка та як вона відрізняється від стандартного відхилення?

Стандартне відхилення описує розкид окремих даних точок. Стандартна помилка середнього значення (SEM = SD/√n) описує точність вибіркового середнього значення як оцінки справжнього середнього значення населення. З підвищенням розміру вибірки SEM зменшується (більше даних = більш точна оцінка), але SD не обов'язково змінюється. SEM використовується в інтервалі довіри; SD описує розподіл даних самої.

Можна ли стандартне відхилення бути негативним?

Ні. Стандартне відхилення завжди дорівнює 0 або позитивному. Він дорівнює 0 тільки тоді, коли всі дані значення ідентичні (нічого немає варіативності). Позаяк воно обчислюється як квадратний корінь із суми квадратів, воно не може бути негативним. Негативна дисперсія або стандартне відхилення вказують на помилку розрахунків.

Як впливає відхилення на стандартне відхилення?

Відхилення можуть дуже збільшувати стандартне відхилення тому що відхилення квадратуються — великі відхилення від середнього значення мають дуже великий вплив. Наприклад, в наборі даних {10, 11, 10, 12, 100}: видаляючи відхилення (100) знижується SD з ~38 до ~0,9. Коли наявні відхилення, медіана та інтерквартильний діапазон (IQR) є більш міцними мірами середнього значення та розкид.

Що означає якщо стандартне відхилення дорівнює 0?

Стандартне відхилення 0 означає, що всі значення в наборі даних ідентичні — немає ніякої варіативності зовсім. Наприклад, {5, 5, 5, 5, 5} має середнє значення = 5 і SD = 0. Це відбувається в штучних або дуже обмежених наборах даних. У практичних наборах даних SD = 0 часто вказує на помилку збірки даних або ідентичні вимірювання.