Калькулятор стандартного отклонения
Рассчитайте стандартное отклонение, дисперсию, среднее и другие показатели для любого набора данных. Поддерживает расчёты как для генеральной совокупности, так и для выборки.
Что такое стандартное отклонение и почему оно имеет значение?
Стандартное отклонение измеряет, сколько разбросано ваша данные вокруг среднего значения. Малое стандартное отклонение означает, что значения сконцентрированы вокруг среднего значения; большое стандартное отклонение означает, что значения широко рассредоточены.
Два набора данных могут иметь одинаковую среднюю величину, но совершенно разные распределения — стандартное отклонение фиксирует эту разницу:
- Набор A: {9, 10, 10, 11, 10} — Среднее значение = 10, SD ≈ 0,63 (тесное скопление)
- Набор B: {2, 5, 10, 15, 18} — Среднее значение = 10, SD ≈ 5,83 (широкое рассредоточение)
Оба имеют среднее значение 10, но набор B в 10 раз более переменен. Стандартное отклонение делает это видимым.
Стандартное отклонение обозначается σ (сигма) для популяции и s для выборки. Это квадратный корень из дисперсии, выраженный в тех же единицах, что и исходные данные — что делает его более интерпретируемым, чем дисперсия одна.
Применения охватывают почти все области: контроль качества (существует ли у производимых деталей постоянный диапазон?), финансы (риски инвестиций = волатильность вложений), медицина (является ли показание пациента в 2 SD нормальным?), образование (как распределены оценки?), аналитика спорта (сколько постоянна спортивная форма спортсмена?).
Популяционное и выборочное стандартное отклонение
Самая важная задача при расчете стандартного отклонения — это то, работаете ли вы с популяцией (все возможные данные) или выборкой (подмножество). Это определяет, какой формулу использовать и влияет на результат.
Популяционное стандартное отклонение (σ): Используйте, когда у вас есть данные для всей группы, которую вы изучаете. Формула: σ = √[Σ(xᵢ − μ)² / N]
Где: μ = среднее значение популяции, N = количество значений, Σ = сумма всех значений.
Выборочное стандартное отклонение (s): Используйте, когда ваши данные — выборка из более крупной популяции. Формула: s = √[Σ(xᵢ − x̄)² / (n−1)]
Где: x̄ = среднее значение выборки, n = количество значений в выборке, (n−1) = корректировка Бесселя.
Корректировка Бесселя делит на (n−1) вместо n, потому что выборки склонны недооценивать истинную популяционную дисперсию — особенно для малых выборок. Используя (n−1), получается небиасированный оценщик популяционной дисперсии.
Какой использовать?
- Популяционное SD: У вас есть данные для всех студентов в конкретной группе; все оценки по одному конкретному экзамену; все сотрудники в одной компании.
- Выборочное SD: Вы опросили 500 американцев о доходах (сделав выводы для всех американцев); вы измерили 30 widget из выпуска (сделав выводы для всех widget); любое научное исследование с выборкой.
Шаг за шагом расчет стандартного отклонения
Давайте пройдемся по полному примеру с реальными числами:
Набор данных: Оценки 6 студентов: {72, 85, 91, 68, 79, 88}
Шаг 1 — найти среднее значение: (72 + 85 + 91 + 68 + 79 + 88) / 6 = 483 / 6 = 80,5
Шаг 2 — найти каждый отклонение от среднего значения и возвести в квадрат:
| Оценка (xᵢ) | Отклонение (xᵢ − x̄) | В квадрате (xᵢ − x̄)² |
|---|---|---|
| 72 | 72 − 80,5 = −8,5 | 72,25 |
| 85 | 85 − 80,5 = +4,5 | 20,25 |
| 91 | 91 − 80,5 = +10,5 | 110,25 |
| 68 | 68 − 80,5 = −12,5 | 156,25 |
| 79 | 79 − 80,5 = −1,5 | 2,25 |
| 88 | 88 − 80,5 = +7,5 | 56,25 |
| Сумма | 0 (всегда) | 417,50 |
Шаг 3 — рассчитать дисперсию: Выборочная дисперсия (n−1) = 417,50 / 5 = 83,50
Шаг 4 — возьмите квадратный корень для стандартного отклонения: s = √83,50 ≈ 9,14
Интерпретация: Большинство оценок находятся в пределах примерно 9,14 от среднего значения 80,5. Около 68% оценок можно было бы ожидать между 71,4 и 89,6 (среднее значение ± 1 SD), если бы это была нормально распределенная популяция.
Правила Эмпирического и Нормальная распределение
Для данных, следящих за нормальным распределением (кривая в виде колоколо), Правила Эмпирического (68-95-99,7 правило) говорит вам точно, сколько значений находится в каждом диапазоне стандартной отклонения:
| Диапазон | Процент данных | Пример (среднее=100, SD=15) |
|---|---|---|
| Среднее ± 1 SD | ~68,27% | 85 до 115 |
| Среднее ± 2 SD | ~95,45% | 70 до 130 |
| Среднее ± 3 SD | ~99,73% | 55 до 145 |
| За пределами ± 3 SD | ~0,27% | Ниже 55 или выше 145 |
Классическим применением является оценка IQ: среднее значение = 100, SD = 15. Оценка IQ 130 — это 2 SD выше среднего значения — только примерно 2,3% людей получают такой высокий результат. Оценка IQ 145 — это 3 SD выше среднего значения — примерно 0,13% людей (примерно 1 из 750).
В контроле качества стандарт Шесть Сигма требует, чтобы процессы имели менее 3,4 дефекта на миллион возможностей — эквивалентно тому, чтобы сохранять вариацию в пределах ±6 стандартных отклонений от цели, оставляя только 0,00034% дефектную скорость. Это статистическая основа программ качества Six Sigma.
Не все данные нормально распределены. Распределения доходов смещены вправо (немного очень высоких заработков растягивают правую часть). В таких случаях медиана и интерквартильный диапазон могут быть более информативными, чем среднее значение и стандартное отклонение.
Другие статистические показатели: Среднее, медиана, дисперсия и т. д.
Стандартное отклонение наиболее информативно вместе с другими описательными статистиками. Вот, как они работают вместе:
- Среднее (арифметическое среднее): Сумма всех значений ÷ количество. Чувствителен к аутлайтерам — один экстремальный значение может существенно сдвинуть среднее значение.
- Медиана: Среднее значение, когда данные отсортированы. Более устойчив к аутлайтерам, чем среднее значение. Для {1, 2, 3, 4, 100}: среднее значение = 22, медиана = 3.
- Режим: Наиболее часто встречающееся значение. Полезно для категориальных данных; набор данных может иметь несколько режимов или ни одного.
- Диапазон: Максимальное значение - минимальное. Простой, но чувствителен к аутлайтерам; не описывает форму распределения.
- Дисперсия (σ² или s²): В квадрате стандартного отклонения. Полезно математически, но сложно интерпретировать, поскольку оно находится в квадратных единицах. Пример: если росты измеряются в сантиметрах, дисперсия измеряется в см² — что имеет физическое значение.
- Коэффициент вариации (CV): (Стандартное отклонение / среднее значение) × 100%. Позволяет сравнивать вариативность между наборами данных с разными средними значениями. CV 10% означает, что SD составляет 10% от среднего значения — полезно в финансовой и биологической науке.
- Стандартная ошибка среднего значения (SEM): SD ÷ √n. Измеряет точность среднего значения выборки как оценки среднего значения популяции. С ростом размера выборки SEM уменьшается — большие выборки дают более точные оценки.
Стандартное отклонение в финансах, науке и спорте
Стандартное отклонение имеет конкретные, практические интерпретации в разных областях:
Финансы — измерение риска: В финансах стандартное отклонение возвращаемости = волатильность = риск. Акция, возвращающая 10% в год с SD 15% имеет 68% вероятность возвращения между −5% и +25% в любом году. С&P 500 исторически имеет годовое SD примерно 15–20%. Портфели облигаций обычно имеют SD 3–7%. Риск-адаптированная эффективность (Коэффициент Шарпа) = (возврат − ставка безрискового актива) / SD — выше, чем лучше.
Наука — контроль качества и измерения: Лабораторные приборы отображают измерения как среднее значение ± SD. Термометр, показывающий 37,2 ± 0,3 °С означает, что измерение находится в 0,3 °С от истинного значения с 68% вероятностью. В клинических испытаниях статистическая значимость обычно определяется как эффект лечения, превышающий 2 SDs от среднего значения контрольной группы (p < 0,05).
Аналитика спорта: Консистентность игрока quantified с SD. Баскетболист, среднее значение 25 очков за игру с SD 3 более надежен, чем тот, среднее значение 25 с SD 10. Погоду прогнозировать используются модели энсамбля, где SD температуры прогнозов указывает на уверенность — узкое SD означает, что прогнозисты согласны; широкое SD означает высокую неопределенность.
Образование: З-значения выражают, на сколько стандартных отклонений балл студента от среднего значения класса: Z = (балл − среднее значение) / SD. З-значение +2 означает, что балл на 2 SDs выше среднего значения — лучше, чем примерно 97,7% студентов. Стандартизированные тесты, такие как SAT, разработаны так, чтобы баллы следовали примерно нормальному распределению, что позволяет эти процентильные сравнения.
Часто задаваемые вопросы
Что такое разница между средним квадратичным отклонением и средним квадратом?
Среднее квадратичное отклонение — это среднее значение квадратов отклонений от среднего значения. Среднее квадратичное отклонение — это квадратный корень из среднего квадратичного отклонения. Оба измеряют разброс, но среднее квадратичное отклонение имеет одинаковые единицы измерения, что делает его более удобным для интерпретации, тогда как среднее квадратичное отклонение имеет квадратичные единицы. Датасет высот в сантиметрах имеет среднее квадратичное отклонение в квадратных сантиметрах — не имеет смысла. Среднее квадратичное отклонение в сантиметрах напрямую сравнимо с исходными измерениями.
Когда использовать среднее квадратичное отклонение для популяции или выборки?
Используйте среднее квадратичное отклонение для популяции (σ, делится на N) тогда, когда у вас есть данные для всей популяции, которую вы описываете — все студенты в одной конкретной группе, все сотрудники в одной компании. Используйте среднее квадратичное отклонение для выборки (s, делится на n-1) тогда, когда ваши данные — это подмножество более крупной популяции и вы оцениваете вариативность популяции — опросная выборка, участники клинического trials, образцы контроля качества из выпуска.
Что означает высокое или низкое среднее квадратичное отклонение?
Низкое среднее квадратичное отклонение означает, что данные точки сконцентрированы вокруг среднего значения — консистентность, низкая вариативность. Высокое среднее квадратичное отклонение означает, что данные разбросаны широко — высокая вариативность. Ни то, ни другое не является лучше; это зависит от контекста. В производстве желательно низкое SD (консистентность). В инвестициях некоторые инвесторы принимают на себя более высокое SD за более высокие потенциальные доходы.
Что такое коэффициент Z и как он связан с средним квадратичным отклонением?
Коэффициент Z измеряет, насколько стандартных отклонений от среднего значения находится точка данных: Z = (значение - среднее значение) / SD. Коэффициент Z = 0 = ровно среднее значение. Z = +1 = 1 SD выше среднего значения (84-й процентиль). Z = -2 = 2 SD ниже среднего значения (2,3-й процентиль). Коэффициенты Z позволяют сравнивать значения из разных датасетов с разными масштабами.
Что такое стандартная ошибка и как она отличается от среднего квадратичного отклонения?
Среднее квадратичное отклонение описывает разброс отдельных данных точек. Стандартная ошибка среднего значения (SEM = SD/√n) описывает точность среднего значения выборки как оценки истинного среднего значения популяции. С ростом размера выборки SEM уменьшается (больше данных = более точная оценка), но SD не обязательно меняется. SEM используется в интервалах доверия; среднее квадратичное отклонение описывает распределение данных самих по себе.
Может ли среднее квадратичное отклонение быть отрицательным?
Нет. Среднее квадратичное отклонение всегда равно 0 или положительно. Оно равно 0 только тогда, когда все значения данных точек одинаковы (нет вариативности вообще). Поскольку оно рассчитывается как квадратный корень из суммы квадратов, оно не может быть отрицательным. Отрицательное среднее квадратичное отклонение или среднее квадратичное отклонение указывает на ошибку расчета.
Как влияют выбросы на среднее квадратичное отклонение?
Выброси могут существенно увеличить среднее квадратичное отклонение, поскольку отклонения квадратизуются — большие отклонения от среднего значения вносятся в дисперсию пропорционально. Например, в наборе данных {10, 11, 10, 12, 100}: удаление выброса (100) снижает SD с ~38 до ~0,9. Когда присутствуют выбросы, медиана и интерквартильный диапазон (IQR) являются более устойчивыми мерами среднего значения и разброса.
Что означает, если среднее квадратичное отклонение равно 0?
Среднее квадратичное отклонение 0 означает, что все значения в датасете одинаковы — нет вариативности вообще. Например, {5, 5, 5, 5, 5} имеет среднее значение = 5 и SD = 0. Это происходит в искусственных или сильно ограниченных датасетах. В практических датасетах SD = 0 часто указывает на ошибку сбора данных или идентичные измерения.