Калькулятор средней, медианы и режима
Вычислите среднее значение, медиану, режим, диапазон и другие статистические данные для любого набора данных.
Понимание мер центральной тенденции
В статистике,меры центральной тенденцииТри наиболее важных значения - это среднее, медиана и режим - каждый из них говорит о данных по-разному, и каждый из них наиболее подходит в разных ситуациях.
Рассмотрим данный набор данных: результаты тестов {55, 60, 70, 75, 75, 80, 95}.
| Меры | Стоимость | Как рассчитывается | Лучшее для |
|---|---|---|---|
| Средний (средний) | 72,9 | (55 + 60 + 70 + 75 + 75 + 80 + 95) / 7 | Симетричные распределения |
| Медиана (среднее значение) | 75 | Среднее значение сортированных данных | Неравномерное распределение, отклонения |
| Режим (наиболее распространенный) | 75 | Наиболее часто повторяемое значение | Категорические данные, нахождение пиков |
| Диапазон | 40 | Макс - Минус = 95 - 55 | Измерение спреда |
Нет единого критерия "лучшего". Аналитик данных выбирает подходящий критерий, основываясь на форме распределения, наличии отклонений и поставленном вопросе. Понимание всех трёх - плюс их ограничения - является основополагающим для статистической грамотности.
Среднее значение (арифметическое среднее): как его рассчитать
Варифметическая средняяЭто наиболее часто используемая мера центральной тенденции, и это то, что большинство людей имеют в виду, когда говорят "среднее".
Формула: среднее значение (x̄) = (Σxi) / n
где Σxi - сумма всех значений, а n - количество.
Пример:Данные = {3, 7, 8, 5, 12, 4, 9, 6}
- Сумма: 3 + 7 + 8 + 5 + 12 + 4 + 9 + 6 = 54
- Количество: 8 значений
- Среднее = 54 / 8 =6,75
Среднее значение чувствительно котклоненияНапример, если одно значение в вышеуказанном наборе составляет 100 вместо 12, среднее значение скачет до (54 - 12 + 100) / 8 = 142 / 8 = 17,75, далеко от "типичного" значения остальных данных.
Другие виды средств специального назначения:
- Геометрическое значение:n√(x1 x x2 x ... x xn) -- используется для показателей роста, доходности, коэффициентов
- Средняя гармония:n / (1/x1 + 1/x2 + ... + 1/xn) -- используется для скоростей, скоростей, цены за единицу
- Средневзвешенная величина:Σ(wixi) / Σwi -- используется, когда данные имеют разную важность (например, средний балл)
Медиана: среднее значение
Вмедианаявляется средним значением набора данных при сортировке в возрастающем порядке. Он делит распределение ровно пополам: 50% значений ниже медианы и 50% выше.
Для нечетного числа значений:Медиана = (n+1) /2-е значение.
Для четного числа значений:Медиана = среднее значение n/2 и (n/2 + 1) th.
| Набор данных | n | Сортированные | Медиана |
|---|---|---|---|
| {4, 1, 9, 2, 6} | 5 (нечетные) | {1, 2, 4, 6, 9} | 4 (3-е значение) |
| {7, 3, 8, 5} | 4 (равное) | {3, 5, 7, 8} | (5+7)/2 = 6 |
| {10, 20, 30, 40} | 4 (равное) | {10, 20, 30, 40} | (20 + 30) / 2 = 25 |
| {1, 1, 1, 1000} | 4 (равное) | {1, 1, 1, 1000} | (1+1)/2 = 1 |
Обратите внимание на последний пример: среднее значение {1, 1, 1, 1000} = 250,75, но медиана = 1.медиана предпочтительнее среднего значения для искаженных распределенийс отклонениями - медианный доход, цены на жилье и продолжительность пребывания в больнице все сообщаются как медианы, потому что несколько чрезвычайно высоких значений сделают среднее значение нерепрезентативным для типичного опыта.
Режим: наиболее часто встречающееся значение
Врежимявляется наиболее часто встречающимся значением в наборе данных.
- Без режима:все значения появляются одинаково часто (например, {1, 2, 3, 4, 5})
- Один режим (унимодальный):одно значение появляется чаще, чем все остальные (например, {1, 2, 2, 3, 4} -> режим = 2)
- Два режима (бимодальный):два значения, привязанные к наиболее частому (например, {1, 1, 2, 3, 3} -> режимы = 1 и 3)
- Многорежимный (мультимодальный):три или более значений, привязанных к наиболее частому
Режим особенно полезен для:
- Категорические данные:"Какой самый популярный размер обуви?" (например, размер 10 для мужчин в США)
- Дискретные данные:"Сколько детей обычно рождается в семьях?" (часто 2 ребенка)
- Форма распределения:Бимодальное распределение (два пика) предполагает две различные субпопуляции в ваших данных - критически важный сигнал в исследовательском анализе
| Набор данных | Режим | Тип |
|---|---|---|
| {1, 2, 3, 4, 5} | Никаких | Без режима |
| {2, 4, 4, 6, 8} | 4 | Одномодальный |
| {1, 1, 3, 5, 5} | 1 и 5 | Бимодал |
| {a, b, b, c, c, d, d} | b, c, d | Тримодал |
Диапазон и другие показатели распространения
В то время как среднее значение, медиана и режим описывают центр распределения,меры распространенияОни одинаково важны для понимания набора данных.
| Меры | Формула | Пример {2, 4, 4, 6, 8} | Чувствительность к отклонениям |
|---|---|---|---|
| Диапазон | Макс-мин | 8 - 2 = 6 | Очень чувствительный |
| Интерквартильный диапазон (IQR) | Q3 - Q1 | 7 - 3 = 4 | Устойчивый |
| Расхождение (σ2) | Σ ((xi - x̄) 2 / n | 3.44 | Чувствительный |
| Стандартное отклонение (σ) | √Разнообразие | 1 855 человек | Чувствительный |
| Среднее абсолютное отклонение | Сделаем это вместе . | 1.6 Воздействие | Умеренно |
Для {2, 4, 4, 6, 8}: среднее значение = 4,8, поэтому отклонения: (2-4.8) 2 = 7,84, (4-4.8) 2 = 0,64, (4-4.8) 2 = 0,64, (6-4.8) 2 = 1,44, (8-4.8) 2 = 10,24.
Стандартное отклонение является рабочей лошадью статистики - оно появляется в тестировании гипотез, доверительных интервалах, расчетах нормального распределения и контроле процессов.
Когда использовать средний по сравнению с медианным по сравнению с режимом
Неправильный выбор показателя центральной тенденции может ввести в заблуждение.
| Ситуация | Рекомендуемая мера | Почему ? |
|---|---|---|
| Симметрично, нет отклонений | Скверно. | Наиболее математически обрабатываемый; использует все данные |
| Склонное распределение | Медиана | Не подвержены экстремальным значениям |
| Доход / цены на жилье | Медиана | Несколько миллионеров искажают средний показатель вверх. |
| Категорические данные | Режим | Среднее/медиана не относится к категориям |
| Наиболее распространенные значения | Режим | Прямой ответ на "самый популярный" |
| Средние оценки / средний балл | Средняя (весовая) | Все баллы вносятся пропорционально |
| Доходность акций / темпы роста | Геометрическое значение | Счета для счета-счета |
| Время выживания, госпитализация | Медиана | Склоняется вправо по долгосрочным случаям |
Известное наблюдение: "У среднего американца одна грудь и одно яичко" иллюстрирует, почему среднее значение может вводить в заблуждение при бимодальном распределении.
Примеры из реального мира: средний, средний и режим на практике
Понимание того, как эти понятия применяются в реальных ситуациях, развивает статистическую интуицию:
- Доход домохозяйств США (2023):Средний ~ $105,000; Медиана ~ $74,580. Разрыв отражает неравенство доходов - небольшое количество людей с очень высокими доходами резко увеличивает средний доход.
- Время завершения гонки:В гонке на 10 км среднее время финиша может быть выше, чем среднее, потому что медленные ходоки образуют длинный правый хвост.
- Результаты испытаний класса:Если один ученик набирает 5/100, а двадцать других набирают 75 - 95/100, среднее значение перемещается вниз по отклонению.
- Размеры обуви:Режим является наиболее действенной статистикой - розничные торговцы имеют наибольшее количество запасов в модальном (наиболее распространенном) размере.
- Контроль качества:В производстве стандартное отклонение измерений продукта определяет способность процесса. Низкий SD означает последовательное производство; высокий SD означает высокие уровни дефектов.
Часто задаваемые вопросы
Что лучше: среднее или среднее?
Ни один из них не является универсально лучшим - они служат различным целям. Медиана более надежна в отношении отклонений и лучше представляет "типичный" в искаженных распределениях (доход, цены на жилье, время выживания). Среднее использует все точки данных, математически оптимально для симметричных распределений и необходимо для дальнейших статистических расчетов, таких как стандартное отклонение и тестирование гипотез. Используйте оба вместе для полной картины.
Может ли набор данных не иметь режима?
Да. Если все значения встречаются одинаково часто, нет режима (например, {1, 2, 3, 4, 5} - каждое значение появляется ровно один раз). Набор данных также может быть мультимодальным - бимодальным (два режима: {1, 1, 3, 3, 5}) или тримодальным. На практике бимодальное распределение часто сигнализирует о двух различных подгруппах в ваших данных, что является важной моделью для исследования.
Как я нахожу медиану четного числа значений?
Сортируйте значения в возрастающем порядке, затем усредните два средних числа. Для {2, 4, 6, 8}: два средних значения - 4 и 6, поэтому медиана = (4 + 6) / 2 = 5. Для {1, 3, 5, 7, 9, 11}: средние значения - 5 и 7, поэтому медиана = (5 + 7) / 2 = 6. Медиана не должна быть значением в наборе данных.
Что это значит, если среднее = медиана = режим?
Когда все три измерения равны, распределение идеально симметрично и одномодально - классическая кривая колокола (нормальное распределение). Это означает, что нет отклонений, искажающих данные, и все три измерения являются одинаково действительными дескрипторами центра. На практике реальные данные редко достигают идеальной симметрии, но близкое выравнивание среднего и медиана предполагает приблизительную симметрию.
Какова взаимосвязь между средним, медианой и уклончивостью?
В правостороннем (положительном) распределении: среднее значение > среднее значение > режим. В левостороннем (отрицательном) распределении: среднее значение < среднее значение < режим. В симметричном распределении: среднее значение = среднее значение ~ режим. Эта взаимосвязь обеспечивает быструю визуальную проверку: сравните среднее значение и среднее значение, чтобы определить направление наклонения, не глядя на график.
Как вы рассчитываете среднее значение для группированных данных?
Для группированных данных о частоте используйте среднюю точку каждого интервала класса: среднее значение = Σ ((среднее значение x частота) / n. Пример: если 10 студентов набрали 50 - 60 (среднее значение 55), 15 набрали 60 - 70 (среднее значение 65) и 5 набрали 70 - 80 (среднее значение 75): среднее значение = (10x55 + 15x65 + 5x75) / 30 = (550+975+375) / 30 = 1900/30 ~ 63,3.
Какова разница между средним показателем популяции и средним показателем выборки?
Средняя величина популяции (μ, "mu") рассчитывается из каждого члена всей популяции. Средняя величина выборки (x̄, "x-bar") рассчитывается из подмножества (выборки), взятого из этой популяции. Формула идентична, но символы отличаются. На практике мы почти всегда работаем со средними величинами выборки и используем их для оценки средней величины популяции, что вводит ошибку выборки и требует методов статистического вывода.
Как отклонение влияет на среднее значение по сравнению с медианой?
Отходные значения сильно влияют на среднее значение, но имеют минимальное влияние на медиану. Пример: данные {1, 2, 3, 4, 5} имеют среднее значение = 3 и медиану = 3. Добавление отходного значения {1, 2, 3, 4, 5, 100}: среднее значение поднимается до 19,2, но медиана изменяется только до (3 + 4) / 2 = 3,5.
Какова средняя величина?
Например, 10% среднее значение на {1, 2, 3, 4, 5, 6, 7, 8, 9, 100}: удалить нижний и верхний 10% (примерно по 1 значению каждый), оставляя {2, 3, 4, 5, 6, 7, 8, 9}; среднее значение = 5,5. Средние значения используются в системах оценки (олимпийские суждения, фигурное катание) и экономической статистике для уменьшения влияния отклонений, сохраняя при этом больше данных, чем медиана.
Как я вычисляю средневзвешенное значение?
Средневзвешенное значение = Σ ((вес x значение) / Σ ((весы). Пример - расчет GPA: класс A (4.0) в 3-кредитном курсе, класс B (3.0) в 4-кредитном курсе, класс C (2.0) в 2-кредитном курсе: средневзвешенное значение = (4.0x3 + 3.0x4 + 2.0x2) / (3+4+2) = (12+12+4) / 9 = 28/9 ~ 3.11. Без взвешивания, простой средний будет (4+3+2) / 3 = 3.0 - отсутствует более тяжелое влияние 4-кредитного курса.
Резюме описательной статистики: то, что вам всегда нужно
Полное описательное статистическое резюме для любого набора данных должно включать в себя все следующее. Это то, о чем вы сообщаете в научной работе, бизнес-анализе или академическом задании:
| Статистика | Символ | Пример {2,4,4,6,8,10}) | Разъяснение |
|---|---|---|---|
| Подсчет | n | 6 | Сколько наблюдений |
| Скверно. | x̄ | 5,67 года | Среднее значение |
| Медиана | M | 5,0 | Среднее значение (50-й процентиль) |
| Режим | Mo | 4 | Наиболее часто встречающиеся значения |
| Диапазон | R | 8 | Распределение от минимума до максимума |
| Стандартное отклонение | σ или s | 2,58 года | Типичное отклонение от среднего значения |
| Расхождение | σ² | 6,67 | SD в квадрате |
| Минимальная / Максимальная | — | 2 / 10 | Экстремальные значения |
В академической и научной работе всегда сообщайте как о измерении центра, так и о измерении распространения. Отчет только о среднем (или медиане) без стандартного отклонения (или IQR) дает неполную картину ваших данных. Класс, в котором учащиеся набрали в среднем 75% с SD = 5%, сильно отличается от класса со средним значением = 75%, но SD = 25% - первый - это узкий кластер оценок B, второй - дико смешанная группа от неудачного до почти идеального.
Процентили, квартили и квадратные графы
Помимо среднего значения, медианы и режима, полное статистическое резюме часто включает в себя анализ процентилов. Перцентили показывают, какая часть данных опускается ниже заданного значения - это важно для понимания относительного положения, выявления отклонений и сравнения между группами населения.
- Медиана = 50-й процентиль:Половина данных ниже этого значения
- Q1 (первый квартил) = 25-й процентиль:25% данных ниже Q1
- Q3 (третий квартил) = 75-й процентиль:75% данных ниже Q3
- IQR (межквартильный диапазон) = Q3 - Q1:Содержит средние 50% данных
- Правило отклонения:Пункты ниже Q1 - 1,5xIQR или выше Q3 + 1,5xIQR считаются отклонениями.
| Процентная величина | Значение | Пример (оценка экзамена, n=100) |
|---|---|---|
| Десятая . | 10% набрали меньше | Результат 52 -> лучше 10% от класса |
| 25-й (Q1) | 25% набрали меньше | Результат 64 -> граница нижней четверти |
| 50-я (медиана) | 50% набрали меньше | Оценка 75 -> середина распределения |
| 75-й (Q3) | 75% набрали меньше | Показатель 87 -> верхняя граница квартила |
| Девяностые | 90% набрали меньше | 93 балла -> 10% лучших в классе |
| 99-й . | 99% набрали меньше | Показатель 99 -> 1% лучших |
График коробки (график коробки и уса) визуализирует эту информацию: коробка охватывает от Q1 до Q3 (IQR), линия обозначает медиану, а "усы" простираются до самых маленьких / самых больших неотличительных значений. Например, сравнение результатов тестов в трех школах с использованием трех боксов сразу показывает, какая школа имеет более высокую среднюю производительность, которая имеет большее распространение (индикация непоследовательного обучения), и имеет ли какая-либо школа кластер отличных учеников, нуждающихся в поддержке.
Шаг за шагом: вычисление средней, медианы и режима вручную
Давайте рассмотрим полный пример с реалистичным набором данных: ежемесячные показатели продаж (в тысячах) для малого бизнеса за 12 месяцев: {42, 38, 55, 61, 48, 52, 75, 48, 63, 44, 38, 57}.
Шаг 1: сортировка данных
Сортирован в восходящем порядке: {38, 38, 42, 44, 48, 48, 52, 55, 57, 61, 63, 75}
Шаг 2: вычислите среднее значение
Сумма = 38+38+42+44+48+48+52+55+57+61+63+75 = 621
n = 12, среднее = 621 / 12 =51,75 (тысячи)
Шаг 3: Найдите медиану
n = 12 (честный): среднее значение 6-го и 7-го значений = (48 + 52) / 2 =50
Шаг 4: Определите режим
И 38 и 48 появляются дважды.{38, 48}(бимодальный)
Шаг 5: Расчет диапазона и стандартного отклонения
Диапазон = 75 - 38 =37
Отклонения от среднего (51,75): (38-51,75) 2 = 189,06; (38-51,75) 2 = 189,06; (42-51,75) 2 = 95,06; (44-51,75) 2 = 60,06; (48-51,75) 2 = 14,06; (52-51,75) 2 = 0,06; (55-51,75) 2 = 10,56; (57-51,75) 2 = 27,56; (61-51,75) 2 = 85,56; (63-51,75) 2 = 126,56; (75-51,75) 2 = 540,56
Сумма квадратных отклонений = 1,352.25; Дифференциация = 1,352.25/12 = 112.69; SD = √112.69 ~10,62 года
Разъяснение
Этот бизнес имеет среднемесячные продажи в размере 51 750 долларов США с медианой в размере 50 000 долларов США. Стандартное отклонение ~ 10 620 долларов США означает, что большинство месяцев находятся в пределах +/- 10 620 долларов США от среднего значения. Бимодальное распределение (два режима) может указывать на сезонные закономерности - проверьте, скопляются ли два 38 и два 48 в конкретных месяцах. Верхний отклонённый показатель (75 000 долларов США за один месяц) вытягивает среднее значение немного выше медианы, что указывает на легкий положительный уклон - вероятно, один исключительный месяц продаж (праздничный сезон, крупный контракт и т. Д.).