平均值,中位数和模式计算器
计算任何数据集的平均值,中位数,模式,范围和其他统计数据. 使用这个免费的在线数学计算器即时获得准确的结果. 无需注册.
了解中心趋势的尺度
在统计学中,中心趋势的指标这三个最重要的值是平均值,中位数和模式, 每个值都会告诉你数据的不同, 每个值在不同情况下都最适合.
考虑这个数据集:测试分数{55, 60, 70, 75, 75, 80, 95}.每个测量给出了不同的视角:
| 一项措施 | 价值 | 如何计算 | 最好的 |
|---|---|---|---|
| 平均 (平均) | 72.9 年 | (55+60+70+75+75+80+95) / 7 其他国家 | 对称分布 |
| 中位数 (中间值) | 75 | 排序数据的中值 | 偏差分布,异常值 |
| 模式 (最常见) | 75 | 最多重复的值 | 分类数据,发现峰值 |
| 范围 | 40 | 最多 - 最少 = 95 - 55 | 测量差距 |
没有单一的衡量标准是普遍的"最佳". 数据分析师根据分布形状,异常值的存在,以及被问到的问题来选择合适的衡量标准. 了解这三种,加上它们的局限性,对于统计素养至关重要.
平均 (算术平均):如何计算
在数学平均值是所有值的总和除以值的数量. 它是最常用的中心倾向的衡量标准,也是大多数人说"平均"时的意思.
公式:平均 (x̄) = (Σxi) / n
其中 Σxi 是所有值的总和,n 是数量.
一个例子:数据 = {3, 7, 8, 5, 12, 4, 9, 6}
- 总和: 3 + 7 + 8 + 5 + 12 + 4 + 9 + 6 = 54
- 数量:8个值
- 平均值 = 54 / 8 =6.75 年
平均值对异常值-- 极端值将平均值拉向它们.例如,如果上述集合中的一个值是100而不是12,则平均值将跳跃到 (54 - 12 + 100) / 8 = 142 / 8 = 17.75,远离剩余数据的"典型"值.
其他类型的专用设备:
- 几何平均值:n√(x1 x x2 x ... x xn) --用于增长率,回报率,比率
- 的平均值:n / (1/x1 + 1/x2 + ... + 1/xn) --用于速度,速率,单位价格
- 权重平均值:Σ(wixi) / Σwi -- 当数据点的重要性不同时使用 (例如,GPA)
中位数:中位数
在中位数是数据集的中间值,按上升顺序排序.它将分布分成两半:50%的值低于中位数,50%高于中位数.
对于奇数值:中位数 = (n+1) / 2 的值.
对于偶数的值:中位数 = n/2 号和 (n/2 + 1) 号值的平均值.
| 数据集 | n | 进行分类 | 中位数 |
|---|---|---|---|
| {4, 1, 9, 2, 6} 时间 | 5 (奇数) | {一,二,四,六,九} | 4 (第三个值) |
| {7,3,8,5} 没有 | 4 (甚至) | {三,五,七,八} | (5+7) / 2 = 6 |
| {10,20,30,40} 美国 | 4 (甚至) | {10,20,30,40} 美国 | 20+30/2=25 年 |
| {一个,一个,一个,一千个} | 4 (甚至) | {一个,一个,一个,一千个} | (1+1)/2=1 |
注意最后一个例子:{1,1,1,1000}的平均值=250.75,但中位数=1. 这完全说明了为什么在偏斜分布中,中位数优先于平均值平均收入,住房价格和住院时间都是中位数,
模式:最常见的值
在模式是数据集中最频繁出现的值.数据集可以有:
- 没有模式:所有值均频繁出现 (例如{1, 2, 3, 4, 5})
- 一种模式 (单种模式):一个值比所有其他值都多 (例如,{1, 2, 2, 3, 4} -> mode = 2)
- 两个模式 (双模式):最常见的两个值 (例如, {1, 1, 2, 3, 3} -> 模式 = 1 和 3)
- 多种模式 (多种模式):三个或更多值为最常见的
这种模式特别适用于:
- 分类数据:"最受欢迎的鞋子尺寸是什么?" (例如,美国男士的鞋子尺寸是10号)
- 不同的数据:"一个家庭通常有多少个孩子?" (通常是2个)
- 分布形状:双模分布 (两个峰值) 表明您的数据中有两个不同的子群体--在探索性分析中这是一个非常重要的信号
| 数据集 | 模式 | 类型 |
|---|---|---|
| {一,二,三,四,五} | 没有 | 没有模式 |
| {2 ,4 ,4 ,6 ,8} 没有 | 4 | 单通道的 |
| {一个,一个,三个,五个} | 1 和 5 | 比莫达尔 |
| 现在,我已经知道了. | b,c,d | 特里莫达尔 |
范围和传播的其他指标
虽然平均值,中位数和模式描述了分布的中心,扩散的措施描述数据的变化程度.它们对于理解数据集同样重要.
| 一项措施 | 公式 | 例如 ({2, 4, 4, 6, 8}) | 对异常值的敏感性 |
|---|---|---|---|
| 范围 | 最多 - 最少 | 8减2等于6 | 非常敏感 |
| 四分位数间范围 (IQR) | Q3 - Q1 其他 | 7减去3等于4 | 有抗性 |
| 差异 (σ2) | (xi - x̄) 2 / n | 3.44 年 | 敏感的 |
| 标准偏差 (σ) | √变量 | 1,855 年 | 敏感的 |
| 平均绝对偏差 | 一个小小的小孩. | 一,六 | 中等程度 |
对于{2, 4, 4, 6, 8}:平均值=4.8,所以偏差是: (2-4.8) 2=7.84, (4-4.8) 2=0.64, (4-4.8) 2=0.64, (6-4.8) 2=1.44, (8-4.8) 2=10.24.差异= (7.84+0.64+0.64+1.44+10.24) / 5 = 20.8 / 5 = 4.16. SD = √4.16 ~ 2.04.
标准偏差是统计学的工作 - 它出现在假设测试,置信区间,正常分布计算和过程控制中.较低的标准偏差意味着数据聚集在平均值附近;较高的标准偏差意味着数据更分散.
什么时候使用平均值与中位数与模式
选择错误的中心趋势度量可能会产生误导. 以下是一份实用指南:
| 情况 | 建议的措施 | 为什么 |
|---|---|---|
| 对称,没有异常值 | 意思是 | 在数学上最易处理;使用所有数据 |
| 扭曲的分布 | 中位数 | 不被极端值所吸引 |
| 收入/住房价格 | 中位数 | 一些百万富翁将平均水平偏向上 |
| 分类数据 | 模式 | 平均值/中位数不适用于类别 |
| 最常见的值 | 模式 | 直接回答"最受欢迎的" |
| 平均成绩/平均成绩 | 平均值 (加权) | 所有分数均有比例的贡献 |
| 股票回报率/增长率 | 几何平均值 | 复合账户 |
| 生存时间,住院时间 | 中位数 | 由长期案件向右倾斜 |
众所周知的观察:"平均美国人有一个乳房和一个 丸"说明了为什么平均值可以误导双模分布.在这种情况下,模式 (按性别分开) 和中位数比整体平均值更具信息性.
实例:实践中的平均值,中位数和模式
了解这些概念如何在现实情况中应用,可以建立统计直觉:
- 美国家庭收入 (2023):平均收入约为105,000美元;中位数约为74,580美元.差距反映了收入偏差 - 一小部分收入非常高的人大幅拉升了平均水平.政策讨论使用中位数收入,因为它更好地代表了"典型"家庭.
- 跑步比赛结束时间:在10公里比赛中,平均完成时间可能高于中位数,因为慢步行者形成长右尾.中位数的完成者更代表的是中位数的跑者.
- 班级测试成绩:如果一个学生得分为5/100,另有20名学生得分为75 - 95/100,则平均值将被异常值拖向下.教师可能会报告中位数以更好地代表课堂表现.
- 鞋子尺寸:模式是最可操作的统计数据--零售商在模式 (最常见) 尺寸中存储最多的库存.
- 质量控制:在制造业中,产品测量的标准偏差决定了工艺能力.低标准偏差意味着一致的生产;高标准偏差意味着高缺陷率.
人们常问的问题
哪个更好:平均值还是中位数?
两者都不是普遍更好的 - - 它们有不同的用途.中位数对异常值更强大,在偏斜分布 (收入,住房价格,生存时间) 中更好地代表"典型".平均值使用所有数据点,对于对称分布是数学上最佳的,并且对于标准偏差和假设测试等进一步的统计计算是必要的.为了获得完整的图像,将两者一起使用.
一个数据集可以没有模式吗?
是的.如果所有值均频繁出现,则没有模式 (例如,{1, 2, 3, 4, 5} - 每个值都出现在正确的一次).数据集也可以是多模式 - 双模式 (两个模式:{1, 1, 3, 3, 5}) 或三模式.在实践中,双模式分布通常标志着您的数据中的两个不同的子组,这是一个重要的研究模式.
如何找到偶数值的中位数?
把值按上升顺序排序,然后平均两个中间数.对于{2,4,6,8}:两个中间值是4和6,所以中位数= (4+6)/2=5.对于{1,3,5,7,9,11}:中间值是5和7,所以中位数= (5+7)/2=6.中位数不一定是数据集中的值.
平均值=中位数=模式是什么意思?
当所有三个尺度均等时,分布是完全对称的和单模的 - - 经典的钟曲线 (正常分布).这意味着没有异常值扭曲数据,所有三个尺度均是中心的同样有效描述.在实践中,现实数据很少达到完美的对称性,但平均值和中位数的紧密对齐表明近似对称性.
平均值,中位数和偏差之间的关系是什么?
在右倾 (正倾) 分布中:平均值 > 中位数 > 模式. 在左倾 (负倾) 分布中:平均值 < 中位数 < 模式. 在对称分布中:平均值 = 中位数 ~ 模式. 这种关系提供了一个快速的视觉检查:比较平均值和中位数以确定倾斜的方向而不用看图表.
如何计算分组数据的平均值?
对于分组的频率数据,使用每个课程间隔的中点:平均值 = Σ ((中点 x 频率) / n. 例:如果10名学生得分为50 - 60 (中点55),15名得分为60 - 70 (中点65),和5名得分为70 - 80 (中点75),则平均值= (10x55 + 15x65 + 5x75) / 30 = (550+975+375) / 30 = 1900/30 ~ 63.3.
群体平均值和样本平均值的区别是什么?
种群平均值 (μ, "mu") 是从整个种群的每个成员计算的. 样本平均值 (x̄, "x-bar") 是从从该种群中提取的子集 (样本) 计算的. 公式是相同的,但符号不同. 在实践中,我们几乎总是使用样本平均值并使用它们来估计种群平均值 - 这引入了采样错误并需要统计推理技术.
一个异常值如何影响平均值与中位数?
异常值对平均值有很大的影响,但对中位数的影响很小. 例如:数据{1, 2, 3, 4, 5}的平均值=3和中位数=3. 添加异常值{1, 2, 3, 4, 5, 100}:平均值跳到19.2,但中位数变化只有到 (3+4)/2=3.5. 这种稳定性使得当异常值存在或被怀疑时,中位数是首选的衡量标准.
修剪的平均值是多少?
截减平均值 (或截减平均值) 在计算平均值之前删除了极端值的固定百分比.例如,10%的截减平均值在{1, 2, 3, 4, 5, 6, 7, 8, 9, 100}:删除底部和顶部10% (大约每个值为1个),留下{2, 3, 4, 5, 6, 7, 8, 9};平均值=5.5.截减平均值用于评分系统 (奥运会评判,花样滑冰) 和经济统计,以减少异常影响,同时保留比中位数更多的数据.
如何计算加权平均值?
权衡平均值 = Σ ((weight x value) / Σ ((weight). 举例 - - GPA计算:A级 (4.0) 在3学分课程中,B级 (3.0) 在4学分课程中,C级 (2.0) 在2学分课程中:权衡平均值 = (4.0x3 + 3.0x4 + 2.0x2) / (3+4+2) = (12+12+4)/9 = 28/9 ~ 3.11. 如果没有加权,简单平均值将是 (4+3+2)/3 = 3.0 - - 缺少4学分课程的较重影响.
描述性统计总结:你总是需要什么
任何数据集的完整描述性统计总结应包括以下所有内容. 这就是你在科学论文,业务分析或学术任务中报告的内容:
| 统计 | 标志 | 例如 ({2,4,4,6,8,10}) | 解释 |
|---|---|---|---|
| 计数 | n | 6 | 有多少观察 |
| 意思是 | x̄ | 5.67 年 | 平均值 |
| 中位数 | M | 5.0 年 | 中值 (第50百分位) |
| 模式 | Mo | 4 | 最常见的值 |
| 范围 | R | 8 | 从最小到最大的分布 |
| 标准偏差 | 一个 | 2.58 年 | 与平均值的典型偏差 |
| 差异性 | σ² | 6.67 年 | SD 的平方 |
| 最少/最大 | — | 一分之二 | 极端值 |
在学术和科学工作中,总是报告中心的测量和扩散的测量.仅报告平均值 (或中位数) 没有标准偏差 (或IQR) 就会给你的数据带来不完整的图像.一个学生平均得分为75%的班级,SD=5%,与一个平均得分为75%但SD=25%的班级非常不同 - 第一个是B等级的紧密集群,第二个是从失败到近乎完美的疯狂混合群体.
百分位数,四分位数和框图
除了平均值,中位数和模式之外,一个完整的统计总结通常包括百分点分析.百分点告诉你数据的哪一部分低于给定的值 - - 对于理解相对地位,识别异常值,以及对人口进行比较至关重要.
- 中位数=第50百分位数:一半的数据低于这个值
- Q1 (第一个四分位数) =第25个百分位数:25%的数据低于Q1
- Q3 (第三个四分位数) =第75个百分位数:75%的数据低于第三季度
- IQR (四分位数间范围) = Q3 - Q1:包含中间50%的数据
- 异常规则:低于Q1 - 1.5xIQR或高于Q3 + 1.5xIQR的点被认为是异常值
| 百分比 | 意思 | 例 (考试成绩,n=100) |
|---|---|---|
| 第十个 | 10% 的得分低于 | 评分为52 -> 评分优于班级的10% |
| 第二十五 (Q1) | 25%的人得分低于 | 64分 -> 下四分位数边界 |
| 第50个 (中位数) | 50%的得分低于 | 75分 -> 分布的中间 |
| 第75名 (Q3) | 75%的得分低于 | 分数为87 -> 上四分位数边界 |
| 第九十个 | 90%以下的得分 | 评分为93 -> 排名前10%的学生 |
| 第九十九 | 99%分数以下 | 99分 -> 排名前1%的人 |
一个盒子图 (盒子和胡子图) 可视化了这些信息:盒子跨越Q1到Q3 (IQR),一条线标志着中位数",胡子"延伸到最小/最大的非异常值.个别异常点被绘制为点.盒子图非常适合对多个组的分布进行并排比较,揭示中心,扩散和倾斜度的差异,而简单的平均比较将错过. 例如,使用三个并排的框图对比三个学校的测试成绩,可以立即显示哪个学校的中位数表现更高,哪个学校的分布更大 (表明教学不一致),以及任何学校是否有需要支持的异常学生群.在紧 的显示屏上,这种统计信息的视觉密度使得框图成为数据通信中最强大和最不充分使用的工具之一.
一步一步:用手计算平均值,中位数和模式
让我们用一个现实的数据集来完成一个完整的例子:一个小企业在12个月内月销量 (以千元): {42, 38, 55, 61, 48, 52, 75, 48, 63, 44, 38, 57}.
第一步:对数据进行排序
按上升顺序进行排序:
第二步:计算平均值
总和 = 38+38+42+44+48+48+52+55+57+61+63+75 = 621
n = 12, 平均值 = 621 / 12 =五百七十五 (千)
第3步:找到中位数
n = 12 (偶数):第六和第七值的平均值 = (48 + 52) / 2 =50
第4步:确定模式
38和48都出现两次. 模式 ={38,48} 没有.(两种方式)
第五步:计算范围和标准偏差
范围 = 75 - 38 =37
从平均值 (51.75) 偏离: (38-51.75) 2 = 189.06; (38-51.75) 2 = 189.06; (42-51.75) 2 = 95.06; (44-51.75) 2 = 60.06; (48-51.75) 2 = 14.06; (52-51.75) 2 = 0.06; (55-51.75) 2 = 10.56; (57-51.75) 2 = 27.56; (61-51.75) 2 = 85.56; (63-51.75) 2 = 126.56; (75-51.75) 2 = 540.56
偏差的平方和 = 1,352.25; 差异 = 1,352.25/12 = 112.69; SD = √112.69 ~10.62 年
解释
该业务的平均月销售额为51,750美元,中位数为50,000美元.标准偏差为~10,620美元,这意味着大多数月份均值在+/-$10,620之间.双模分布 (两种模式) 可能表明季节性模式 - - 检查两个38和两个48在特定月份是否聚集.顶部异常值 (一个月75,000美元) 将平均值略高于中位数,表明轻微的正倾斜 - - 可能是一个特殊的销售月 (假日季节,大型合同等).