标准偏差计算器
计算任何数据集的标准偏差,方差,平均值等. 支持人口和样本计算. 免费的逐步解决方案.
标准偏差是什么?为什么它很重要?
标准偏差措施您的数据是如何分布在平均值 (平均值) 周围较小的标准偏差意味着值在平均值周围紧密聚集;较大的标准偏差意味着值在很大程度上分散.
两个数据集可以有相同的平均值但完全不同的分布 -- 标准偏差可以捕捉到这种差异:
- 数据集 A: {9, 10, 10, 11, 10} -- 平均值 = 10, SD ~ 0.63 (紧密集群)
- 数据集 B: {2, 5, 10, 15, 18} -- 平均值 = 10, SD ~ 5.83 (广泛分布)
两者均为10的平均值,但数据集B的变量几乎是10倍.标准偏差使得这一点变得明显.
标准偏差表示为σ (西格玛)对于一个人口和s它是方程的平方根, 用与原始数据相同的单位表示--使其比单独的方程更易于解释.
应用范围几乎遍及各个领域:质量控制 (制造部件是否始终保持在容纳范围之内?),金融 (投资风险=回报波动),医学 (患者的读数是否在正常的 2 SD 之内?),教育 (测试成绩如何分配?),以及体育分析 (运动员的表现有多稳定?).
人口与样本标准偏差
在计算标准偏差时最重要的选择是你是否使用人口(所有可能的数据点) 或样品这决定了要使用哪个公式,并影响了结果.
总体标准偏差 (σ):当你有研究整个群体的数据时使用.公式: σ = √[Σ(xi - μ) 2 / N]
其中:μ = 种群平均值,N = 值数, Σ = 所有值的总和.
样本的标准偏差:当你的数据是从更大的群体中抽取的样本时使用.公式:s = √[Σ(xi - x̄) 2 / (n-1) ]
其中:x̄ = 样本平均值,n = 样本中的值数, (n-1) =贝塞尔的纠正.
贝塞尔校正除以 (n-1) 而不是 n,因为样本倾向于低估真实的人口变异 - 特别是对于小样本. 使用 (n-1) 提供了一个没有偏见的估计者这样一来,
用哪一个?
- 人口 SD:一个特定考试的所有考试成绩, 一个特定公司的所有员工.
- 样本SD:调查了500名美国人的收入 (指所有美国人); 测量了30件产品 (指所有产品);
一步一步的标准偏差计算
让我们来看一个实数的完整例子:
数据集:6名学生的考试成绩:
步骤1 -- 找出平均值:(72 + 85 + 91 + 68 + 79 + 88) / 6 = 483 / 6 =美国
步骤2 -- 找出每一个从平均值的偏差,并将其平方:
| 分数 (xi) | 偏差 (xi - x̄) | 平方 (xi - x̄) 2 |
|---|---|---|
| 72 | 72 - 80.5 = -8.5 这样 | 72.25 年 |
| 85 | 85 - 80.5 = +4.5 这样 | 20.25 年 |
| 91 | 91 - 80.5 = +10.5 这样 | 110.25 年 |
| 68 | 68 - 80.5 = -12.5 这样 | 156.25 年 |
| 79 | 79 - 80.5 = -1.5 这样 | 2.25 年 |
| 88 | 88 - 80.5 = +7.5 这样 | 56.25 年 |
| 总和 | 0 (总是) | 417.50 年 |
步骤3 -- 计算差异:样本偏差 (n-1) = 417.50 / 5 = 83.50
步骤4 -- 取标准偏差的平方根:s = √83.50 ~9.14 其他
解释:大多数得分都在80.5平均值的9.14点之内.如果这是一个正常分布的群体,大约68%的得分预计在71.4和89.6之间 (平均值+/- 1 SD).
经验规则和正常分布
对于接下来的数据正常分布 (钟曲线)经验规则 (68-95-99.7) 准确地告诉你每个标准偏差范围内的值有多少:
| 范围 | 数据的百分比 | 例如 (平均值=100,SD=15) |
|---|---|---|
| 平均值 +/- 1 SD | ~68.27% 其他 | 85 至 115 |
| 平均值 +/- 2 SD | ~95.45% 其他 | 70 至 130 |
| 平均值+/- 3 SD | ~99.73% 其他 | 55至145 年 |
| 超过 +/- 3 SD | ~0.27% 其他 | 55岁以下或145岁以上 |
典型的应用是智商分数:平均值=100,SD=15. 130的智商是平均值以上2个SD,只有大约2.3%的人得分高.145的智商是平均值以上3个SD,大约0.13%的人 (大约750分之一).
在质量控制方面,六西格玛标准要求流程每百万个机会中缺陷数量少于3.4个,相当于与目标保持在+/-6个标准偏差范围内,缺陷率仅为0.00034%.这是六西格玛制造质量计划的统计基础.
并非所有数据均有正常分布.收入分布是右倾的 (一些非常高收入的人伸出右尾).在这种情况下,中位数和四分位数范围可能比平均值和标准偏差更有信息.
其他统计指标:平均值,中位数,差异等
标准偏差与其他描述性统计数据一起最有意义. 以下是它们一起工作的方式:
- 平均值 (算术平均值):所有值的总和 ÷ 数量. 对异常值敏感 - - 一个极端值可以显著改变平均值.
- 中位数:数据被排序时的中间值.对异常值比平均值更稳定.对于{1, 2, 3, 4, 100}:平均值=22,中位数=3.
- 模式:最常见的值.对于分类数据有用;数据集可以具有多个模式或没有模式.
- 范围:最大-最小. 简单但对异常值敏感; 不描述分布形状.
- 偏差 (σ2或s2):标准偏差的平方. 数学上很有用,但很难解释,因为它是平方单位. 例如:如果高度是厘米,差异是cm2 - 没有物理意义.
- 变化系数 (CV):(标准偏差/平均值) x 100%. 允许比较数据集与不同平均值的变化. 10%的CV意味着SD是平均值的10%,在金融和生物学中很有用.
- 平均值的标准误差 (SEM):SD ÷ √n. 测量样本平均值的精度作为人口平均值的估计.随着样本大小的增长,SEM缩小 - 更大的样本可以提供更精确的估计.
在金融,科学和体育领域的标准偏差
标准偏差在不同领域有具体的实际解释:
金融 -- 衡量投资风险:在金融中,收益率的标准偏差=波动=风险.每年收益率为10%的股票,每年收益率为15%的股票,每年收益率为-68%的概率在-5%至+25%之间.标准普尔500指数历来每年收益率约为15-20%.债券投资组合通常具有3-7%的收益率.风险调整绩效 (夏普比率) = (收益率 - 无风险率) / SD - 越高,越好.
科学 -- 质量控制和测量:实验室仪器报告测量值为平均+/- SD.温度计读数为37.2+/- 0.3°C意味着测量值在0.3°C的真实值内,保证度为68%.在临床试验中,统计学意义通常被定义为治疗效应比对照组平均值大于2 SD (p < 0.05).
运动分析:球员的一致性用SD量化.一个平均每场比赛25分的篮球运动员,SD为3,比平均25分的球员,SD为10更可靠.天气预报使用组合模型,其中温度预测的SD表明信心 - - 狭窄的SD意味着预报者同意;宽的SD意味着高度不确定性.
教育:Z-score表示学生的得分与班级平均值有多少标准偏差:Z = (得分 - 平均值) / SD.Z-score为+2意味着得分2 SDs高于平均值 - 比大约97.7%的学生好.像SAT这样的标准化测试是这样设计的,得分遵循大致正常分布,使得这些百分比比较.
人们常问的问题
标准偏差和偏差的区别是什么?
偏差是从平均值的平方偏差的平均值. 标准偏差是偏差的平方根. 两种测量分布,但标准偏差是与数据相同的单位 (更容易解释),而偏差是平方单位. 高度数据集在cm有偏差在cm2 - 不具有意义. cm中的SD与原始测量直接可比.
我应该在什么时候使用人口与样本标准偏差?
使用人口SD (σ,除以N) 当你有描述整个人口的数据时 -- 一个特定班级的所有学生,一家公司的所有员工. 使用样本SD (s,除以n-1) 当你的数据是较大人口的子集并且你正在估计人口的可变性时 -- 调查样本,临床试验参与者,生产运行的质量控制样本.
高或低标准偏差意味着什么?
低标准偏差意味着数据点围绕平均值密切聚合 - - 一致性,低可变性.高标准偏差意味着数据分布广泛 - - 高可变性.这两者都不是本质上更好;这取决于上下文.在制造业中,低标准偏差是理想的 (一致性).在投资回报中,一些投资者接受更高的标准偏差以获得更高的潜在回报.
什么是Z分数,它与标准偏差有什么关系?
一个Z-score测量一个数据点与平均值有多少标准偏差:Z = (值 - 平均值) / SD.一个Z-score的0 =完全平均值.Z = +1 =平均值以上1 SD (84百分位数).Z = -2 =平均值以下2 SD (2.3百分位数).Z-score允许比较不同数据集的值.
什么是标准误差,它与标准偏差有什么不同?
标准偏差描述了个别数据点的分布.平均值的标准误差 (SEM = SD/√n) 描述了样本平均值的精度作为真实人口平均值的估计.随着样本大小的增加,SEM会减少 (更多的数据=更精确的估计),但SD不一定会改变.SEM用于置信区间;SD描述了数据本身的分布.
标准偏差可以是负值吗?
不.标准偏差总是零或正值.只有当所有数据值都相同时才等于零 (完全没有变化).由于它被计算为平方和的平方根,因此它不能是负值.负差或标准偏差将表明计算错误.
异常值如何影响标准偏差?
异常值可以显著膨胀标准偏差,因为偏差是平方的 - - 远离平均值的大偏差有不成比例的贡献.例如,在{10,11,10,12,100}:删除异常值 (100) 将SD从~38降至~0.9.当异常值存在时,中位数和四分之一区间 (IQR) 是中心趋势和扩散的更强大的衡量标准.
如果标准偏差等于零, 那意味着什么?
一个标准偏差为零意味着数据集中的所有值都是相同的 - 没有任何可变性.例如,{5,5,5,5,5}的平均值=5和SD=0.这发生在人工或高度受约束的数据集中.在实际数据集中,SD=0通常表示数据收集错误或相同的测量.