🔬 Advanced 🔥 Popular

标准偏差计算器

计算任何数据集的标准偏差,方差,平均值等. 支持人口和样本计算. 免费的逐步解决方案.

标准偏差是什么?为什么它很重要?

标准偏差措施您的数据是如何分布在平均值 (平均值) 周围较小的标准偏差意味着值在平均值周围紧密聚集;较大的标准偏差意味着值在很大程度上分散.

两个数据集可以有相同的平均值但完全不同的分布 -- 标准偏差可以捕捉到这种差异:

数据集 A: {9, 10, 10, 11, 10} -- 平均值 = 10, SD ~ 0.63 (紧密集群)
数据集 B: {2, 5, 10, 15, 18} -- 平均值 = 10, SD ~ 5.83 (广泛分布)

两者均为10的平均值,但数据集B的变量几乎是10倍.标准偏差使得这一点变得明显.

标准偏差表示为σ (西格玛)对于一个人口和s它是方程的平方根, 用与原始数据相同的单位表示--使其比单独的方程更易于解释.

应用范围几乎遍及各个领域:质量控制 (制造部件是否始终保持在容纳范围之内?),金融 (投资风险=回报波动),医学 (患者的读数是否在正常的 2 SD 之内?),教育 (测试成绩如何分配?),以及体育分析 (运动员的表现有多稳定?).

人口与样本标准偏差

在计算标准偏差时最重要的选择是你是否使用人口(所有可能的数据点) 或样品这决定了要使用哪个公式,并影响了结果.

总体标准偏差 (σ):当你有研究整个群体的数据时使用.公式: σ = √[Σ(xi - μ) 2 / N]

其中:μ = 种群平均值,N = 值数, Σ = 所有值的总和.

样本的标准偏差:当你的数据是从更大的群体中抽取的样本时使用.公式:s = √[Σ(xi - x̄) 2 / (n-1) ]

其中:x̄ = 样本平均值,n = 样本中的值数, (n-1) =贝塞尔的纠正.

贝塞尔校正除以 (n-1) 而不是 n,因为样本倾向于低估真实的人口变异 - 特别是对于小样本. 使用 (n-1) 提供了一个没有偏见的估计者这样一来,

用哪一个?

人口 SD:一个特定考试的所有考试成绩, 一个特定公司的所有员工.
样本SD:调查了500名美国人的收入 (指所有美国人); 测量了30件产品 (指所有产品);

一步一步的标准偏差计算

让我们来看一个实数的完整例子:

数据集:6名学生的考试成绩:

步骤1 -- 找出平均值:(72 + 85 + 91 + 68 + 79 + 88) / 6 = 483 / 6 =美国

步骤2 -- 找出每一个从平均值的偏差,并将其平方:

分数 (xi)	偏差 (xi - x̄)	平方 (xi - x̄) 2
72	72 - 80.5 = -8.5 这样	72.25 年
85	85 - 80.5 = +4.5 这样	20.25 年
91	91 - 80.5 = +10.5 这样	110.25 年
68	68 - 80.5 = -12.5 这样	156.25 年
79	79 - 80.5 = -1.5 这样	2.25 年
88	88 - 80.5 = +7.5 这样	56.25 年
总和	0 (总是)	417.50 年

步骤3 -- 计算差异:样本偏差 (n-1) = 417.50 / 5 = 83.50

步骤4 -- 取标准偏差的平方根:s = √83.50 ~9.14 其他

解释:大多数得分都在80.5平均值的9.14点之内.如果这是一个正常分布的群体,大约68%的得分预计在71.4和89.6之间 (平均值+/- 1 SD).

经验规则和正常分布

对于接下来的数据正常分布 (钟曲线)经验规则 (68-95-99.7) 准确地告诉你每个标准偏差范围内的值有多少:

范围	数据的百分比	例如 (平均值=100,SD=15)
平均值 +/- 1 SD	~68.27% 其他	85 至 115
平均值 +/- 2 SD	~95.45% 其他	70 至 130
平均值+/- 3 SD	~99.73% 其他	55至145 年
超过 +/- 3 SD	~0.27% 其他	55岁以下或145岁以上

典型的应用是智商分数:平均值=100,SD=15. 130的智商是平均值以上2个SD,只有大约2.3%的人得分高.145的智商是平均值以上3个SD,大约0.13%的人 (大约750分之一).

在质量控制方面,六西格玛标准要求流程每百万个机会中缺陷数量少于3.4个,相当于与目标保持在+/-6个标准偏差范围内,缺陷率仅为0.00034%.这是六西格玛制造质量计划的统计基础.

并非所有数据均有正常分布.收入分布是右倾的 (一些非常高收入的人伸出右尾).在这种情况下,中位数和四分位数范围可能比平均值和标准偏差更有信息.

其他统计指标:平均值,中位数,差异等

标准偏差与其他描述性统计数据一起最有意义. 以下是它们一起工作的方式:

平均值 (算术平均值):所有值的总和 ÷ 数量. 对异常值敏感 - - 一个极端值可以显著改变平均值.
中位数:数据被排序时的中间值.对异常值比平均值更稳定.对于{1, 2, 3, 4, 100}:平均值=22,中位数=3.
模式:最常见的值.对于分类数据有用;数据集可以具有多个模式或没有模式.
范围:最大-最小. 简单但对异常值敏感; 不描述分布形状.
偏差 (σ2或s2):标准偏差的平方. 数学上很有用,但很难解释,因为它是平方单位. 例如:如果高度是厘米,差异是cm2 - 没有物理意义.
变化系数 (CV):(标准偏差/平均值) x 100%. 允许比较数据集与不同平均值的变化. 10%的CV意味着SD是平均值的10%,在金融和生物学中很有用.
平均值的标准误差 (SEM):SD ÷ √n. 测量样本平均值的精度作为人口平均值的估计.随着样本大小的增长,SEM缩小 - 更大的样本可以提供更精确的估计.

在金融,科学和体育领域的标准偏差

标准偏差在不同领域有具体的实际解释:

金融 -- 衡量投资风险:在金融中,收益率的标准偏差=波动=风险.每年收益率为10%的股票,每年收益率为15%的股票,每年收益率为-68%的概率在-5%至+25%之间.标准普尔500指数历来每年收益率约为15-20%.债券投资组合通常具有3-7%的收益率.风险调整绩效 (夏普比率) = (收益率 - 无风险率) / SD - 越高,越好.

科学 -- 质量控制和测量:实验室仪器报告测量值为平均+/- SD.温度计读数为37.2+/- 0.3°C意味着测量值在0.3°C的真实值内,保证度为68%.在临床试验中,统计学意义通常被定义为治疗效应比对照组平均值大于2 SD (p < 0.05).

运动分析:球员的一致性用SD量化.一个平均每场比赛25分的篮球运动员,SD为3,比平均25分的球员,SD为10更可靠.天气预报使用组合模型,其中温度预测的SD表明信心 - - 狭窄的SD意味着预报者同意;宽的SD意味着高度不确定性.

教育:Z-score表示学生的得分与班级平均值有多少标准偏差:Z = (得分 - 平均值) / SD.Z-score为+2意味着得分2 SDs高于平均值 - 比大约97.7%的学生好.像SAT这样的标准化测试是这样设计的,得分遵循大致正常分布,使得这些百分比比较.

人们常问的问题

标准偏差和偏差的区别是什么?

偏差是从平均值的平方偏差的平均值. 标准偏差是偏差的平方根. 两种测量分布,但标准偏差是与数据相同的单位 (更容易解释),而偏差是平方单位. 高度数据集在cm有偏差在cm2 - 不具有意义. cm中的SD与原始测量直接可比.

我应该在什么时候使用人口与样本标准偏差?

使用人口SD (σ,除以N) 当你有描述整个人口的数据时 -- 一个特定班级的所有学生,一家公司的所有员工. 使用样本SD (s,除以n-1) 当你的数据是较大人口的子集并且你正在估计人口的可变性时 -- 调查样本,临床试验参与者,生产运行的质量控制样本.

高或低标准偏差意味着什么?

低标准偏差意味着数据点围绕平均值密切聚合 - - 一致性,低可变性.高标准偏差意味着数据分布广泛 - - 高可变性.这两者都不是本质上更好;这取决于上下文.在制造业中,低标准偏差是理想的 (一致性).在投资回报中,一些投资者接受更高的标准偏差以获得更高的潜在回报.

什么是Z分数,它与标准偏差有什么关系?

一个Z-score测量一个数据点与平均值有多少标准偏差:Z = (值 - 平均值) / SD.一个Z-score的0 =完全平均值.Z = +1 =平均值以上1 SD (84百分位数).Z = -2 =平均值以下2 SD (2.3百分位数).Z-score允许比较不同数据集的值.

什么是标准误差,它与标准偏差有什么不同?

标准偏差描述了个别数据点的分布.平均值的标准误差 (SEM = SD/√n) 描述了样本平均值的精度作为真实人口平均值的估计.随着样本大小的增加,SEM会减少 (更多的数据=更精确的估计),但SD不一定会改变.SEM用于置信区间;SD描述了数据本身的分布.

标准偏差可以是负值吗?

不.标准偏差总是零或正值.只有当所有数据值都相同时才等于零 (完全没有变化).由于它被计算为平方和的平方根,因此它不能是负值.负差或标准偏差将表明计算错误.

异常值如何影响标准偏差?

异常值可以显著膨胀标准偏差,因为偏差是平方的 - - 远离平均值的大偏差有不成比例的贡献.例如,在{10,11,10,12,100}:删除异常值 (100) 将SD从~38降至~0.9.当异常值存在时,中位数和四分之一区间 (IQR) 是中心趋势和扩散的更强大的衡量标准.

如果标准偏差等于零, 那意味着什么?

一个标准偏差为零意味着数据集中的所有值都是相同的 - 没有任何可变性.例如,{5,5,5,5,5}的平均值=5和SD=0.这发生在人工或高度受约束的数据集中.在实际数据集中,SD=0通常表示数据收集错误或相同的测量.