标准差与标准误差：有什么区别？

由柏拉图重新发布

关注： 0

来自不同宇宙的双胞胎

S标准偏差和标准误差是两个经常引起混淆的统计概念。它们具有相同的解释还是意味着代表完全不同的东西？我们将在这篇文章中讨论更多内容。

什么是标准差 (SD)？

标准偏差 测量 变化性 （又名，传播）周围的数据点 意味着 在给定的数据集中。换句话说，它告诉我们平均每个数据点与平均值的距离有多远。

人口标准差

在现实世界中，我们有兴趣估计某个特征人口。标准差是这些特征的示例。

当你有 全部产品 来自总体的数据点，您可以计算 TRUE 使用以下公式计算总体标准差的值。

样本标准差

通常，由于时间、财务或技术的限制，很难从人群中收集所有数据点。例如，如果我们想计算 TRUE 如果我们以洛杉矶家庭收入的标准差来计算，我们就需要得到洛杉矶所有家庭的收入，这几乎是不可能的。

相反，我们可以从总体中收集随机样本，并使用以下方法推断总体标准差 样本标准偏差。 样本标准差的公式为

为什么使用 N-1 表示样本标准差？

您会注意到，我们使用样本均值 (x̄) 而不是总体均值 (μ) 作为样本标准差，因为我们对总体均值一无所知。 x̄ 是 μ 的合理估计。

因此，样本数据集中的任何值 X 都更接近 x̄，而不是 μ。样本标准差中的分子会人为地变得比预期的小。因此，样本标准差将为低估.

为了纠正这个问题偏见在样本标准差中，我们将使用 “N-1”而不是“N”（又名 贝塞尔的更正) 为样本标准差.

使用 N-1 会使样本标准差比使用 N 时更大。因此，我们对总体标准差的估计偏差较小，从而对变异性进行保守估计。

什么是标准误 (SE)？

在讨论标准误差之前，我们先来熟悉一下以下概念： 样本分布 和 抽样分布.

样本分布与抽样分布

样本分布 简直就是 数据分布 从总体中随机抽取的样本。

例如，我们随机询问 100 名洛杉矶人，他们的收入是多少。样本分布描述了实际这100人的收入分配。

但什么是抽样分布呢？

抽样分布 是 样本统计量的分布 （例如，样本均值、样本方差、样本标准差和样本比例）从同一总体中抽取的许多样本（即， 重复抽样).

例如，我们随机询问 100 名洛杉矶人，他们的收入是多少。然后计算平均收入。我们重复这个1000次，然后我们就有1000种不同的平均收入。这 1000 个平均收入的分布称为抽样分布。

因此， 样本分布 是分布 样本数据 而 抽样分布 是分布 样本统计量。

这个概念是 标准误差 与抽样分布相关，而不是样本分布。

标准错误 是一个描述 统计数据的可变性 ，在 抽样分布。

如何解释标准误（SE）？

标准误差衡量的是 样本统计 （例如，样本平均值）可能来自 真实人口统计 （例如，总体平均值）。

为什么我们需要标准误差（SE）？

通常你可能想要构建 置信区间 当我们尝试进行统计推断时，分配一个概率来构建包含平均值的置信区间会提供更多信息。

如果基础数据服从正态分布，那么抽样分布也服从正态分布。那么我们可以说，我们有 68% 的信心认为总体平均值在 1 个标准误差之内，或者 95% 的信心在 2 个标准误差之内，等等。
如果基础数据不是正态分布，但样本量足够大，我们可以依赖 中心极限定理 (CLT) 如果说抽样分布近似正态分布，那么我们可以对置信区间做出类似的陈述。

如何计算标准误差（SE）？

我们通常使用以下公式来计算标准误差。我将在接下来的部分中讨论如何推导这个公式。

标准误差的例子有哪些？

标准误差可以应用于各种类型 统计数字。 一些流行的例子是

样本平均值的标准误差（又名平均值的标准误差，SEM）
样本比例的标准误差（又名比例标准误差，SEP）

什么是平均值标准误 (SEM)？

平均值的标准误差（或简称标准误差）表明了 样本平均值 很可能来自 人口均值.

从技术上讲，平均值的标准误差计算为样本平均值的标准差。

假设，我们可以使用以下步骤计算重复样本下的标准误差：

从总体中抽取新样本。
计算步骤 1 中抽取样本的样本均值
重复步骤 1 和 2 多次。
标准误差是通过计算前面步骤的样本均值的标准差来获得的。

由于 中心极限定理 (CLT)，我们不需要考虑重复样本下的采样分布。相反，样本均值的抽样分布可以仅根据一个随机样本进行估计。

中心极限定理指出样本均值近似服从正态分布 μ 的平均值 的网络 σ/√n 的标准差（或标准误差）.

SEM的公式如何推导？

因此，

图片作者

在大多数情况下，总体数据的标准差是未知的。我们将使用样本数据的标准差（样本标准差）来估计它。

因此，

什么是比例标准误 (SEP)？

比例的标准误差表明了差异有多大 样本比例 很可能来自 人口比例.

比例的标准误差计算为样本比例的标准偏差。

您会注意到，在每个样本数据中，我们只有数据 1 或 0。每个值都遵循一个 伯努利分布。计算出的样本比例不再是二进制值。相反，它们可以是 0 到 1 之间的任何值。

中心极限定理指出样本比例近似服从正态分布 p 的平均值 的网络 √P(1-P)/√n 的标准偏差（或标准误差），其中 P 是人口比例。

SEP的公式如何推导？

与扫描电镜类似，

图片作者

我们可以估计 σ 使用样本标准差 √p(1-p) （即伯努利分布的标准差）

总结

标准差和标准误差是相似的概念，都用于测量 变化性。

标准偏差 表明如何 样本数据值 与平均值不同 样本分布.

标准错误 表明如何 样本数据统计 与人口统计数据不同 抽样分布.

感谢您的阅读！

如果您喜欢这篇文章并且愿意 给我买杯咖啡， 请点击此处.

您可以注册一个籍解锁对我的文章的完全访问权限，并无限制地访问 Medium 上的所有内容。请订阅如果您想在我发布新文章时收到电子邮件通知。

标准差与标准误差：有什么区别？从来源重新发布 https://towardsdatascience.com/standard-deviation-vs-standard-error-whats-the-difference-ae969f48adef?source=rss—-7f60cf5620c9—4 通过 https://towardsdatascience.com/feed

–>

时间戳记： 2022 年 11 月 2 日2022 年 11 月 3 日