标准偏差与标准误差:有什么区别?

来自不同宇宙的双胞胎

照片由 马丁桑切斯 on Unsplash

S标准偏差和标准误差是两个经常引起混淆的统计概念。它们具有相同的解释还是意味着代表完全不同的东西?我们将在这篇文章中讨论更多内容。

什么是标准差 (SD)?

标准偏差 测量 变化性 (又名, 传播)周围的数据点 意味着 在给定的数据集中。换句话说,它告诉我们平均每个数据点与平均值的距离有多远。

人口标准差

在现实世界中,我们有兴趣估计某个特征 人口。标准差是 这些特征的示例。

当你有 全部产品 来自总体的数据点,您可以计算 TRUE 使用以下公式计算总体标准差的值。

图片作者

样本标准差

通常,由于时间、财务或技术的限制,很难从人群中收集所有数据点。例如,如果我们想计算 TRUE 如果我们以洛杉矶家庭收入的标准差来计算,我们就需要得到洛杉矶所有家庭的收入,这几乎是不可能的。

相反,我们可以从总体中收集随机样本,并使用以下方法推断总体标准差 样本标准偏差。 样本标准差的公式为

图片作者

为什么使用 N-1 表示样本标准差?

您会注意到,我们使用样本均值 (x̄) 而不是总体均值 (μ) 作为样本标准差,因为我们对总体均值一无所知。 x̄ 是 μ 的合理估计。

因此,样本数据集中的任何值 X 都更接近 x̄,而不是 μ。样本标准差中的分子会人为地变得比预期的小。因此,样本标准差将为 低估.

为了纠正这个问题 偏见 在样本标准差中,我们将使用 “N-1”而不是“N”(又名 贝塞尔的更正) 为样本标准差.

使用 N-1 会使样本标准差比使用 N 时更大。因此,我们对总体标准差的估计偏差较小,从而对变异性进行保守估计。

什么是标准误 (SE)?

在讨论标准误差之前,我们先来熟悉一下以下概念: 样本分布抽样分布.

样本分布与抽样分布

样本分布 简直就是 数据分布 从总体中随机抽取的样本。

例如,我们随机询问 100 名洛杉矶人,他们的收入是多少。样本分布描述了 实际 这100人的收入分配。

但什么是抽样分布呢?

抽样分布样本统计量的分布 (例如,样本均值、样本方差、样本标准差和样本比例)从同一总体中抽取的许多样本(即, 重复抽样).

例如,我们随机询问 100 名洛杉矶人,他们的收入是多少。然后计算平均收入。我们重复这个1000次,然后我们就有1000种不同的平均收入。这 1000 个平均收入的分布称为抽样分布。

因此, 样本分布 是分布 样本数据抽样分布 是分布 样本统计量。

这个概念是 标准误差 与抽样分布相关,而不是样本分布。

标准错误 是一个描述 统计数据的可变性 ,在 抽样分布。

如何解释标准误(SE)?

标准误差衡量的是 样本统计 (例如,样本平均值)可能来自 真实人口统计 (例如,总体平均值)。

为什么我们需要标准误差(SE)?

通常你可能想要构建 置信区间 当我们尝试进行统计推断时,分配一个概率来构建包含平均值的置信区间会提供更多信息。

  • 如果基础数据服从正态分布,那么抽样分布也服从正态分布。那么我们可以说,我们有 68% 的信心认为总体平均值在 1 个标准误差之内,或者 95% 的信心在 2 个标准误差之内,等等。
  • 如果基础数据不是正态分布,但样本量足够大,我们可以依赖 中心极限定理 (CLT) 如果说抽样分布近似正态分布,那么我们可以对置信区间做出类似的陈述。

如何计算标准误差(SE)?

我们通常使用以下公式来计算标准误差。我将在接下来的部分中讨论如何推导这个公式。

图片作者

标准误差的例子有哪些?

标准误差可以应用于各种类型 统计数字。 一些流行的例子是

  • 样本平均值的标准误差(又名平均值的标准误差,SEM)
  • 样本比例的标准误差(又名比例标准误差,SEP)

什么是平均值标准误 (SEM)?

平均值的标准误差(或简称标准误差)表明了 样本平均值 很可能来自 人口均值.

从技术上讲,平均值的标准误差计算为样本平均值的标准差。

图片作者

假设,我们可以使用以下步骤计算重复样本下的标准误差:

  1. 从总体中抽取新样本。
  2. 计算步骤 1 中抽取样本的样本均值
  3. 重复步骤 1 和 2 多次。
  4. 标准误差是通过计算前面步骤的样本均值的标准差来获得的。

由于 中心极限定理 (CLT),我们不需要考虑重复样本下的采样分布。相反,样本均值的抽样分布可以仅根据一个随机样本进行估计。

中心极限定理指出样本均值近似服从正态分布 μ 的平均值 的网络 σ/√n 的标准差(或标准误差).

SEM的公式如何推导?

图片作者

因此,

图片作者

在大多数情况下,总体数据的标准差是未知的。我们将使用样本数据的标准差(样本标准差)来估计它。

因此,

图片作者

什么是比例标准误 (SEP)?

比例的标准误差表明了差异有多大 样本比例 很可能来自 人口比例.

比例的标准误差计算为样本比例的标准偏差。

图片作者

您会注意到,在每个样本数据中,我们只有数据 1 或 0。每个值都遵循一个 伯努利分布。计算出的样本比例不再是二进制值。相反,它们可以是 0 到 1 之间的任何值。

中心极限定理指出样本比例近似服从正态分布 p 的平均值 的网络 √P(1-P)/√n 的标准偏差(或标准误差),其中 P 是人口比例。

SEP的公式如何推导?

图片作者

与扫描电镜类似,

图片作者
图片作者

我们可以估计 σ 使用样本标准差 √p(1-p) (即伯努利分布的标准差)

图片作者

总结

标准差和标准误差是相似的概念,都用于测量 变化性。

标准偏差 表明如何 样本数据值 与平均值不同 样本分布.

标准错误 表明如何 样本数据统计 与人口统计数据不同 抽样分布.

感谢您的阅读!

如果您喜欢这篇文章并且愿意 给我买杯咖啡, 点击此处.

您可以注册一个 解锁对我的文章的完全访问权限,并无限制地访问 Medium 上的所有内容。请 订阅 如果您想在我发布新文章时收到电子邮件通知。

标准差与标准误差:有什么区别?从来源重新发布 https://towardsdatascience.com/standard-deviation-vs-standard-error-whats-the-difference-ae969f48adef?source=rss—-7f60cf5620c9—4 通过 https://towardsdatascience.com/feed

–>

时间戳记:

更多来自 区块链顾问