您可能会注意到,钟形曲线随处可见,它有很多名字,比如正态分布或高斯分布,特别是如果您对统计学或数据科学有一定了解的话。它看起来像是自然界的偶然现象,但实际上并非如此:事实证明,我们测量的很多数据都是许多小因素相加的结果,暗示着存在一个潜在的加法模型。
通过将任何正态分布转换为称为标准正态分布的特殊形式,我们可以创建一种在特定情况下特别有用的分布,例如计算概率、进行统计推断和应用统计检验。在本文结束时,您将清楚了解标准正态分布是什么,为什么我们要采取额外的步骤对其进行标准化,以及所有这些与变异性、概率和假设检验的关系。最后,我希望您也能报名参加我们的R 统计学入门课程或R 统计推断技能课程,以继续巩固本文中的想法。
什么是标准正态分布?
标准正态分布是正态分布的一种特殊形式,其中平均值为零,标准差为一。 我们还应该说该分布是对称的,并且某些值的概率随着远离中心而对称地减小。
Dall-E 的“标准正态分布”图像
理解标准正态分布方程
让我们更深入地了解标准正态分布的数学方面。
标准正态分布的 PDF
如果您不熟悉概率密度函数 (PDF) 的概念,请知道它描述了概率在连续随机变量的可能值上的分布情况。每个连续概率分布,如指数分布、t 分布或柯西分布,都有自己的概率密度函数来定义曲线。标准正态分布的 PDF 定义如下:标准正态分布公式的 PDF
此函数确保曲线下面积积分为 1。如果你查看方程并代入不同的 x 值,就会得到这些点处的曲线高度。在方程中:
x 表示任意实数,是函数的输入变量。 它出现在函数的指数中,即 −x 2 /2。这控制曲线的形状。
由于 x 2始终为非负数,并且前面有一个负号,因此指数始终为负数或零。
在x=0的特定情况下,指数最大,使得f(x)达到峰值。
如果 x 以正向或负向远离 0,则 x 2会增加,从而使指数变得更负。指数越大,函数值越小,也就是说,结合我们所说的其他内容,f(x) 在 x=0 的两侧对称减小。
指数的底数是欧拉数,它确保当 x 在任一方向上远离零时,函数会快速衰减。
常数 1/ √ (2π) 确保曲线下的总面积等于 1。
标准正态分布的 CDF
与 PDF(给出不同值的相对可能性)不同,CDF 给出变 手机号码数据 量小于或等于给定值的概率。与 PDF 一样,每个连续概率分布都有自己的 CDF。
标准正态分布公式的 CDF
这个等式有点复杂,但我们可以计算一下:
积分意味着 CDF 不是给出 x 处曲线的高度,而是告诉我们从 −∞ 到 x 的总概率。
当 x→−∞ 时,CDF 趋近于 0。
当x=0 时, CDF 为 0.5 ,因为分布是对称的,并且一半的概率位于零的左侧。
当x→∞时,CDF 趋近于 1。
为什么我们关心标准正态分布
我们的高斯分布指南提供了一些关于何时需要将数据 的主要特点和优势就是能够最精准 符合正态分布的好建议。但有时,您可能希望将数据专门更改为标准正态分布。以下是一些常见原因:
标准正态分布用于假设检验
标准正态分布使我们的数据更具可比性,并且更适合某些统计方法。通过将数据转换为 Z 分数,我们可以比较不同正态分布的观测值。具体来说,它构成了 Z 检验的基础,当我们想要确定样本平均值是否与总体平均值有显著差异时,我们会使用 Z 检验。
另一方面,t 检验使用样本标准差作为总体标准差的估计值,这就是它依赖于 t 分布的原因,t 分布比标准正态分布的尾部更重。阅读我们的教程T 检验与 Z 检验:何时使用,其中讨论了诸如总体和样本方差之类的内容。
标准正态分布比较同一尺度上的数据
由于不同的数据集和变量可能具有不同的单位和尺度,因此直接比较可能很困难。但是,当您通过减去平均值并除以标准差将它们转换为 Z 分数时,您可以轻松地比较不同的分布。当应用于正态分布的数据集时,这将产生 标准正态分布。例如,将 SAT 和 GRE 分数(我预计它们都是正态分布的)转换为 Z 分数,使我们能够比较学生相对于各自测试人群的表现。
标准常态用于质量控制
众所周知,该标准标准对于监控制造业的产品质量非常重要。通过仔细查看概率,制造商可以确定质量波动是由于随机变化还是其他潜在问题造成的。这与我们之前提到的假设检验以及我们将在下面讨论的 Z 分数表有关。
标准正态性用于统计建模
标准正态分布在评估线性回归和时间序列预测等模型中的误差方面发挥着重要作用。在这些模型中,我们假设残差(即观测值与预测值之间的差异)不仅遵循正态分布,而且可以标准化以遵循标准正态分布。
在线性回归中,标准化残差是已转换为标准化值的残差,这使我们能够以标准差单位衡量误差的极端程度,从而可以更轻松地检测异常值。这很有用,因为残差中的异方差(在模型的预测因子中可能不明显)可能会扭曲残差解释。
在时间序列分析中,预测误差通常被认为在适当标准化的情况下遵循标准正态分布。这对于构建预测区间很重要。许多时间序列模型(如ARIMA )都依赖标准正态分位数来定义预测的置信区间。此外,在时间序列分解中,捕获不规则波动的余数分量通常被发现呈正态分布。如果标准化此余数分量,您可以找到时间序列中极值的概率,而您知道这些极值不是趋势周期或季节性的结果。我们的R 语言预测课程将教您这些技术。
标准正态性用于机器学习
当数据处于标准规模时,许多机器学习算法效果最佳。我想到的是逻辑回归、K 均值聚类和神经网络。
我也在考虑主成分分析,它通常用 澳大利亚电话号码 作预处理技术。在 PCA 中,我们希望输入特征具有零均值和单位方差,以帮助防止具有大值的特征占主导地位。一个常见的预处理步骤是通过减去平均值并除以标准差来标准化数据。这确保每个特征都有零均值和单位方差,但我们应该清楚,这并不强制正态性。然而,在某些情况下,如果原始分布已经接近正态,我预计转换后的数据将接近正态性。
标准正态分布用于概率计算
我们之前讨论过的标准正态分布的累积分布函数是经过精心制表的,我的意思是预先计算并组织成广泛可用的表格,这使得概率计算变得更容易,因为您只需使用表格来查找正确的值。
例如,为了计算随机选择的身高低于 6 英尺的概率,我们使用人口的正态分布对身高进行标准化,并在标准正态表中查找 Z 分数。我在本文底部放了一个标准正态表版本,以防您发现需要使用它。
使数据与标准正态分布一致的变换
转换可以帮助将数据重塑为标准正态分布。粗略地说,这将是一个由两部分组成的过程。首先,我们将重塑数据以使其变为正态,然后我们将执行 Z 分数标准化。
需要注意的是,您通常不会将 Z 分数标准化作为第一步,因为极端值可能会扭曲标准差,因为平均值和标准差对异常值很敏感。此外,某些转换需要正数据。如果首先应用 Z 分数标准化,则均值中心值可能包含负数,这可能会导致仅适用于正值的转换出现问题。我特别考虑对数。所以最好按顺序进行:步骤 1,然后步骤 2。
步骤 1:将数据转换为常态
您可以采用的一些转型想法包括:
倾斜数据的对数转换
当数据呈正偏态时,对数变换可帮助将其标准化。例如,对原始值应用对数可压缩较大的值,从而减少偏态并创建更对称的分布。
计数数据的平方根变换
对于计数数据或中度倾斜的数据集,我们可以尝试平方根变换。此方法可降低变异性,同时保持更对称的结构,使数据更接近钟形曲线形状。
Box-Cox 变换可灵活调整
Box-Cox 变换更进一步,可以根据数据定制变换。其参数 λ 决定了所应用的确切公式,使其在将数据与标准正态分布的属性对齐方面具有高度的通用性。R中的特征工程将向您展示 Box-Cox 以及许多其他重要且有用的方法。
第 2 步:执行 Z 分数标准化
一旦应用了转换,就可以将数据标准化以适应标准正态分布。这会将数据调整为平均值为零,标准差为一。Z 分数公式为:
人口 Z 分数标准化公式
其中X 是变换后的数据,μ 是平均值,σ 是标准差。
现在,如果您熟悉总体 Z 分数和样本 Z 分数之间的区别,正如我们在 R 中的统计推断中所述,您可能会将上述方程式识别为总体 Z 分数的方程式。如果您处理的是样本而不是整个总体,我们将估算平均值和标准差:
样本的 Z 分数标准化公式
这里,X-bar是样本均值,s是样本标准差。
如果您使用新的标准化数据集的平均值和标准差,结果将是相同的。但有时研究人员可能有兴趣使用某种基准平均值和标准差来比较相对于更大参考人群的数据。
想象一下,查看一个右偏的收入数据集,并进行对数变换以使其标准化。然后,再想象一下,我们想要比较相对于国家基准的收入,在这种情况下,我们将使用国家平均值和标准差而不是样本平均值和标准差来计算 Z 分数。这里的目的是允许跨数据集或研究进行有意义的比较。
因此,基本上,如果您使用样本,从技术上讲,您会得到标准化的正态近似值,而不是精确的理论标准正态分布。我认为这是一个值得澄清的区别,即使对于大型数据集来说差异很小。
标准正态分布的可视化
这是在 R 编程语言中创建理论标准正态分布的一种方法。在此代码中,我还添加了表示标准分数(又称 Z 分数)的垂直线,这是一种告诉我们,对于任何给定值,我们的值高于或低于总体平均值的标准差是多少的方法。
带 Z 分数的标准正态分布可视化
您应该知道有一些类似的分布看起来像标准正态分布但实际上不是:
分配 为什么它不是标准常态
t 分布 尾部稍重,取决于自由度
物流配送 尾巴比正常尾巴稍重,形状不同
拉普拉斯分布 峰值更尖锐,尾部更重,指数衰减
标准正态分布和标准正态表
现在让我回到之前提到的内容:标准正态表的概念,也称为 Z 分数表或 Z 表,用于查找 Z 分数的累积概率,Z 分数表示标准正态分布中某个值与平均值的标准差数。此表通常用于统计中的假设检验、置信区间和概率计算。这里的想法是,您无需手动计算概率,而是可以参考表格快速确定低于给定 Z 分数的值的比例。
读懂该表格需要一些练习,而且这些表格有时看起来彼此不同。在这里,您可以看到它以二维格式构建。目的是在使用小数位时更容易查找 Z 分数的概率。在这种情况下,最左边的列包含 Z 分数的整数和第一位小数。顶行代表第二位小数。要找到与特定 Z 分数相关的概率,请找到与 Z 分数第一部分相对应的行,然后找到与第二位小数匹配的列。此行和列交叉处的值是累积概率,即低于该 Z 分数的数据点的比例。