我们在高中就学过的正态分布,通常称为高斯分布,在统计学中至关重要,因为它具有基本的数学性质,并且适用于各个科学领域。下面这篇文章,我想深入探讨一下正态分布,并辅以丰富的数学方程来解释其发展、性质和应用。另外,你是否停下来想过为什么高斯分布是唯一使熵最大化的指数方程?
理解正态分布的旅程始于它的历史起源。18 世纪的数学家 Abraham de Moivre 首次将正态分布视为二项分布的近似值:
随着n 的增大,二项分布(描述在n 次独立试验中恰好获得k 次成功的概率)趋近于连续曲线,即正态分布。棣莫弗使用斯特林阶乘近似法正式化了这一观察结果:
根据棣莫弗理论,二项分布的正态分布近似值为:
该正态分布的平均值μ和方差σ ² 定义为:
这是实际的高斯分布方程:
1.对称性和连续性
正态分布由围绕中心均值μ的对称钟形曲线定义。对称性和连续性的要求表明指数函数涉及平方项。平方项的选择确保了关于均值的对称性:
2.最大熵原理
正态分布使具有给定均值 ( μ ) 和方差 ( σ 2 ) 的所有分布中的熵最大化,表示在这些约束条件下最大的不确定性。概率密度函数p ( x ) 的熵H由以下公式给出:
该原理支持使用指数形式,因为它可以有效地分散概率密度。
3.指数族
正态分布的二次指数使其成为指数家族的成员,其概率密度函数形式如下:
对于正态分布,T ( x )= x^ 2,η =−1/(2 σ 2),且h ( x ) 和A ( η ) 会进行调整以拟合标准正态形式。
4.高斯方程
正态分布的概率密度函数为:
· 标准化因子:确保曲线下面积等于 1,以概率分布表示有效性:
· 以平均值为中心 ( μ ):方程中的μ参数将钟形曲线沿x轴移动,因此它以平均值为中心。这是曲线最高点(众数)所在的位置。
· 指数分量:决定分布的形状:确保函数在x远离平均值时趋近于零,这反映了偏离平均值的可能性减小。该函数关于μ对称,这意味着概率密度在平均值的两个方向上均匀减小。
· 方差作用:影响曲线的分布:方差决定了钟形曲线的“宽”或“窄”。方差小意味着数据点紧密聚集在平均值周围,从而形成更陡峭的钟形曲线。方差大意味着数据点在平均值周围分布得更宽,从而形成更平坦的钟形。
指数函数e^x是数学中的基础函数,因为它具有独特的性质,例如其导数等于自身。这一性质使其在微积分和微分方程的各个领域非常有用,而微积分和微分方程是统计建模的基础。
正态分布公式指数中的平方项 ( x − μ )^2 有多种用途:
1. 对称性:数字的平方始终为非负数,当x等于μ(分布的平均值)时, ( x − μ )^2 变为零。这意味着当x = μ时,函数达到最大值,从而确保分布围绕其平均值对称。这种对称性至关重要,因为它反映了偏离平均值的可能性在两个方向(正向和负向)均等的理念。
2. 二次型:使用二次型(平方项)绘制时会创建抛物线,这对于形成正态分布的钟形至关重要。抛物线的性质是,靠近顶点(平均值μ)的值具有较高的概率,而随着远离中心,概率密度呈指数下降。
3. 极值惩罚:当x远离μ时,二次项 ( x − μ )^2 会快速增长。这种快速增长意味着极值(远离平均值)出现的可能性比接近平均值的值呈指数级下降,这是许多自然现象(如身高、考试成绩等)的一个关键特征。
指数分母的方差σ^ 2 充当比例因子。它决定了分布的扩展:
· σ^ 2较高:曲线更宽更平,表明数据的变异性更大。分母中的因子 2 σ^ 2 使函数在x远离μ时下降得更慢,从而允许数据点的更大分散。
· 较低的σ 2:曲线较窄且较高,表明数据点更集中在平均值附近。σ 2 值越小,意味着随着x偏离μ,函数值下降得越快。
使用指数函数(尤其是e^ − x的形式)至关重要,因为它可以确保在x值偏离平均值时概率迅速下降,平稳调整而不会发生突然变化。这种平稳下降对于连续数据建模至关重要,因为在连续数据中,极端值是可能的,但可能性会逐渐减小。
高斯分布模拟独立随机变量和的行为,如中心极限定理所示:
它的实用性涵盖假设检验,有助于构建置信区间和执行重要性检验。
高斯分布可以扩展到多维,从而得到所谓的多元正态分布。这种将一维正态分布推广到更高维度的分布被广泛用于描述一组正态分布变量的联合行为。
在N维情况下,多元正态分布描述的是N维随机向量的分布,其特点是:
· 平均值:一个N维向量μ ,其中μ的每个元素代表其中一个维度的平均值。
· 协方差矩阵:一个N × N 的协方差矩阵 Σ,包含每对维度之间的协方差。Σ 的对角线元素表示每个维度的方差。
N维向量X的多元正态分布的概率密度函数 (PDF)由以下公式给出:
在哪里,
· x是随机向量X的实现。
· μ 是均值向量。
· Σ 是协方差矩阵。
· det(Σ) 是协方差矩阵的行列式。
· ( x − μ )^ T Σ^−1 ( x − μ ) 是二次形式,它测量x与平均值μ的平方距离,由协方差矩阵缩放。
特性
· 独立性和相关性:如果协方差矩阵 Σ 是对角线的,则X的分量是独立的,多元正态分布将简化为多个单变量正态分布。如果 Σ 具有非对角线元素,则这些元素表示各个维度之间的相关性。
· 形状和几何:多维空间中分布的形状取决于 Σ。例如,如果所有方差相等且协方差为零,则密度函数的轮廓形成一个 N 维球体。非零协方差会将此球体扭曲为根据 Σ 的特征向量对齐的椭圆体。
· 边际分布:多元正态分布的任何子集的边际分布也是正态分布的。
将正态分布扩展至多维后,便可在金融等领域(股票收益可能存在相关性)或生物医学研究和社会科学中的图像处理和多元统计分析中对数据进行复杂建模。这种 N 维泛化保留了单变量正态分布的许多吸引人的特性,使其成为统计建模和推理的强大工具。
在具有给定均值和方差的所有概率分布中,正态分布是具有最大熵的分布,这一概念在统计学和信息论中是一个深刻且非常有用的概念。
在信息论的背景下,熵衡量概率分布的不确定性或随机性。它量化了随机变量结果中固有的“意外”程度。对于概率密度函数p ( x ),熵H定义为:
该公式表明,对于每个可能的结果x,取x的概率p ( x ) ,将其乘以p ( x )的对数,然后将该数量加到所有可能的结果上(或积分)。负号确保熵为非负数。
正态分布通过最优分配概率质量,最大化具有指定均值(μ)和方差(σ²)的所有分布之间的熵。
· 固定约束:各种分布可以满足相同的均值和方差,但是在结果分配方式上存在很大差异。
· 熵的变化:集中分布具有较低的熵,更可预测,而均匀分布则体现出更多的随机性,从而增加了熵。
· 正态分布的平衡:正态分布具有对称的钟形曲线,通过既不过分集中也不过分耗散概率质量来实现最高熵,确保不会在方差限制之外增加额外的可预测性。
从数学上讲,这一论证来自变分法,它证明,对于固定的均值和方差,任何偏离正态分布形式的行为都会导致熵值降低。证明过程包括在固定均值和方差的约束下优化熵函数(通常使用拉格朗日乘数),并证明正态分布的密度函数是最大化该熵函数的解。
正态分布是给定μ和σ 2 的最大熵分布,这一特性至关重要,因为这意味着如果您仅基于均值和方差假设正态分布,则除了这些矩(均值和方差)告诉您的内容之外,您假设的额外结构最少。您假设的分布反映了您所知的最大不确定性或随机性,这在许多实际统计问题中是一个非常保守和稳健的假设。
理解这一概念有助于证明在许多实际场景中使用正态分布的合理性,特别是当数据的基础分布未知但均值和方差已知或可以估计时。它支持中心极限定理,其中独立随机变量的总和在分布上收敛到正态分布,这表明随机性、熵和正态分布之间存在深层联系。