抽样分布和中心极限定理

发表于 2019-05-11 更新于 2021-11-23

有了抽样分布的概念和中心极限定理这一理论后，只要样本量满足一定要求（这很容易达到），我们就可以通过样本统计量来研究总体的性质。

由于样本是随机样本，所以样本统计量也是一个随机变量。而只要是随机变量就一定有相应的概率分布。我们把样本估计量的分布称为统计量分布，也称抽样分布。
以样本平均数为例，一般说样本平均数的抽样分布如何如何，这里，样本平均数被当成了一个随机变量来看待。对于初学者来说，这确实是比较反直觉的。
为何样本平均数可以被当做一个随机变量？因为样本平均数是依赖样本计算得出的：每抽取一个样本都可以计算出一个样本平均数，而且这些样本平均数或多或少都会有些差异。由此，样本平均数会随着抽样的不同而随机变动。只是现实生活中我们一般只抽取一个样本，计算一个样本平均数，因此，会觉得样本平均数不变。如果按照相同的样本容量，相同的抽样方式，反复地抽取样本，每次可以计算一个平均数，所有可能样本平均数所形成的分布，就是样本平均数的抽样分布。
我们不妨用身高的这个例子还原一下这个过程。假设我们现在想了解中国成年男子的身高情况，通过简单随机抽样获取了一个1000人的样本，计算出样本均数为1.76（米），样本标准差为0.1（米）。现在，我们按照同样的方法重复抽100次，每次都抽取1000人。在这个过程中我们实际一共调查了10万人，不过这10万人以1000人为一批被分成了100个样本，而每一个样本都可以计算一个样本平均数，假设分别为1.76，1.72，1.69，1.77……1.75。由此，我们一共获得了100个样本平均数，从而可以对这100个数求平均数和标准差，于是就得到了样本平均数的平均数和标准差（这个标准差一般称为样本平均数的标准误）。
为什么要这样做？为什么不直接一次性调查10万人，而要绕这么个圈子？很简单，这里100次的重复抽样仅仅是辅助大家理解，现实中出于成本的考虑，往往只会抽取一次。更重要的是，统计理论告诉我们即使只抽样一次也是极具价值的，这个理论就是中心极限定理（central limit theorem）。这个定理的逻辑很简单：在任意总体中随机抽取一个样本量为n的样本，如果样本容量较大（通常大于30即可），那么通过这个样本计算的样本平均数近似服从正态分布。
中心极限定理的核心思想可以很好地由下面这幅图来表达：

注意上图第一行是总体X的分布情况，其余都是不同样本量下对总体X进行采样得到的样本平均数的分布。如何获得样本平均数的分布图？实际上就是通过我们上面讲到的重复抽样的过程。
从最后一行可见，当样本量n=30时，无论总体X是何样，其样本均数总是近似服从正态分布。
用数学符号来表示，如果总体X的平均数是$\mu$，标准差是$\sigma$，则其样本平均数服从正态分布

$$ N(\mu，\frac{\sigma}{\sqrt{n}}) $$

注意：这里没有说总体X要服从什么分布，也就意味着任意分布的总体X均适用，但需满足比较大的样本量。
有了抽样分布的概念和中心极限定理这一理论后，只要样本量满足一定要求（这很容易达到），我们就可以通过样本统计量来研究总体的性质。