当我们想从一个样本中推算出总体的真实情况时,用区间估计能给我们一个很大的把握,毕竟在95%的情况下,我们确定的这个范围里会包含总体的真实均值。要衡量这些样本均值会怎么波动,我们就得看标准误。这东西可不是样本数据的标准差,它是很多个样本均值本身的标准差,专门用来看看这些均值互相之间的离散程度有多高。说白了,标准误是在告诉我们,如果不停地抽样,各组样本算出的均值到底会有多大的波动范围。要是这个误差越小,说明这次抽样的误差就越小,不同样本算出来的结果就越接近那个真正的真值。 要想把这几个局部样本的数据推断到整个总体上去,就需要一个叫置信区间的“保险杠”来帮我们兜住底。这个区间到底有多宽,主要得看这三股劲儿:首先是样本容量的大小,只要n越大,标准误自然就小,区间也就跟着收紧了;然后是咱们想要的把握程度(也就是置信水平),只要1-α定得越高,比如定成95%,区间就得变宽点,这样能把“真值”丢在外面的风险就越低;最后就是数据本身的离散程度,如果数据特别散,那在同样的把握下画出来的区间就会更宽。 跟那种只给一个数却不告诉我们会错多少的点估计比起来,区间估计要靠谱多了。它直接在数轴上划出了一大段距离,把参数95%的可能落在哪儿都给明明白白地写了出来。要是算出来的这个区间恰好把总体的真实均值给包住了,那就是说在95%的水平上看,样本均值和总体均值没什么显著差别;要是这区间完全没把那个真值包含进来,那就说明两者之间有很大的差异。一句话讲——区间估计给咱们提供了“正确的概率”,而点估计就没有这个功能。 咱们可以拿总体方差来拆解一下这个原理:先是随便从总体里抽n个样本出来;接着算出每个样本的方差;再把这些方差一平均;最后根据这些方差的平均值搞出总体方差的抽样分布。最后就是根据这个分布在数轴上划出那个置信区间。这个区间两头离中心点多远的事呢?主要是由标准误、置信水平还有自由度这几个家伙共同决定的。 很多人其实搞错了一件事:以为区间估计本身就是抽样分布。其实并不是这样的。抽样分布是那些样本统计量(比如均值、方差)的分布情况——它是在告诉我们:当我们不断地重复抽样的时候,那些统计量到底会以多大的概率落在什么位置上。只有先弄清楚了抽样分布是怎么回事儿,咱们才能反推出参数落在某个区间里的正确概率有多大,进而判断这次估计到底靠不靠谱。换句话说,要是没有抽样分布作为地基撑着,那根本就没法搞出什么区间估计。 下面咱们就把这套理论直接落实到操作层面上,用六步把样本数据转化成总体均值的置信区间:第一步先把样本平均数和标准差都算出来;第二步把标准差给除以根号n来得到标准误;第三步定好咱们要的那个把握度(比如选95%),然后查表找临界值;第四步按公式算出下限是负临界值乘标准误,上限是正临界值乘标准误;第五步报告一下这个区间并标注好置信水平;第六步就是看看这个区间有没有把总体的真实均值给包进去,从而判断差异显不显著。把这六步走完了,你就拥有了一条既宽窄合适又带着“正确概率”标签的置信区间。靠着它不仅能看到数据的全貌,在写科研报告的时候也能底气十足地写下结论了。