记得那个剑桥的午后,一群人围着茶点闲聊。有位女士随口说了句“先加奶还是先加茶味道不一样”,大家觉得挺逗就笑了,谁料费歇尔这位蓄着灰短髯的科学家却认真把这当成了个事儿。他让仆人端来10杯已经调好的茶,顺序是随机的,每一杯喝完都要让人指出是“先奶后茶”还是“先茶后奶”。结果这位女士答对了9杯。费歇尔开始琢磨,虽然这事儿听着不靠谱,但要是她真能分辨出来,那得是个多大的运气呢?毕竟哪怕只给一杯,猜对的概率也才50%,给两杯还可能全对,或者因为茶没搅匀或者水不够热而出错。费歇尔把这个问题给拆解成了概率游戏:要想证明她有本事,就得让她全猜对只是巧合的概率小到可以忽略不计。这就是假设检验的雏形。 没过多久,波兰来的尼曼和英国的皮尔逊就把这个框架给补全了。他们给假设检验定下了一整套标准流程:先把原假设和备择假设列出来,再算出检验统计量和p值,“显著性水平”也成了可以调的参数。费歇尔虽然对一些改进不太满意,但也承认这套体系让假设检验变得实用起来。从这以后,不管是验证药好不好用,还是做民意调查,假设检验几乎成了科学界的标准方法。 不过回头看看“女士品茶”那个实验,真的一点问题都没有吗?味蕾会不会累?杯子拿的顺序会不会影响味觉?不同杯里的水温差能忽略不计吗?显然不行。费歇尔自己也承认:“哪怕她真的能分出来,我们也不能保证100%正确。” 这就说明假设检验的前提是世界简单得能被概率模型抓住,可现实往往比模型复杂得多。 学界后来把检验规则简化成二选一:推翻原假设就接受备择假设;推翻不了就保留原假设。这看起来挺公平的吧?其实不然,原假设被预设成了“零状态”,逻辑上更容易让人接受。只要证据不够硬实,就默认它“无罪”。于是就会出现两种情况:判错有罪就可能冤枉好人;判错无罪就可能放跑坏人。科学家为了不犯错往往把显著性水平调低了不少,这其实是费歇尔当年极力反对的“过度保险”。 现在大数据时代来了,“全体准确”好像能让假设检验退休了?可别高兴得太早:大样本还是得抽样,抽样误差还是存在;变量间交互作用多了高维数据可能变得很奇怪;数据清洗和补漏洞本身也会引入新的假设。“大数据=零假设错误”的想法被现实给击碎了。大数据就像把双刃剑:信息量大了模型假设反而变得更复杂——假设检验没过时,就是升级了难度。 我们该怎么用好假设检验呢?给三条底线看看:先问问世界是不是真的正态独立同方差?再控好显著性水平α——越低不一定越好;最后看效应大小——p值再小也得看有没有实际意义。一句话:把它当成警报器而不是判决书;听到警报先查样本、模型和动机再决定开不开门。 最后想跟大家说的是:“女士品茶”的故事告诉我们概率模型再精细也只是人类思维的近似工具。科学需要质疑也需要承认局限。以后不管数据多大多牛计算力多强,只要我们还用有限样本去追求无限真相,假设检验就会一直存在——它不是万能答案而是一次理性对话的邀请函。接受它、审慎它、改进它才是对百年统计最好的致敬。