先加奶还是先加茶味道不一样

记得那个剑桥的午后，一群人围着茶点闲聊。有位女士随口说了句“先加奶还是先加茶味道不一样”，大家觉得挺逗就笑了，谁料费歇尔这位蓄着灰短髯的科学家却认真把这当成了个事儿。他让仆人端来10杯已经调好的茶，顺序是随机的，每一杯喝完都要让人指出是“先奶后茶”还是“先茶后奶”。结果这位女士答对了9杯。费歇尔开始琢磨，虽然这事儿听着不靠谱，但要是她真能分辨出来，那得是个多大的运气呢？毕竟哪怕只给一杯，猜对的概率也才50%，给两杯还可能全对，或者因为茶没搅匀或者水不够热而出错。费歇尔把这个问题给拆解成了概率游戏：要想证明她有本事，就得让她全猜对只是巧合的概率小到可以忽略不计。这就是假设检验的雏形。没过多久，波兰来的尼曼和英国的皮尔逊就把这个框架给补全了。他们给假设检验定下了一整套标准流程：先把原假设和备择假设列出来，再算出检验统计量和p值，“显著性水平”也成了可以调的参数。费歇尔虽然对一些改进不太满意，但也承认这套体系让假设检验变得实用起来。从这以后，不管是验证药好不好用，还是做民意调查，假设检验几乎成了科学界的标准方法。不过回头看看“女士品茶”那个实验，真的一点问题都没有吗？味蕾会不会累？杯子拿的顺序会不会影响味觉？不同杯里的水温差能忽略不计吗？显然不行。费歇尔自己也承认：“哪怕她真的能分出来，我们也不能保证100%正确。” 这就说明假设检验的前提是世界简单得能被概率模型抓住，可现实往往比模型复杂得多。学界后来把检验规则简化成二选一：推翻原假设就接受备择假设；推翻不了就保留原假设。这看起来挺公平的吧？其实不然，原假设被预设成了“零状态”，逻辑上更容易让人接受。只要证据不够硬实，就默认它“无罪”。于是就会出现两种情况：判错有罪就可能冤枉好人；判错无罪就可能放跑坏人。科学家为了不犯错往往把显著性水平调低了不少，这其实是费歇尔当年极力反对的“过度保险”。现在大数据时代来了，“全体准确”好像能让假设检验退休了？可别高兴得太早：大样本还是得抽样，抽样误差还是存在；变量间交互作用多了高维数据可能变得很奇怪；数据清洗和补漏洞本身也会引入新的假设。“大数据=零假设错误”的想法被现实给击碎了。大数据就像把双刃剑：信息量大了模型假设反而变得更复杂——假设检验没过时，就是升级了难度。我们该怎么用好假设检验呢？给三条底线看看：先问问世界是不是真的正态独立同方差？再控好显著性水平α——越低不一定越好；最后看效应大小——p值再小也得看有没有实际意义。一句话：把它当成警报器而不是判决书；听到警报先查样本、模型和动机再决定开不开门。最后想跟大家说的是：“女士品茶”的故事告诉我们概率模型再精细也只是人类思维的近似工具。科学需要质疑也需要承认局限。以后不管数据多大多牛计算力多强，只要我们还用有限样本去追求无限真相，假设检验就会一直存在——它不是万能答案而是一次理性对话的邀请函。接受它、审慎它、改进它才是对百年统计最好的致敬。