ai 推理更准确、更高效上，他们这次的目标是让ai在给答案的同时还能正确展现解题过程。为了达到这个

DeepMind最近把注意力转到了让AI数学推理更准确、更高效上，他们这次的目标是让AI在给答案的同时还能正确展现解题过程。为了达到这个目标，他们在GSM8K数据集上进行了测试。原本这个数据集的答案错误率是16.8%，步骤错误率是14.0%，DeepMind这次把答案错误率降到了12.7%，把步骤错误率压到了3.4%，基本上解决了两大主要问题：“算错”和“想错”。今年1月，谷歌提出了一个叫做“思维链提示”的方法，它给模型一个机会在给出答案前先思考一下，结果在几个大型模型如LaMDA-137B、GPT-3 175B和PaLM-540B上都提高了准确率。但是有时候模型给出正确答案的同时，推理路径却很奇怪。DeepMind这次实验就是为了解决这个问题。他们把两种训练方法——基于过程的监督和基于结果的监督——放在一起比较。他们做了一系列实验包括少样本提示、有监督微调、专家迭代强化学习、重排序加上奖励模型等，所有实验都是在GSM8K数据集上进行的。因为这个数据集包含了很多小学数学应用题，答案都是整数而且统计误差小，还有可靠的离线步骤标注和在线人工复核标签。结果显示，只盯结果容易导致“算错”，而只盯过程可能会导致“想错”。DeepMind决定把两种监督方法结合起来让模型同时考虑过程分和结果分。最后他们成功地将答案错误率降到了12.7%，步骤错误率降到了3.4%。如果允许模型回避掉30%的难题，那么它的答案错误率更是只有2.7%，几乎达到了零错误率。研究团队成员包括Jonathan Uesato、Nate Kushman和Ramana Kumar。12月3日的时候Nate Kushman会在NeurIPS 2022 MATH-AI研讨会上分享更多细节。如果顺利的话，我们很快就能看到AI自己判断题目难度并决定是否跳题的新版本出现了。