ai 推理更准确、更高效上,他们这次的目标是让ai在给答案的同时还能正确展现解题过程。为了达到这个

DeepMind最近把注意力转到了让AI数学推理更准确、更高效上,他们这次的目标是让AI在给答案的同时还能正确展现解题过程。为了达到这个目标,他们在GSM8K数据集上进行了测试。原本这个数据集的答案错误率是16.8%,步骤错误率是14.0%,DeepMind这次把答案错误率降到了12.7%,把步骤错误率压到了3.4%,基本上解决了两大主要问题:“算错”和“想错”。今年1月,谷歌提出了一个叫做“思维链提示”的方法,它给模型一个机会在给出答案前先思考一下,结果在几个大型模型如LaMDA-137B、GPT-3 175B和PaLM-540B上都提高了准确率。但是有时候模型给出正确答案的同时,推理路径却很奇怪。DeepMind这次实验就是为了解决这个问题。他们把两种训练方法——基于过程的监督和基于结果的监督——放在一起比较。他们做了一系列实验包括少样本提示、有监督微调、专家迭代强化学习、重排序加上奖励模型等,所有实验都是在GSM8K数据集上进行的。因为这个数据集包含了很多小学数学应用题,答案都是整数而且统计误差小,还有可靠的离线步骤标注和在线人工复核标签。结果显示,只盯结果容易导致“算错”,而只盯过程可能会导致“想错”。DeepMind决定把两种监督方法结合起来让模型同时考虑过程分和结果分。最后他们成功地将答案错误率降到了12.7%,步骤错误率降到了3.4%。如果允许模型回避掉30%的难题,那么它的答案错误率更是只有2.7%,几乎达到了零错误率。研究团队成员包括Jonathan Uesato、Nate Kushman和Ramana Kumar。12月3日的时候Nate Kushman会在NeurIPS 2022 MATH-AI研讨会上分享更多细节。如果顺利的话,我们很快就能看到AI自己判断题目难度并决定是否跳题的新版本出现了。