ai写数学证明和写代码?openai和deepmind

新年刚开始,OpenAI和DeepMind这两家科技大公司就连续给大家吃了一惊。OpenAI说他们训练出了一个神经定理证明器,能解决AMC12、AIME甚至IMO改编的题目。DeepMind则推出了AlphaCode系统,说这个系统的编程能力和普通人类程序员差不多。这两条赛道看上去挺不一样,但都指向同一个目标,就是让机器自己搞定数学证明和写代码。OpenAI的方法很简单,就是先让语言模型去找证明。找到新的证明就把它放进训练数据里,然后再继续找更难的问题。整个过程被称为“陈述课程学习”。刚开始的时候,这个证明器只能证明很少的几道题,可经过8轮迭代后,它在miniF2F上的准确率从29.3%提高到了41.2%。OpenAI把这次提升归因于他们提供了足够梯度难度的不同陈述,让模型自己一步一步往上爬。这还真是有些出乎意料!不过形式数学比围棋还复杂得多。每一步都要从无限多的策略里挑选一个,还要生成一些原始数学术语。而且证明器没有像下棋那样的对手去和它互动。DeepMind这边把AlphaCode放在了Codeforces这个平台上进行测试。这个平台每周都有新题目出来,还有Elo排名。结果发现AlphaCode在这个平台上平均排名冲进了前54.3%,大约等于过去六个月活跃用户的前28%分位。DeepMind的创始人Mirzayanov说:“我本来以为就算是简单题目也需要先发明算法才能解决,但AlphaCode却做到了。” 这一次测试可真是让人大开眼界! 虽然这两个系统都展示出了很强的能力,但它们还不是完美的。AlphaCode主要是解决一些短平快的算法谜题,并不适合写复杂的商业级代码。而且它输出的答案还得经过测试样例的验证才能使用。所以说它更像是在给自己做“无监督课程”。另外微软和GitHub这些公司也把GPT-3改造成了代码自动完成工具GitHub Copilot,但结果发现有40%的输出被检出了安全漏洞。 这说明可信度还是AI编程真正需要解决的最后一个难题啊!DeepMind也提到AlphaCode只是个开始而已,未来真正想走进企业还需要接受更多严格训练才行。 看来AI写数学证明和写代码还是有很多挑战要面对呢!