这玩意儿现在也有缺点，只能用单块gpu跑，没法搞多gpu 集群

耶鲁大学携手多所知名机构搞出了个叫AutoResearch-RL的AI助手，这东西牛得很，模型自己能自动进化。以前搞科研全靠人力，这回有了这个不知疲倦的“园丁”，24小时围着代码转，你想改什么代码、跑什么实验、分析什么结果，它全都能搞定，根本不用人盯着。它的玩法有点像玩游戏，AI不断尝试不同的配置去拿反馈、找最优解。研究团队干脆把这个过程做成了一个强化学习的问题，改得好给奖励，改坏了就扣分，慢慢AI就成了个厉害的研究员。这就好比一场戏，环境就是裁判给数据和标准，可变文件就是剧本记着最佳方案，AI研究员则拿着历史经验决定下一步咋改。最神的是它带了个预警系统，看着训练曲线不对劲立马停掉那些肯定没戏的实验。因为能提前判死刑省了好多时间，55%的实验都被提前终止了，平均只用了原计划时间的38%。另外它还会看训练损失曲线预测结果，避免浪费资源。至于策略那是用的PPO算法，既能多试试新路子又能利用老经验。它还记着历史最佳配置呢，以后碰到难搞的实验就能照着最好的来。经过实测这东西比人类专家调参调得都好，好多重要的深度学习技巧它都重新发现了。不过这玩意儿现在也有缺点，只能用单块GPU跑，没法搞多GPU集群。有时候还容易卡在局部最优解里出不来。总之这个AutoResearch-RL给机器学习研究提了个醒，以后科学发现可能也会更顺手。以后科研里搞人机协作怕是成了常态，随着这技术越来越成熟，科研界肯定要迎来大变化。