当前,大语言模型的性能与训练数据质量紧密涉及的,但数据准备长期是制约模型迭代的瓶颈;研究人员需要从海量原始数据中筛选信息,完成清洗、转换、去重等流程,并按一定比例混合形成训练集。该过程依赖经验与多轮试验,模型规模越大,人工配置的成本和难度越高。针对此痛点,上海人工智能实验室与复旦大学组成联合研究团队,于今年2月发布数据配方自动化系统研究成果。该系统可根据不同应用场景自动生成数据处理方案,并输出可直接执行的程序代码。
训练数据既是大模型能力的基础,也是当前技术路线中的关键瓶颈。以DataChef为代表的数据配方自动化探索,反映了国内科研团队在基础能力建设上的持续投入。随着数据工程与模型能力合力推进,大模型训练有望走向更可控、更高效的工业化流程。