我国科研团队攻克智能数据处理关键技术实现训练数据配方自动化生成

当前，大语言模型的性能与训练数据质量紧密涉及的，但数据准备长期是制约模型迭代的瓶颈；研究人员需要从海量原始数据中筛选信息，完成清洗、转换、去重等流程，并按一定比例混合形成训练集。该过程依赖经验与多轮试验，模型规模越大，人工配置的成本和难度越高。针对此痛点，上海人工智能实验室与复旦大学组成联合研究团队，于今年2月发布数据配方自动化系统研究成果。该系统可根据不同应用场景自动生成数据处理方案，并输出可直接执行的程序代码。

训练数据既是大模型能力的基础，也是当前技术路线中的关键瓶颈。以DataChef为代表的数据配方自动化探索，反映了国内科研团队在基础能力建设上的持续投入。随着数据工程与模型能力合力推进，大模型训练有望走向更可控、更高效的工业化流程。

我国科研团队攻克智能数据处理关键技术 实现训练数据配方自动化生成

我国科研团队攻克智能数据处理关键技术实现训练数据配方自动化生成