东京大学等推出“文本指令式”语音合成系统:秒级样本拟声,语速与时长可控受关注

随着数字化进程加速,语音合成技术正面临三大核心挑战:声纹克隆的真实性、多语言适配的兼容性以及语音时长的精确控制;东京大学工程团队的最新研究,为这些瓶颈给出了新的解法。技术突破来自架构层面的改进。传统语音合成系统往往是“单向处理”,容易忽视上下文信息,类似读到后文就忘了前文。研究团队提出双模块架构,将文本理解与语音生成拆分:以40亿参数规模的T5Gemma模型作为语言理解基础,再结合带动态进度监控的旋转位置编码技术,实现对语音节奏更细粒度的控制。在日语测试中,系统相似度评分达到0.677,比现有最优系统提升8.8%。跨语言表现也出现了超出预期的结果。尽管没有针对韩语进行专门训练,该系统在韩语测试中仍取得0.747的高分。研究团队分析认为,这与东亚语言之间的音系相似性以及分词器的兼容设计有关。研究负责人表示:“语言之间的潜在关联,为模型泛化提供了依据,也提示我们需要重新思考语言认知的底层机制。”产业化落地路径已较为清晰。目前系统支持英语、中文、日语三种语言,训练数据规模约17万小时,覆盖重音、声调、音拍等不同语音体系。团队表示,下一步将重点提升小样本学习能力,并计划在两年内推动医疗辅助、无障碍服务等场景应用。同时,团队已启动伦理审查机制,以降低声纹被滥用的风险。行业影响正在向多个方向扩展。该技术有望推动智能客服、影视配音等领域的能力升级;其跨语言迁移能力也可为“一带一路”沿线国家的多语种服务提供支撑。中国科学技术大学语音实验室专家评价:“这项研究在一定程度上打破了语种壁垒,为多语言语音技术发展提供了新的范式。”

语音合成技术的进步,正在让“声音”从个人特征延伸为可调度的数字资源。在提升公共服务和内容生产效率的同时,如何守住身份可信、信息真实与数据安全的底线,考验着研发机构、平台企业与监管部门的协同。要让技术更好服务社会,关键是把规则与责任前置,把安全与透明纳入系统设计,在可控、可验证的轨道上释放新动能。