东京大学等推出“文本指令式”语音合成系统：秒级样本拟声，语速与时长可控受关注

随着数字化进程加速，语音合成技术正面临三大核心挑战：声纹克隆的真实性、多语言适配的兼容性以及语音时长的精确控制；东京大学工程团队的最新研究，为这些瓶颈给出了新的解法。技术突破来自架构层面的改进。传统语音合成系统往往是“单向处理”，容易忽视上下文信息，类似读到后文就忘了前文。研究团队提出双模块架构，将文本理解与语音生成拆分：以40亿参数规模的T5Gemma模型作为语言理解基础，再结合带动态进度监控的旋转位置编码技术，实现对语音节奏更细粒度的控制。在日语测试中，系统相似度评分达到0.677，比现有最优系统提升8.8%。跨语言表现也出现了超出预期的结果。尽管没有针对韩语进行专门训练，该系统在韩语测试中仍取得0.747的高分。研究团队分析认为，这与东亚语言之间的音系相似性以及分词器的兼容设计有关。研究负责人表示：“语言之间的潜在关联，为模型泛化提供了依据，也提示我们需要重新思考语言认知的底层机制。”产业化落地路径已较为清晰。目前系统支持英语、中文、日语三种语言，训练数据规模约17万小时，覆盖重音、声调、音拍等不同语音体系。团队表示，下一步将重点提升小样本学习能力，并计划在两年内推动医疗辅助、无障碍服务等场景应用。同时，团队已启动伦理审查机制，以降低声纹被滥用的风险。行业影响正在向多个方向扩展。该技术有望推动智能客服、影视配音等领域的能力升级；其跨语言迁移能力也可为“一带一路”沿线国家的多语种服务提供支撑。中国科学技术大学语音实验室专家评价：“这项研究在一定程度上打破了语种壁垒，为多语言语音技术发展提供了新的范式。”

语音合成技术的进步，正在让“声音”从个人特征延伸为可调度的数字资源。在提升公共服务和内容生产效率的同时，如何守住身份可信、信息真实与数据安全的底线，考验着研发机构、平台企业与监管部门的协同。要让技术更好服务社会，关键是把规则与责任前置，把安全与透明纳入系统设计，在可控、可验证的轨道上释放新动能。