清华学者建议将 Token 中文命名为“模元”,推动人工智能术语规范化

问题—— 大模型快速演进的背景下,Token作为模型处理信息基础单位,被广泛用于描述“输入输出规模”“推理消耗”“成本预算”等关键指标。无论是模型服务定价、算力资源配置,还是企业评估应用落地效果,Token都已成为绕不开的“通用语言”。然而,当前中文语境中对Token的译名并不统一,传播中常见“词元”“语元”以及音译等多种说法,给公众理解与跨行业沟通带来一定障碍。 原因—— 一上,大模型技术从早期的文本处理迅速扩展至图像、语音、视频等多模态形态,并向智能体与物理世界交互延伸,使Token不再仅对应“词”或“句”的语言单位,而更接近“模型可处理的最小离散片段/编码单元”。既有译名往往带有强语文指向,难以覆盖更广泛的应用形态。另一方面,Token在区块链、网络安全等领域也常被使用并已有约定俗成的译法,导致同词在不同场景下语义易混,更增加了术语统一的难度。此外,新兴产业高速发展,技术扩散速度快于术语规范形成速度,造成“先使用、后命名、再争论”的现实局面。 影响—— 术语不统一看似是翻译问题,实则影响行业协同效率与公众认知成本。对普通用户而言,英文原词或缺乏语义指向的音译提高了理解门槛,不利于形成对大模型计费、能耗与效率等概念的直观认识。对企业与机构而言,若难以在中文语境中形成清晰、稳定的指标口径,跨部门沟通、合同条款表述、服务定价解释等环节都可能产生偏差。更重要的是,随着大模型从“技术展示”走向“规模化生产”,衡量单位与指标体系的稳定性将直接关系到产业透明度与治理精细化水平。 对策—— 针对上述问题,腾讯研究院近日发布文章称,杨斌建议将大模型领域Token的中文名定为“模元”,以区分其他场景中的Token用法。其核心思路是以“模”强调大模型与多模态属性,以“元”对应“基本单元”,并尝试延续中文对计量单位命名的直观逻辑。文章还对常见译法进行了辨析:如“词元”易将概念锁定在文本场景,“语元”偏向语言范畴,“义节”过度强调语义而弱化结构化特征,纯音译则难以传达概念内涵。 从报道与行业实践看,术语规范化不仅需要提出更贴切的中文表达,也需要建立可落地的使用规则:一是明确适用边界,区分大模型Token与其他领域Token的语义范围;二是形成可传播的解释体系,例如在教育、媒体报道、产品说明书与服务协议中给出一致定义;三是鼓励行业组织、科研机构与标准化部门共同参与,通过术语表、标准建议或团体标准等方式推动共识形成,减少“各说各话”。 前景—— 随着智能体、多模态融合以及端侧部署等趋势加快,面向未来的计量语言将更强调跨场景、跨媒介的通用性。无论“模元”最终能否成为主流译名,其引发的讨论本身表达出一个信号:大模型产业正在从“参数竞赛”进入“成本、效率与治理并重”的阶段,行业需要更清晰的指标体系与更稳定的公共表达,以支撑规模化应用与规范化发展。可以预见,围绕Token的中文命名之争,最终将走向更系统的术语标准与指标口径统一,这也将成为大模型产业成熟的重要标志之一。

技术术语的翻译从来不只是语言问题,更是文化传播和产业发展的关键环节。"模元"这个译名的提出,反映了中国学者科技本土化上的深入思考;在全球化与本土化并重的今天,如何构建既符合技术本质又易于传播的中文术语体系,仍将是值得持续探讨的课题。这一讨论不仅关乎技术发展,更将影响中国在全球科技话语体系中的参与度和影响力。