清华大学教授提议规范AI核心术语 "模元"或成"Token"标准译名

随着人工智能技术的快速迭代和产业规模的扩大,专业术语的准确定义日益成为行业发展的重要基础。清华大学校务委员会副主任杨斌教授近日根据人工智能领域的核心概念提出了系统性思考,建议将广泛应用于大模型的Token统一译为"模元",引发业界关注。 当前,Token在不同领域存在多种中文表述,这种不统一状况在AI大模型领域尤为突出。杨斌教授分析指出,现有主要译法各有缺陷。"词元"一词将Token的含义过度聚焦于文本处理,难以涵盖图像、音频等多模态数据的处理场景,也无法适应物理AI等新兴应用领域需求。"语元"则将其限定在语言范畴,窄化了Token作为模型通用处理单元的本质属性。"义节"过度强调语义维度,忽视了Token在特征提取和结构化处理中的重要作用。而"托肯""屯"等音译方案虽然保留了原词形态,但未能传达其实质含义,反而增加了非专业人群的理解难度。 "模元"此新译法的提出意义在于明确的学理基础。其中"模"字指向模型,"元"表示基本单位,两字组合准确概括了Token作为大模型处理信息的最小单元这一核心属性。这一表述不仅适用于文本处理,也能涵盖多模态数据处理,具有更强的包容性和前瞻性。 术语规范化远超语言层面。杨斌教授强调,当一个技术名词成为万亿级产业的核心标尺并被高频使用时,其中文定名关乎产业共识的形成、技术知识的有效传播和公众认知的普及。统一、准确的术语体系能够降低不同群体之间的沟通成本,有助于技术知识从专业领域向社会各界的有序扩散。在信息技术快速发展的背景下,规范的专业术语既是学术交流基础,也是技术民主化的重要保障。 从国际经验看,重要技术术语的规范往由学术机构、行业组织和政策部门共同推动。我国在过去的技术发展中也积累了丰富经验,如"互联网""云计算"等术语的确立都经历了从探索到共识的过程。当前,随着人工智能产业的战略地位上升,建立规范的术语体系已成为产业健康发展的必要条件。

术语看似细微,却往往决定知识传播的边界与效率。当一种技术单位成为产业运行的共同刻度,其命名不只是翻译选择,更是共识建设的一环。推动“Token”等高频核心概念在中文语境中更准确、更统一地落地,有助于降低沟通成本、提升科普质量,也将为人工智能产业规范发展与社会理性认知奠定更坚实的语言基础。