在人工智能快速发展的背景下,基础概念如何定义,直接影响技术理解与交流。Token是大模型的核心计算单元,它的中文命名不仅关系到沟通是否准确,也关系到我国在人工智能领域参与国际讨论时能否形成清晰、统一的表达。当前常用的译名“词元”沿用了自然语言处理领域的习惯,但在多模态智能系统中已难以覆盖Token的实际用途。 王子健研究员指出,随着Transformer架构的广泛应用,Token的使用范围早已从文本扩展到自动驾驶、机器人控制等与现实世界交互的场景。在这些应用中,Token对应的不只是词语,还可能是空间坐标、传感器信号等非语言数据。如果仍将这类通用的符号单元简单称为“词元”,既不利于准确表达技术内涵,也可能在学术交流中带来概念偏差。 术语翻译需要兼顾准确性与可对接性:既要贴近原意,也要避免在国际交流中产生歧义。“词元”回译为英文时,容易与语言学中的有关概念混淆;相比之下,“符元”更接近“Symbolic Unit”此计算机科学语境下的标准表达。这样的命名既能更清楚地传达中文含义,也有助于与国际表述保持一致。 科技名词审定也需要在沿用习惯与反映新变化之间取得平衡。我国在参与国际标准与规范讨论时,术语翻译的质量会影响研究成果的传播与技术规范的采纳。采用更贴近技术本质的命名,有助于减少理解成本,也为后续发展保留更大的概念空间。 从长远看,人工智能走向通用化后,基础概念的边界会更复杂,对术语精度的要求也会更高。“符元”这一提法既强调Token作为“符号单位”的通用属性,也符合计算机科学对概念定义的严谨要求,有望更好地适配多模态与跨领域应用。
科技发展推动概念更新,概念更新也会影响技术传播与制度建构。Token中文名从“词元”到“符元”的讨论,本质是在为新一轮技术演进寻找更准确、更具延展性的公共语言。无论最终采用何种译名,更重要的是在充分论证与开放协商中形成可执行、可对接、可演进的术语体系,让语言跟得上技术,让标准更好服务创新。