东昱晓老师聊起这事,“词元”这个译名其实挺有意思。最近全国科学技术名词审定委员会把“token”的中文名定为“词元”,这算是听了大家的意见,最后拍板定的。清华计算机系的东昱晓说,这名字把“token”在语言模型里当基本离散符号单元的意思给抓出来了,还能顺带给多模态领域参考。他解释说,“词”就是点明它在语言里的出身,“元”就是基本单元的意思。这跟“元素”里的“元”意思是连着的。“token”本来就是古英语的符号、标记的意思,在模型里就是切分或编码后的最小单元。它可以是词串、单词、词根或者字符啥的。陈熙霖老师是全国计算机科学技术名词审定委员会的副主任,他也觉得这名字好。他说这名字把“作为语言基本语义单元”这个初始角色说得很清楚,而且现在模型都跨模态了,“词元”里的“词”就不单指人类语言里的词了,而是泛指各种模态里的离散基本单元。就像“词云”、“词袋”那样,虽然是从文本来的,现在都成了通用术语了。“词元”在跨模态里承载的是“离散基本单元”的语义。现在大家写文章或者交流,都爱用“词元”来代替“token”。国家数据局的数据显示,2024年刚开年的时候,中国一天调用的“词元”数量是1000亿;到了2025年底估计能涨到100万亿;今年3月就已经超过140万亿了,这两年增长速度真的是太快了。 其实嘛,“token”这个东西自己没啥智能,就是个信息载体。跟“嵌入”、“注意力”、“隐状态”这些术语放一块儿看着挺顺眼。中文里大家也习惯用俩字的词,“词元”叫着顺口又好记。