问题:随着人工智能从研发走向规模化应用,行业急需一套通用、可核算、可对比的计量单位,用来衡量模型调用量、算力消耗和服务价值。现实中,“Token”长期以英文形式使用,跨行业传播和公众沟通中口径不一,也不利于在服务定价、合同结算、统计监测等环节形成清晰标准。计量标尺不统一,容易造成企业之间、平台之间、不同应用场景之间的成本与价值难以对齐,进而影响产业协同与监管评估。 原因:一上,词元是大模型处理信息的基础单位。无论是自然语言、代码片段,还是多模态内容的文本描述,都需要先拆分为可计算的最小片段进入模型运算。词元因此成为连接“技术能力—资源消耗—服务输出”的关键环节。另一方面,我国大模型应用快速普及,企业和个人用户对智能服务的调用更加高频、规模更大,推动词元作为计量口径的需求迅速上升。,对术语进行规范,有助于让技术表达、产业实践与治理规则对齐,提升行业运转效率。 影响:统一“词元”该译名,有助于行业形成更一致的标准,降低沟通与交易成本。对企业而言,围绕词元计费、套餐服务、调用审计等模式更便于规范落地;对用户而言,价格与使用量的对应关系更直观,有助于做出更可预期的消费与采购决策。数据显示,我国日均词元调用量已从2024年初的1000亿次增长至2025年3月的140万亿次,并短期内保持较快增速。调用规模的变化表明,智能服务正在从“尝试使用”走向“刚性需求”,产业竞争也从模型发布节奏加快转向产品化、平台化、生态化。有企业在较短周期内实现营收快速增长,也说明以词元为核心的计量与结算方式正在加速形成商业闭环。 更深层的影响在于产业竞争力的重塑。词元既是服务交付单位,也能综合反映效率与能力:单位词元成本越低、单位词元的输出质量越高,背后往往意味着更强的工程、数据与系统能力。刘烈宏提到词元“出口”业务增长,反映我国智能服务开始具备跨境供给能力,对应的产品与平台在国际市场上呈现可复制、可交付、可计费的特征。这也意味着竞争焦点正从单一的模型参数规模,转向“数据—算力—算法—工程—产品—合规”的系统能力。 对策:推动词元成为广泛使用的产业计量标尺,需要在数据底座、标准体系与治理规则上同步推进。其一,夯实高质量数据供给。我国持续推进数据基础设施建设,截至2025年底累计建成10万余个高质量数据集、总存储容量突破890PB。高质量数据是提升模型能力的关键投入,也是降低单位词元成本、提高输出可靠性的基础。其二,完善标准与统计口径。在模型调用、计费规则、审计追溯、接口规范诸上增强一致性,促进产业链上下游协同。其三,强化安全与合规框架。随着词元调用规模扩大,数据安全、隐私保护、内容治理、跨境流动等问题更加突出,需要发展与安全之间保持平衡,通过制度安排提升市场信心与国际合作的可预期性。 前景:人工智能应用正从基础对话向复杂任务执行、决策支持与多智能体协作演进。多模态能力和工具调用能力增强,将继续推升词元需求,并改变调用结构。未来增长不仅来自“调用次数更多”,也来自“任务链条更复杂”。例如长文本理解、代码生成与调试、企业级知识检索、流程自动化等场景,将对词元处理效率、质量控制与成本管理提出更高要求。可以预见,围绕词元的效率指标、质量指标与合规指标,将成为企业竞争的重要坐标,也会推动算力、数据、模型与应用之间的资源配置更加精细。我国在数据要素市场化配置上的探索,有望为国际讨论提供实践参考,推动形成兼顾创新与风险可控的治理共识。
从术语规范到度量统一,“词元”不仅是语言层面的命名,更是面向产业协同与规则建设的制度安排。把难以直观呈现的能力转化为可度量的尺度,才能更有效释放数据与算力的放大效应。进入智能产业的深水区,只有持续夯实数据底座、完善标准规则、推动合规流通,才能在新一轮技术演进与全球竞争中保持主动、形成新的优势。