3月24日,人民日报发文《“Token”中文名定了:词元》。文章指出,AI热潮中,一个概念的地位正在渐渐凸显——Token,它是排行榜上大模型调用量的评估标准,也是大模型厂商销售套餐的计费单位。
在3月22日至23日举行的中国发展高层论坛2026年年会上,国家数据局局长刘烈宏表示,Token“词元”不仅是智能时代的价值锚点,更是连接技术供给与商业需求的“结算单位”,为商业模式的落地提供了可量化的可能。这也从官方角度上为Token给出了翻译:“词元”。
近日,“词元”一词的译者复旦大学计算与智能创新学院教授、上海创智学院全时导师邱锡鹏接受红星新闻采访。早在2021年,邱锡鹏就将Token译为“词元”,并推动其在中文语境下的标准化。
▲邱锡鹏教授 受访者供图
“统一token中文名,越早越好”
邱锡鹏告诉红星新闻,“token”本身是一个很难翻译的词。此前,在中文表述体系里,一直没有一个准确的对应表达,不同领域对它的翻译五花八门。
邱锡鹏长期从事大模型相关研究。他指出,“token”被译作“令牌”“代币”等,都无法贴合其在AI领域的内涵,所以倡议用“词元”作为它的翻译,希望能形成一个中文的基础概念。“让大家一提到‘词元’就对应到token,同时也能将其与word(单词)、symbol(符号)等概念明确区分。”
邱锡鹏指出,以“词元”实现中文语境下对“token”译名的统一,他非常认可,而且这件事越早完成越好。“一个翻译的核心价值在于达成共识,只有形成共识,才能更好地推广,国家层面为‘词元’背书,能快速推动行业形成共识,这对AI知识的交流和传播非常有利。”邱锡鹏说。
因龙虾走红而备受关注的“agent”一词,常被翻译为“智能体”。
对此,邱锡鹏指出,“agent”也是一个很难翻译的词,它的内涵包括主动性、能动性,而非单纯的“智能”,这也是当下主流译法“智能体”的短板,在他看来,这一译法的表意性还有所欠缺。“不过AI产业还在发展初期,大家还在为(智能体)这个词汇凝聚共识,我在自己的书籍中,也暂时使用‘智能体’这一译法。”
邱锡鹏告诉红星新闻,对于一个翻译来说,能形成共识就是好的,共识大于一切。
邱锡鹏指出,在学术圈的小范围交流中,译名不统一的问题其实并不突出,比如遇到“agent”这类难翻译的词,大家直接使用英文即可完成交流。但当AI技术从学术圈走向大众,成为全社会的认知范畴时,就必须找到共识性的中文译名。
“如果大众层面的交流中,遇到AI相关名词仍要使用英文,会大幅提高认知和交流成本,也不利于AI技术的普及。”邱锡鹏表示,统一的译名是构建中文技术话语体系的基础,只有让大家用同一种“语言”交流,才能让AI知识真正走进大众,推动整个产业的本土化发展。
“词元”内涵会随着社会发展不断演化
邱锡鹏表示,随着AI的发展,“词元”已经成为AI领域的一个基础单位,这个单位的意义体现在多个方面:首先,它成为了AI消耗量、成本的衡量单位,目前行业内已经形成了以“词元”为基础的定价体系,比如按每词元、每百万词元计算成本;其次,它能作为统计单位,衡量AI应用的深度与广度,比如企业可以通过消耗的词元数量,量化自身的AI化程度,AI公司也能以词元的成本为指标,进行行业横向对比。
更重要的是,“词元”的统一能让行业形成公用认知。
“当下AI的应用广度已经覆盖全社会,我们迫切需要构建属于自己的中文技术话语体系,统一的译名是形成共识的基础,能让AI知识更好地传播、交流,也能让大众更轻松地理解AI相关概念,消除认知壁垒。”邱锡鹏说。
邱锡鹏告诉红星新闻,一个词汇的内涵会随着社会发展不断演化,“词元”也不例外,它正从最初的学术翻译、功能表达,慢慢演变成一种可计量、可定价、可结算的AI基础能力单位,甚至成为一种经济学结算单位。这一变化也说明社会对AI的接受度在不断提高,AI的叙述逻辑也从单纯的技术层面,转向了产业层面、基础设施层面,这也是AI产业走向成熟的一种体现。
邱锡鹏说:“此前token的翻译五花八门,核心原因就是它在不同场景下的意义不同。早期在文字处理领域,token代表的是文字符号,所以大家对其翻译也局限在文字相关范畴,而随着多模态AI的发展,图像、视频等内容也被进行‘token化’处理,此时就有人认为‘词元’无法涵盖图像等非文字的表示形式。”
邱锡鹏表示,其实这就是词汇内涵的外化,很多词汇的定义都会随时代发展不断拓展,“词元”也一样。它不再仅仅指代文字符号,还可以涵盖虚拟符号、音视频表示等多种形式,这也是词汇适应产业发展的必然结果。
万亿级词元调用量背后:
我国的大模型调用迈入基础设施级的规模
3月24日,国家数据局局长刘烈宏在国新办举行的新闻发布会上表示,到今年3月,我国日均词元(Token)调用量已超过140万亿,相比2024年初的1000亿增长了1000多倍,相比2025年底的100万亿,三个月时间又增长了40%多。这样的万亿级数据意味着什么?
邱锡鹏表示,这一数据意味着我国的大模型调用已经迈入了基础设施级的规模,虽然目前还未达到水电煤那样的普及程度,但增长速度非常快。“此前我们常说大模型会像水电煤一样,成为社会的基础设施级服务,现在这一设想正逐步成为现实。”
邱锡鹏指出,当下的大模型应用已经不再局限于少数企业的实验性、学术性尝试,而是进入了高频、持续、跨行业的真实消耗阶段,正真正成为大众生活、各行业发展中可使用的技术能力。而“词元”作为计费、统计、调用单位,恰好适配了AI商业化闭环的构建需求,也从侧面印证了我国AI应用场景正在快速发展。
“更容易被普通人获得,同时背后的AI技术能力也会同步快速提升。AI的智能程度与上下文记忆容量高度相关,记忆容量越大,决策就越准确,能力也就越强。”邱锡鹏说。
邱锡鹏表示,随着词元规模扩大、成本降低,普通人能为AI提供更多的上下文信息,让AI拥有更长的对话记忆,进而发挥出更强的能力,最终体现在更低的创作成本、更智能的办公助手体验等方方面面,让AI真正服务于日常工作和生活。