词元(Token),是人工智能大模型处理信息的最小信息单元,也是 AI 时代的基础计量单位与 “结算单位”。2026 年 3 月,国家数据局正式将 AI 领域的 “Token” 统一中文译名为词元。
一、核心定义
- 官方定义:词元是大模型处理信息的最小信息单元,具备可计量、可定价、可交易三大特征。
- 通俗理解:AI 无法直接理解整句文本,会通过分词器将内容拆分成一个个 “信息碎片”,这个碎片就是词元。它是 AI 的 “文字积木”,所有理解、生成、计算都基于词元进行。
二、词元的构成(拆分示例)
词元的长度不固定,由模型的分词算法决定,可能是:
- 中文:一个字、一个词、一个标点。
- 例:
我爱中国!→ 拆分为我、爱、中国、!(共 4 个词元)
- 例:
- 英文:一个完整单词、单词的一部分(子词 / 词根)、一个字母。
- 例:
I love you→I、love、you(3 个词元) - 例:
unhappiness→un、happiness(2 个词元)
- 例:
- 其他:数字、符号、表情等。
三、词元的核心作用
- 技术层面:是模型理解、生成文本的最小运算单位。模型通过预测下一个词元来完成对话、写作、翻译等任务。
- 商业层面:是 AI 服务计费、定价、结算的核心单位。你使用 AI 时消耗的 “额度”,本质上就是词元的数量。
- 统计层面:衡量 AI 产业规模与活跃度的关键指标。截至 2026 年 3 月,我国日均词元调用量已超140 万亿。
四、词元 vs 汉字 / 词语
- 汉字 / 词语:人类语言的表达单位,按语义和语法划分。
- 词元:AI 的计算单位,按算法最优原则划分,服务于模型性能与效率。
- 数量关系:通常,1 个汉字 ≈ 1–2 个词元;1 个英文单词 ≈ 1–3 个词元。
本文所有内容(文字、图片等)均为【物联网之家】精选自互联网,不代表任何观点,请自行甄别,如需转载请联系获取授权。
- 汉字 / 词语:人类语言的表达单位,按语义和语法划分。
- 词元:AI 的计算单位,按算法最优原则划分,服务于模型性能与效率。
- 数量关系:通常,1 个汉字 ≈ 1–2 个词元;1 个英文单词 ≈ 1–3 个词元。
本文所有内容(文字、图片等)均为【物联网之家】精选自互联网,不代表任何观点,请自行甄别,如需转载请联系获取授权。

