词元是什么?如何定义的呢?
物联网之家
21小时前
2
0

词元(Token),是人工智能大模型处理信息的最小信息单元,也是 AI 时代的基础计量单位与 “结算单位”。2026 年 3 月,国家数据局正式将 AI 领域的 “Token” 统一中文译名为词元

一、核心定义

  • 官方定义:词元是大模型处理信息的最小信息单元,具备可计量、可定价、可交易三大特征。
  • 通俗理解:AI 无法直接理解整句文本,会通过分词器将内容拆分成一个个 “信息碎片”,这个碎片就是词元。它是 AI 的 “文字积木”,所有理解、生成、计算都基于词元进行。

二、词元的构成(拆分示例)

词元的长度不固定,由模型的分词算法决定,可能是:

  • 中文:一个字、一个词、一个标点。
    • 例:我爱中国! → 拆分为 中国(共 4 个词元)
  • 英文:一个完整单词、单词的一部分(子词 / 词根)、一个字母。
    • 例:I love youIloveyou(3 个词元)
    • 例:unhappinessunhappiness(2 个词元)
  • 其他:数字、符号、表情等。

三、词元的核心作用

  1. 技术层面:是模型理解、生成文本的最小运算单位。模型通过预测下一个词元来完成对话、写作、翻译等任务。
  2. 商业层面:是 AI 服务计费、定价、结算的核心单位。你使用 AI 时消耗的 “额度”,本质上就是词元的数量。
  3. 统计层面:衡量 AI 产业规模与活跃度的关键指标。截至 2026 年 3 月,我国日均词元调用量已超140 万亿

四、词元 vs 汉字 / 词语

  • 汉字 / 词语:人类语言的表达单位,按语义和语法划分。
  • 词元:AI 的计算单位,按算法最优原则划分,服务于模型性能与效率。
  • 数量关系:通常,1 个汉字 ≈ 1–2 个词元1 个英文单词 ≈ 1–3 个词元
打赏
AI物联网AIoT 是未来十年确定性最强的赛道
上一篇
以AI驱动的物联网建设:从数据采集到智能决策的范式转变
下一篇

发表评论

注册不是必须的

最新文章

Web 4.0来了,物联网企业准备好了吗?

2026年春天突然引爆的概念:Web 4.0,互联网从Read到Write到Own再到Act。

以AI驱动的物联网建设:从数据采集到智能决策的范式转变

随着人工智能(AI)和物联网(IoT)技术的深度融合,传统物联网的“感知-传输-呈现”模式必将被“感知-学习-智能决策”所颠覆。

词元是什么?如何定义的呢?

词元(英文名:token)是人工智能领域的概念,定义为处理文本的最小数据单元,是拆分后的最小信息载体,可理解为字/词片段/符号等。

AI物联网AIoT 是未来十年确定性最强的赛道

AIoT(人工智能物联网)正从 “连接” 走向 “智能决策”,是数字经济与产业升级的核心引擎,前景广阔、确定性强。2026 年已进入规模化落地期,未来 5-10 年将持续高速增长,重塑千行百业。
生成中...
扫描二维码
扫描二维码