输入文本,实时计算Token数量和预估API费用。支持中英文混合、代码片段。
Token是大模型处理文本的基本单位,理解Token概念是控制API成本的关键。
Token是大语言模型处理文本的最小单元。一个Token可以是整个词、一个词的一部分,甚至一个字符。不同语言的Token密度差异很大:英文通常1个词≈1-2个Token,中文1个字≈1-2个Token。
不同模型使用不同的分词器(Tokenizer):GPT系列使用BPE算法,Claude使用自研分词器,中文模型通常对中文更高效。这意味着同一段文本在不同模型中的Token数量可能不同。
大模型API按Token计费,通常区分输入Token和输出Token。输出Token价格通常是输入的3-6倍。因此,精简Prompt、控制输出长度是降低API成本的有效手段。
同一段文本在不同模型中的Token消耗和费用差异显著。
| 文本类型 | 大致Token比 | 说明 |
|---|---|---|
| 纯中文 | ~1.5 token/字 | 中文字符密度高,Token消耗较大 |
| 纯英文 | ~0.25 token/词 | 英文分词效率高,Token消耗较低 |
| 代码 | ~0.4 token/字符 | 代码含大量符号和关键词,Token消耗中等 |
| 中英混合 | 视比例而定 | 技术文档常见,需分别计算中英文部分 |