周二001 亚精英赛 2025-03-04 20:00 上海海港 0 - 1 横滨水手
红
胜平负 胜 3.15 平 3.40 负 1.93
你是不是也懵过?
“Token?不就是‘take’的过去分词吗?怎么AI论文里全是这词,还当名词用?!”——如果你也经历过这种“英语课白学了”的瞬间,别慌!
我在英伟达自传中,才了解道这个词汇的来历。目前中文互联网多数翻译为令牌,甚至还有人翻译为口令或标记。
其实,在AI中更贴切的翻译是“语元”——即“语言的基本单元“。
它最早源于计算机科学中的“身份验证令牌”(如API Token),后被自然语言处理(NLP)领域借用,指代模型处理的最小文字单位。
根据统计,一个token的大小不是固定的,甚至在各国不同语言下,token的大小/长度是不同的, 非常类似英文单词多少个字母或一个汉字多少笔画。
不过,token的长度通常比较小,一个Token通常对应3-4个英文字符。以“knowledge”为例(9个字母),按每Token≈4字符计算,可能需要拆分为3个Token(如“know”+“led”+“ge”)。
有专门的网站,可以查询一句话大概是几个token,如何如何划分的。
像deep seek官网都有专门的工具来计算,我估计没有几个付费的主会去较真计算,恐怕只有研究者闲得蛋疼去计算。
在中文环境下,
1个汉字 ≈ 1.5个token
10字短句 ≈ 15个token
千字科普 ≈ 1500个token
在deep seek最新披露的论文里,还提及了几个拗口的名词,什么缓存命中(token)、未命中(token),输入token计费,输出token。
为啥输入token要分缓存和非缓存?为啥非缓存要贵?
我们以常见的去医院看病/看医生为例子解释一下。所谓缓存命中,就类似慢性病人去医院看病。
美国老约翰去医院看病,原因是高血压要吃完了,需要医生再开几个疗程的降压药。医生一看老约翰过往病历,一目了然。老约翰花钱就比较少,只需要有处方权的医生给开就可以了。
也就是说,病症是老病症,药房有现成库存,问诊费(输入token)就比较低。
结果气温突然从20度降低到0度,老约翰感冒了,还是同一个医生。
老约翰先是描述自己症状,比如哪里不舒服,什么时候开始不舒服的。
医生得到这个信息后,还要转化为专业的医学术语,自己推理一番,甚至要老约翰去做各种检查,以便更准确的对症下药。最后,开出的药方,药房没有这个药物;还要去外地专门采购,这个时候,问诊费用就比较高了。
为啥输出token的价格一样呢?不分简单问题还是复杂问题?
它更像去病房取药,收费是按照取一种药多少钱,跟药物的药效或价格没有关系,以前药效或药物的价格在输入端已经做了区分。
取2分钱/片的药物是这个价,取1000元/ml的特效针剂也是这个价格。
输出的价格取决于一共要取多少次药物(多少token),不在于这些药物的价格。
推理的过程,是属于输入token还是输出token?收费吗?
deepseek-reasoner(R1模型)的输出 token 数包含了思维链和最终答案的所有token,其计价相同。
DeepSeek API 文档《模型与价格》,注释5
因此,我们看到具有推理功能的ai洋洋洒洒、哗啦啦的蹦出一串文字的时候,都是“真金白银”的输出token,要付费的。
像ChatGPT3.0、3.5甚至4.0模式,都是标准模式,也就是类似快速问答,不给解释过程:不具备推理能力(4.0有限推理能力),是没有这一过程。
这下知道为啥英伟达的老黄说
OpenAI、Broad3、DeepSeek R1等模型都是应用推理时间缩放的推理模型。推理模型可以消耗100倍以上的算力。未来的推理模型可以消耗更多的算力。
英伟达2025财年第四季度财报电话会议
因为推理模型分析过程,本身就耗费算力,如果成本又降低了,导致更多人使用,这就是双击,甚至连续击打。
目前看,不管是chatGPT,还是豆包或kimi等都没有带来如此大的普及。
这点上,我们可以从deep seek的api收费上看出来,没有推理能力的,也就是标准模型V3和具有推理能力的R1.
deep seep chat就是我们说的标准模式,没有推理能力,因此它的定价,在同样百万token的情况下,只有R1的一半。
这就相当于看病的挂普通号,还是专家门诊号,后者肯定要贵一些。
而推理模式先是推导的过程,也就是类似医生看病详细给你解释一下你得了啥病,可能是什么原因,为啥开这些药。
对不对、管用不管用另说,好歹给你一顿掰扯,你似懂非懂点了点头,看着高昂的账单,心里琢磨,time is money!相当于花钱找人唠嗑了吧!
deep seek曾发布论文,以2月28日访问量计算,理论收入为56万美元,利润成本比大概是545%,折算为传统的,或大家看得懂的利润率大概是84.5%。
当然,它并未披露详细的breakdown,这里面的cost到底是包括哪些并不可知,仅仅是仅仅是说“the total daily revenue would be $562,027, with a cost profit margin of 545%.”实际的利润率应该低于这个数值,但是,依然是一个好买卖。