目录:
1962年,一位伟人为中国工业发展题写了"鼓足干劲,力争上游,多快好省地建设社会主义"。六十多年后,当我们审视AI Agent工程的核心挑战时,会发现一个惊人的对称:Agent工程的终极优化目标,本质上就是对模型Token消耗的"多快好省"。
淘宝用十五年把"多快好省"刻进了中国零售的DNA——商品要多、物流要快、品质要好、价格要省。而今天的AI Agent Runtime,正在用同一套逻辑重塑Token消费——模型类型要多、响应速度要快、完成效果要好、使用成本要省。
悟空——孙悟空七十二变(多)、筋斗云十万八千里(快)、金箍棒降妖除魔(好)、一根毫毛变千猴(省)。一个优秀的Agent Runtime,就是AI时代的淘宝,Token世界的悟空。
为什么Token是Agent工程的第一性原理?
在讨论"多快好省"之前,我们需要先回答一个根本问题:为什么Agent工程的核心指标是Token?
传统软件工程优化的是CPU、内存、带宽。但在AI Agent系统中,这些资源的消耗都微不足道——真正的成本大头、性能瓶颈和质量决定因素,全部指向同一个东西:模型Token的消耗。
传统软件 AI Agent系统
───────── ─────────────
CPU → 计算逻辑 Token → 推理逻辑
内存 → 状态管理 Context Window → 状态管理
带宽 → 数据传输 Prompt/Response → 数据传输
数据库查询 → 持久化 Token消耗 → 一切的一切
# generated by hugo's coding agent
一个Agent执行任务的全过程——理解意图、规划步骤、调用工具、处理结果、生成回复——每一步都在消耗Token。Token是Agent世界的"货币",而Agent Runtime就是管理这种货币流通的"中央银行"。
所以,评价一个Agent Runtime的好坏,就看它能否让Token花得"多快好省"。
多:模型类型多,按需调度
淘宝的"多"是商品种类多——你总能找到你需要的东西。Agent Runtime的"多"是模型类型多——每个子任务都能匹配到最合适的模型。
不是所有任务都需要Opus
一个常见的误区是:用最强的模型做所有事情。这就像去淘宝买个手机壳,却非要选爱马仕定制款——能用,但完全没必要。
任务类型 适配模型 Token成本倍率
──────── ──────── ────────────
意图识别/路由 Haiku 1x
数据提取/格式化 Haiku 1x
常规对话/问答 Sonnet 5x
代码生成/复杂推理 Opus 25x
多模态分析 Opus/Sonnet 10-25x
文本分类/标签 微调小模型 0.3x
# generated by hugo's coding agent
一个成熟的Agent Runtime应该像一个经验丰富的项目经理:把对的任务交给对的人。它需要:
- 模型注册表:维护可用模型的能力矩阵(推理深度、上下文长度、多模态支持、延迟、成本)
- 任务-模型映射:根据任务特征自动选择模型
- 动态降级/升级:简单问题用小模型,遇到困难自动升级到大模型
多模型编排的实战模式
真实的Agent任务往往需要多个模型协作完成:
用户请求: "帮我分析这份合同的风险点,生成一份风险报告"
执行链路:
┌─────────────┐ ┌──────────────┐ ┌─────────────┐
│ Haiku │───→│ Opus │───→│ Sonnet │
│ 意图解析 │ │ 合同分析 │ │ 报告生成 │
│ 0.5K tokens │ │ 8K tokens │ │ 3K tokens │
└─────────────┘ └──────────────┘ └─────────────┘
vs. 全部用Opus:
┌──────────────────────────────────────────────────────┐
│ Opus × 3 步骤 │
│ 意图解析(2K) + 合同分析(8K) + 报告生成(6K) = 16K │
└──────────────────────────────────────────────────────┘
多模型编排: 11.5K tokens, 成本约 $0.35
全用Opus: 16K tokens, 成本约 $1.20
# generated by hugo's coding agent
“多"的本质不是用更多的Token,而是用更多类型的模型,让每一个Token都花在最合适的地方。
快:响应快,延迟低
淘宝的"快"是物流快——用户下单后尽快收到商品。Agent Runtime的"快"是响应快——用户发出请求后尽快看到结果。
Token生成速度是用户体验的生命线
在Agent系统中,延迟有两个维度:
- 首Token延迟(TTFT):用户等多久才看到第一个字?
- Token生成速率(TPS):内容以什么速度"流"出来?
模型 TTFT TPS 用户感知
──── ──── ─── ────────
Haiku ~200ms 150+ "秒回"
Sonnet ~500ms 80-100 "很快"
Opus ~1.5s 40-60 "在思考"
Opus+长上下文 ~3s+ 30-40 "等一下..."
# generated by hugo's coding agent
一个聪明的Agent Runtime会用流式(Streaming) 架构让用户感知到"快”:
- 即时反馈:收到请求立刻返回"思考中"状态
- 渐进式输出:中间结果实时流式推送
- 并行执行:多个独立子任务同时启动
快的关键技术:投机执行与预取
传统串行执行:
解析意图 → 查数据库 → 调模型 → 格式化 → 返回
|--200ms---|--300ms--|--2s----|--100ms--|
总延迟: 2.6s
优化后并行执行:
解析意图(Haiku) ──→ 调模型(Sonnet)──→ 返回
↓ ↑
预取数据库(并行) ──────────┘
|--200ms------------|--1.5s-----|--100ms--|
总延迟: 1.8s (-30%)
# generated by hugo's coding agent
更激进的策略是投机执行:在用户还在打字时,根据已有上下文预测可能的意图,提前开始准备。这和CPU的分支预测、淘宝的预测性物流是同一个思路。
缓存:不消耗Token的"快"
最快的Token是不需要生成的Token。
- Prompt缓存:重复的系统提示、工具定义不需要每次都重新处理
- 语义缓存:相似问题直接返回缓存结果
- KV Cache复用:同一会话内的上下文不需要重新编码
Anthropic的Prompt Caching可以将重复部分的成本降低90%,同时显著降低首Token延迟。这是"快"和"省"的交汇点。
好:完成效果好,质量高
淘宝的"好"是商品质量好——用户收到的东西符合甚至超出预期。Agent Runtime的"好"是任务完成效果好——AI的输出准确、完整、可靠。
“好"是最难优化的维度
“多"可以量化(支持多少种模型),“快"可以量化(延迟多少毫秒),“省"可以量化(花了多少钱)。但"好"是一个主观且多维的指标。
一个"好"的Agent输出需要满足:
| 维度 | 定义 | 衡量方式 |
|---|---|---|
| 准确性 | 事实正确,逻辑无误 | 人工评估 / 自动化验证 |
| 完整性 | 覆盖用户请求的所有方面 | 检查清单匹配 |
| 可用性 | 输出可以直接使用,无需二次加工 | 用户采纳率 |
| 一致性 | 多次执行结果稳定 | 方差分析 |
| 安全性 | 不含有害/敏感/错误信息 | 安全检测 |
用更多Token换更好的结果
有时候,“好"和"省"是矛盾的。这时候需要一个清晰的决策框架:
低风险任务 (聊天/摘要/翻译):
→ 优先"省",使用较小模型
→ 可接受95%的质量
高风险任务 (合同分析/代码生成/医疗建议):
→ 优先"好",使用最强模型
→ 增加验证步骤,宁可多花Token
→ 目标99.5%+的质量
# generated by hugo's coding agent
提升"好"的工程手段
1. 结构化Prompt工程
模糊的Prompt浪费Token且效果差。结构化的Prompt用更少的Token获得更好的结果:
# 差的Prompt(模糊,导致模型猜测)
帮我分析一下这个数据
# 好的Prompt(结构化,精确引导)
## 任务
分析以下销售数据的季度趋势
## 输入
[数据]
## 要求
1. 识别同比增长率最高的3个品类
2. 标注异常波动(偏离均值>2σ)
3. 输出格式:Markdown表格
# generated by hugo's coding agent
2. 工具增强(Tool Use)
让模型调用工具而不是"凭空推理”,用少量Token调度准确的外部能力:
纯LLM推理: "北京现在几度?" → 消耗500 tokens猜测 → 可能错误
工具增强: "北京现在几度?" → 50 tokens调用天气API → 准确结果
# generated by hugo's coding agent
3. 自我验证循环
关键任务引入"审核Agent”——用少量额外Token大幅提升可靠性:
执行Agent(Sonnet) → 输出结果
↓
审核Agent(Haiku) → 检查格式/一致性/明显错误
↓
[通过] → 返回用户
[不通过] → 反馈给执行Agent重试(最多2次)
# generated by hugo's coding agent
这个模式的精妙之处在于:用便宜的Haiku做质检,减少昂贵的Opus重试次数。
省:成本低,花得值
淘宝的"省"是价格实惠——同样的商品花更少的钱。Agent Runtime的"省"是Token成本低——同样的效果消耗更少的Token(或更便宜的Token)。
Token经济学:一笔账算清楚
以一个企业客服Agent为例,每天处理1000个对话,平均每个对话消耗5000 tokens:
全用Opus方案:
输入: 3000 tokens × $15/M = $0.045/对话
输出: 2000 tokens × $75/M = $0.15/对话
日成本: $195 × 30天 = $5,850/月
多快好省方案:
路由(Haiku): 200 tokens → $0.0002
执行(Sonnet): 3500 tokens → $0.021
复杂升级(Opus): 15%概率 × 5000 tokens → $0.0135 (均摊)
日成本: $34.87 × 30天 = $1,046/月
节省: 82%
# generated by hugo's coding agent
省的六个杠杆
┌──────────────────────────────────────────────────┐
│ Token成本优化六杠杆 │
├──────────────────────────────────────────────────┤
│ │
│ 1. 模型选择 用最合适的模型,而非最贵的 │
│ 2. Prompt精简 消除冗余指令,压缩上下文 │
│ 3. 缓存复用 相同/相似请求不重复计算 │
│ 4. 批量处理 合并请求,减少系统Prompt重复开销 │
│ 5. 提前终止 识别到足够信息时停止生成 │
│ 6. 结果缓存 高频问答直接返回缓存结果 │
│ │
└──────────────────────────────────────────────────┘
# generated by hugo's coding agent
上下文窗口管理:最容易忽视的成本黑洞
很多团队不知道,上下文管理不善是Token浪费的最大源头。
一个10轮对话的Token消耗(无优化):
第1轮: System(2K) + User(0.5K) = 2.5K
第2轮: System(2K) + 历史(3K) + User(0.5K) = 5.5K
第3轮: System(2K) + 历史(6K) + User(0.5K) = 8.5K
...
第10轮: System(2K) + 历史(30K) + User(0.5K) = 32.5K
总输入Token: 2.5+5.5+8.5+...+32.5 = 175K tokens!
优化后(滑动窗口+摘要压缩):
每轮控制在10K以内 → 总输入Token: ~80K
节省: 54%
# generated by hugo's coding agent
多快好省的动态平衡
“多快好省"四个维度并非独立存在,它们构成了一个动态平衡系统:
好(质量)
▲
/|\
/ | \
/ | \
/ | \
多/ | \快
/ | \
/______|______\
省(成本)
# generated by hugo's coding agent
在实际工程中,你不可能同时在四个维度上做到极致。关键是根据场景找到最优平衡点:
| 场景 | 优先级排序 | 典型配置 |
|---|---|---|
| 面向C端的聊天机器人 | 快 > 好 > 省 > 多 | Sonnet为主,流式输出,缓存积极 |
| 企业内部数据分析 | 好 > 省 > 多 > 快 | Opus处理核心分析,Haiku做预处理 |
| 高频自动化任务 | 省 > 快 > 好 > 多 | Haiku为主,批量处理,激进缓存 |
| 复杂多步骤Agent | 多 > 好 > 快 > 省 | 多模型编排,自我验证,并行执行 |
悟空的启示:Token Native思维
回到"悟空"这个隐喻。孙悟空的厉害之处,不是他永远用最大的力气打——而是他因地制宜、灵活多变:
- 遇到小妖用金箍棒一扫(Haiku)
- 遇到强敌变出三头六臂(Opus)
- 赶路时翻筋斗云(Streaming + Cache)
- 拔一根毫毛变出千百个分身(并行执行 + 批处理)
这就是Token Native思维的精髓:不是追求用最少的Token,也不是追求用最强的模型,而是让每一个Token都产生最大的价值。
如果淘宝重新定义了中国人的消费方式,那么掌握了"多快好省"的Agent Runtime,将重新定义我们消费AI算力的方式。
这个时代需要的不是更大的模型,而是更聪明的模型调度。需要的不是更多的Token,而是更高效的Token利用。
悟空不是最强的,但他永远是最合适的。
参考资源
- Anthropic Prompt Caching 文档
- Claude 模型对比:Opus vs Sonnet vs Haiku
- 本系列前文:构建企业级Agent Runtime:从Skill到Workspace的五层架构