721 字
2 分钟
大模型API选择
Google 的 Gemini 3 Flash Preview 与国产 DeepSeek-V3 的 API 收费标准及性能限制对比。
API 全称 Application Programming Interface(应用程序编程接口)。
Token 是大语言模型(LLM)处理文本的“基本单位”。
RPM (Requests Per Minute):每分钟请求数。
TPM (Tokens Per Minute):每分钟 Token 数。
RPD (Requests Per Day):每天总请求数。
上下文缓存:长期存储 Token 的功能(Context Caching),用于处理超长文档。
1. 核心计费对比 (每百万 Token)
| 计费维度 | Gemini 3 Flash Preview (Tier 1) | DeepSeek-V3 (官方标准) |
|---|---|---|
| 输入 (Input - 缓存未命中) | ¥3.48 ($0.50) | ¥2.00 ($0.27) |
| 输入 (Input - 缓存命中) | ¥0.35 ($0.05) | ¥0.20 ($0.03) |
| 输出 (Output) | ¥20.85 ($3.00) | ¥8.00 ($1.10) |
注: DeepSeek-V3 的输出成本仅为 Gemini 3 Flash 的 38% 左右,且输入成本也更低。
2. 上下文缓存 (Context Caching) 机制
两者的缓存逻辑有显著区别,直接影响长文档处理的成本:
| 维度 | Gemini 3 Flash | DeepSeek-V3 |
|---|---|---|
| 存储费 (Storage) | ¥6.95 / 1M Tokens / 小时 | ¥0 (完全免费) |
| 启用方式 | 需要通过 API 手动创建缓存对象 | 全自动识别(重复前缀自动打折) |
| 读取优惠 | 读取缓存比直接输入便宜 90% | 命中缓存部分仅需 1/10 价格 |
3. 频率限制 (Rate Limits - Tier 1 层级)
| 限制项 | Gemini 3 Flash Preview | DeepSeek-V3 |
|---|---|---|
| RPM (每分钟请求数) | 1,000 次 | 1,000 次 |
| TPM (每分钟 Token 数) | 1,000,000 (1M) | 1,000,000 (1M) |
| RPD (每天总请求数) | 10,000 次 | 依据账户充值等级动态调整 |
4. 技术规格对比
| 维度 | Gemini 3 Flash Preview | DeepSeek-V3 |
|---|---|---|
| 最大上下文 (Context Window) | 1,048,576 (1M) | 128,000 (128K) |
| 最大单次输出 (Max Output) | 65,536 Tokens | 8,192 Tokens |
| 多模态支持 | 文本、图片、音频、视频 | 文本、图片 |
| 数据隐私 | 付费层级数据不用于训练 | 承诺数据不用于训练 |
总结与建议
选 Gemini 3 Flash 的场景:
- 超长文本处理: 需要一次性分析超过 13 万 Token 的文档(如整本书、超大代码库)。
- 多模态需求: 需要 AI 直接解析 视频 或 音频 文件。
- Google 生态: 需要集成 Google 搜索接地(Grounding)或使用 Vertex AI 的企业级工具。
选 DeepSeek-V3 的场景:
- 追求极致性价比: 无论是输入还是输出,DeepSeek 的价格都具备压倒性优势。
- 高频文本对话: 自动缓存机制无需额外开发管理,对于固定 Prompt 的任务非常友好。
- 国内部署优化: 针对中文语境有极佳的优化,且 API 响应在国内环境下通常更稳定。
数据统计日期:2026年1月 | 汇率参考:1 USD ≈ 6.95 RMB
分享
如果这篇文章对你有帮助,欢迎分享给更多人!
部分信息可能已经过时
相关文章 智能推荐










