LLM 学习笔记——大模型调研
这份笔记偏向大模型本身的分类、选型、价格与常用信息来源,尽量把“模型怎么选、钱怎么算、去哪里查”单独整理出来,主要回答几个问题:“该选什么模型、成本大概怎样、去哪里查资料”。
这篇笔记的内容具有明显的时效性,当前原始信息时间是 2026 年 3 月,我并没有精力去持续更新。
主要基于 OpenRouter 排行榜,表中的数据只是作为大致参考,不保证准确性,同一个表格中的顺序也没有意义,个人觉得差不多都属于同一梯队或者同一类型。
一、大模型的基本分类
大模型可以按照是否开源进行分类:
- 第一类,闭源模型,只能通过自家提供的产品或 API 访问。
- 第二类,开放权重模型(open-weights model),公开模型权重以及主要架构信息,但训练过程和训练源码并没有公开。
- 第三类,完全开源模型,其他用户可以尝试复现。
目前能力最强的大模型大多属于闭源模型,其完整架构和训练细节通常不会公开。市场上较为主流的开源模型多属于开放权重模型,例如 DeepSeek、Qwen 等,公开模型权重并允许第三方部署,但训练数据和训练过程通常不会完全公开。完全开源、可以复现训练过程的大模型主要来自研究社区,其规模和能力通常与前两类模型存在一定差距。
二、选型时主要看什么
关于大模型的选择,可以优先考虑以下维度:
- 模型定位:通用模型、编程模型、数学模型、推理模型、多模态模型。
- 任务复杂度:简单任务与复杂任务对模型能力要求差异很大。对于简单任务,目前多数主流模型都能满足需求,而且往往还能通过免费额度或免费版本使用;对于复杂任务,对模型要求更高,有时必须为此付费,而且通常是按量付费。
- 输入输出形式:文本、多模态、图像、音频、视频。
- 模型规模:决定能力上限,也直接影响训练和部署资源需求。
- 上下文窗口长度:影响长对话、长文档分析、编程等复杂任务。目前的顶级大模型,例如 GPT-5.4、Claude Opus 4.6、Gemini 3.1,可以做到最多 100 万 tokens 的上下文窗口,主流大模型,例如 Kimi K2.5、MiniMax M2.5,大概处于 20 万 tokens 左右上下文窗口的水平。
- 产品形态:是通过 Web、API、聚合平台,还是通过订阅计划来使用。
补充:
- 即使大模型厂商公开了某个模型的权重,不同平台部署的版本和体验也可能并不相同,因为推理系统、参数配置以及微调版本都会影响最终效果。
- 多模态能力也需要单独考虑。现在很多模型都强调图片、音频、视频、文本的统一输入输出能力,但即使是顶级模型,也往往只是部分完成这个目标。由于多模态模型训练需要大量非文本数据,这方面大厂通常更有优势。
- 这些模型的命名规则没有统一规定,命名非常混乱,并且需要注意的是,fast 一类的后缀通常不是指阉割版,而是加速版,因此对应的价格也会更高。
常见场景下可以粗略这样理解:
- 日常聊天、搜索和轻度内容生成:多数主流通用模型都够用,优先考虑价格和可用性。
- 编程或 agent 使用:更看重代码能力、工具调用稳定性和长上下文表现。
- 长文档分析:更看重上下文窗口和检索、缓存等配套能力。
- 低成本批量调用:更看重输入输出单价、缓存价格和平台稳定性。
三、主流厂商及其主力模型
国外顶级
| 厂商 | 主力模型 | 备注 |
|---|---|---|
| OpenAI | GPT-5.4 | OpenRouter |
| Anthropic | Claude 4.6 | OpenRouter |
| Google Gemini | Gemini 3.1 | OpenRouter |
国外其它大厂
| 厂商 | 主力模型 | 备注 |
|---|---|---|
| xAI Grok | Grok 4.1 | OpenRouter |
| Meta | Llama 4 | OpenRouter |
国内大模型厂商
| 厂商 | 主力模型 | 备注 |
|---|---|---|
| 稀宇科技 (MiniMax) | MiniMax M2.5 | OpenRouter |
| 深度求索 (Deepseek) | DeepSeek-V3.2 (DeepSeek-V4 ?) | OpenRouter |
| 月之暗面 (Moonshotai) | Kimi K2.5 | OpenRouter |
| 阶跃星辰 (Stepfun) | Step 3.5 | OpenRouter |
| 智谱 (Z.ai, BigModel) | GLM-5 | OpenRouter |
国内大厂
| 厂商 | 主力模型 | 备注 |
|---|---|---|
| 阿里巴巴 | Qwen3.5 | OpenRouter |
| 字节跳动 | 豆包2.0, Seedance 2.0 | OpenRouter |
四、价格与付费方式
4.1 API token 计费
除了订阅制(Coding Plan),通过 API 调用大模型对话一般基于 token 计费,单位一般为每百万 tokens(1M)多少美元或人民币。有的模型对输入 token 和输出 token 的计费价格不同,输出通常比输入贵很多;有的模型会存在阶梯价格,如果缓存命中,则会降低价格。
为了给出 API 的大致价位,下面列出一些代表性的文本模型价格,数据来源是 OpenRouter。
国外顶级厂商的主力大模型价格较高:
| 模型 | 发布时间 | 输入价格 (每百万Tokens) | 输出价格 (每百万Tokens) |
|---|---|---|---|
| OpenAI: GPT-5.4 | Mar 5, 2026 | $2.5 | $15 |
| OpenAI: GPT-5.4 Pro | Mar 5, 2026 | $30 | $180 |
| Anthropic: Claude Sonnet 4.6 | Feb 17, 2026 | $3 | $15 |
| Anthropic: Claude Opus 4.6 | Feb 4, 2026 | $5 | $25 |
| Google: Gemini 3.1 Pro Preview | Feb 19, 2026 | $2 | $12 |
国外其它大厂的非主力模型价格相对更低:
| 模型 | 发布时间 | 输入价格 (每百万Tokens) | 输出价格 (每百万Tokens) |
|---|---|---|---|
| xAI: Grok 4.1 Fast | Nov 19, 2025 | $0.2 | $0.5 |
| Meta: Llama 4 Maverick | Apr 5, 2025 | $0.15 | $0.6 |
国内大模型厂商的模型价格则便宜很多:
| 模型 | 发布时间 | 输入价格 (每百万Tokens) | 输出价格 (每百万Tokens) |
|---|---|---|---|
| MiniMax: MiniMax M2.5 | Feb 12, 2026 | $0.295 | $1.20 |
| DeepSeek: DeepSeek V3.2 | Dec 1, 2025 | $0.25 | $0.40 |
| MoonshotAI: Kimi K2.5 | Jan 27, 2026 | $0.45 | $2.20 |
| StepFun: Step 3.5 Flash | Jan 29, 2026 | $0.10 | $0.30 |
| Z.ai: GLM 5 | Feb 11, 2026 | $0.80 | $2.56 |
国内大厂的模型价格也差不多:
| 模型 | 发布时间 | 输入价格 (每百万Tokens) | 输出价格 (每百万Tokens) |
|---|---|---|---|
| Qwen: Qwen3.5 Plus 2026-02-15 | Feb 16, 2026 | $0.26 | $1.56 |
| Qwen: Qwen3.5 397B A17B | Feb 16, 2026 | $0.39 | $2.34 |
| ByteDance Seed: Seed-2.0-Mini | Feb 26, 2026 | $0.10 | $0.40 |
小结:对于按 token 计费的大模型,国外顶级模型的价格约为输入 $2-5、输出 $10-20;国内模型通常低得多。
补充说明:
- 这里只是文本类模型,涉及图像和视频输入输出时,价格通常更高,而且 token 消耗速度也快得多。
- 对于大模型的推理部分有时也可能被计费,有的甚至直接按照输出价格计费。
- Anthropic 的模型描述词比较特殊:Haiku 是轻量版,Sonnet 是中等或默认档,Opus 是全能版。
- 这些大模型官网也公布了 API 价格,与 OpenRouter 上的价格通常大体一致:
- OpenAI 官网价格
- Anthropic 官网价格
- Google Gemini 官网价格
- DeepSeek 官网文档:输入 $0.28(缓存命中则降低至 $0.028),输出 $0.42
4.2 国外订阅套餐
OpenAI: 通用订阅
- ChatGPT Go: $8
- ChatGPT Plus: $20
- ChatGPT Pro: $200
Anthropic: 纯粹的编程向订阅,限制于 Claude Code 中应用。
- Claude Pro: $17
- Claude Max: $100
Google: AI 全家桶服务
- Google AI Plus: $8
- Google AI Pro: $20
- Google AI Ultra: $250
注:
- 这些厂商的订阅套餐通常只能在自家的 Web 或应用中使用,与它们自家 API 的按量付费相互独立。
- API 的价格通常比订阅制显得更贵。
- Google 可能会有学生免费一年的优惠,但也可能没有。
4.3 国内 Coding Plan
一些国内厂商提供了面向编程开发者的订阅 API 服务,即 Coding Plan:不是按量付费,而是订阅制付费。
| 名称 | 价格 | 模型 | 备注 |
|---|---|---|---|
| 智谱 Coding Plan | Lite 49元/月,Pro 149元/月,Max 469元/月 | 自家模型 GLM 系列 | Lite 性价比很低,甚至不提供 GLM-5 |
| MiniMax Coding Plan | Starter 29元/月,Plus 49元/月,Max 119元/月 | 自家模型 MiniMax 系列 | 极速版套餐价格翻倍,Starter 额度偏少,偶尔使用 |
| Kimi Coding Plan | Andante 49元/月,Moderato 99元/月,Allegretto 199元/月 | 自家模型 Kimi 系列 | 性价比低 |
| 字节跳动 - 火山引擎 - 方舟 Coding Plan | Lite 40 元/月(首月优惠10元以内),Pro 200元/月 | Doubao、Kimi、GLM等 | |
| 阿里云百炼 Coding Plan | Lite 40 元/月(首月优惠10元以内),Pro 200元/月 | Qwen、GLM、Kimi、MiniMax等 |
补充:
- 这些厂商大多采用“5 小时请求数 + 周请求数 + 月请求数”的三重限制方式。对于请求数,有的按 API 调用次数计算,有的按 prompts 计算,对长对话会更友好。
- 这些 Coding Plan 提供的专用 API,与聚合平台中按量付费的通用 API 并不相同。
五、常用网站
5.1 API 聚合平台
这类平台提供统一接口,可以调用不同厂商的大模型 API,按量付费,不同模型价格也不一样。
- OpenRouter:最大的大模型聚合 API 平台
- 硅基流动 siliconflow:国内聚合 API 平台
补充:
- OpenRouter 在账户充值后,可以调用部分 free-tier 模型,并提供一定额度的免费 API 调用,还可以直接使用
openrouter/free,此时 OpenRouter 会自动选择合适的免费模型,适合简单测试。 - OpenRouter 对同一个模型还提供不同后缀,例如
Nitro更偏速度优先,Exacto更偏输出质量优先。
5.2 模型社区
这类平台主要用于发布、下载和共享开源模型。
- Hugging Face:最大的开源模型社区
- 魔搭 ModelScope:阿里推出的国内模型社区
5.3 模型评测与排行榜
这类平台用于对不同模型能力进行公开评测。
- Chatbot Arena(LMArena):基于用户对比投票的大模型排行榜,使用类似 Elo rating 的评分方式。
- Open LLM Leaderboard(Hugging Face):Hugging Face 提供的开源模型排行榜,基于多个标准 benchmark(如 MMLU、ARC、HellaSwag 等)进行综合评测。
- Papers with Code Leaderboards:机器学习任务排行榜网站,汇总不同 benchmark 上的最新 SOTA 模型结果。
