目录
1 主流模型
1.1 通用模型
- 国内:千问、Deepseek 、豆包
- 国外:Gpt、Cluade、Gemini、
|
模型开发方
|
主要版本 / 代表性模型
|
核心特点 / 适用场景
|
|
GPT系列 (OpenAI)
|
GPT-5
GPT-5 Codex Sora 2 |
全能型选手:在复杂推理、问题解决和代码生成上表现出色,是企业级AI Agent任务的可靠选择。
• 专用编码模型:GPT-5 Codex在代码生成和自测方面表现突出。 • 视频生成:Sora 2是OpenAI最新的视频和音频生成模型 |
|
Gemini系列 (Google)
|
Gemini 2.5 Pro
Gemini 3.0 (即将发布) |
长文本与深度研究:支持100万token的上下文窗口,适合处理大型代码库、长篇文档和进行深度研究。
• 计算机使用:Gemini 2.5 Computer Use可以让AI直接控制浏览器执行点击、输入等操作,适合自动化任务。 |
|
Claude系列 (Anthropic)
|
Claude Sonnet 4.5
Claude Haiku 4.5 Claude Opus 4.1 |
均衡与写作:Sonnet 4.5在推理、写作和编码方面表现均衡,成本与前代相同。
• 高性价比:Haiku 4.5速度极快,成本低廉,性能接近Sonnet 4,适合作为子智能体或构建多智能体系统。 • 复杂推理:Opus 4.1专注于复杂的混合推理任务。 |
|
DeepSeek系列
|
DeepSeek-R1
DeepSeek-V3 |
• 国产开源之星:R1在数学、代码和逻辑推理上表现卓越,性能接近顶级闭源模型,适合希望在本地部署的企业。
• 高效架构:采用MoE架构和MLA注意力机制,在保证性能的同时实现高效推理。 |
|
通义千问系列 (阿里)
|
Qwen3-Max
Qwen3系列 (多版本) |
万亿参数规模:Qwen3-Max是参数过万亿的模型,在多项评测中名列前茅。
• 灵活的版本:提供从0.6B到235B参数的密集和MoE版本,支持思考模式与非思考模式的融合。 |
|
豆包大模型 (字节跳动)
|
豆包大模型1.6
|
企业级应用:采用MoE稀疏架构以降低推理成本,在企业级Agent平台和全模态支持方面有广泛落地
|
- 追求极致性能与可靠性:对于处理复杂、多步骤推理的核心业务AI Agent,GPT-5和Claude Sonnet 4.5是目前综合能力很强的选择。
- 处理长文档与深度研究:如果你的Agent需要分析整个代码库、长篇报告或进行深度信息综合,Gemini 2.5 Pro的百万级上下文窗口是巨大优势。
- 构建高性价比的多智能体系统:可以考虑使用Claude Haiku 4.5作为执行具体任务的子智能体,它速度快、成本低,而用更强大的模型(如Sonnet 4.5)来做规划,这种混合模式能显著优化成本效益。
- 关注开源与本地部署:如果需要数据隐私、定制化或控制成本,DeepSeek-R1、Qwen系列和LLaMA 4等都是非常优秀的开源模型,适合本地部署。
- 侧重中文场景与垂直领域:对于中文应用,豆包、文心一言、通义千问和GLM等国内模型在本地化理解和特定行业(如金融、政务、工业)有深入布局。
1.2 垂直方向
1、 代码:Claude Sonnet 4.5 、Gpt5、Gemini
2 开源模型
2.1 开源内容
- 必开源:训练好的模型权重(核心)+ 推理 / 微调代码(LoRA/QLORA 为主)
- 少开源:完整预训练代码与原始数据(算力 / 合规 / 成本原因)
1、必开:模型权重。
- 模型权重(weights) – 训练好的模型参数,这是最关键的部分
2、标配: 模型微调。包括模型架构、推理代码、微调代码,方便直接用或二次开发
- 模型架构 – 神经网络结构设计、层数配置等技术细节
- 推理代码 – 用于加载和运行模型的代码
- 微调代码- 如 LoRA。
3、 可选:预训练。包括预训练代码和数据。多数项目不公开完整预训练代码与原始训练数据(算力 / 成本 / 合规原因);
- 训练代码和脚本
- 训练数据集(但大模型通常不会完全公开)
- 数据处理pipeline
- 训练配置文件
2.2 开源模型
2.2.1 通用文本大模型
1、Llama 3(Meta)
- 参数:8B/70B(主流),另有 405B MoE;.safetensors权重,MIT 协议商用友好
- 预训练:公开训练细节,不开放完整预训练代码与原始数据;训练 token 超 15T,上下文 8k→32k
- 微调 & 推理:GitHub 有推理脚本、LoRA/QLORA 微调代码;支持 Transformers/vllm 部署,Mac 可 4-bit 量化跑 8B
2、 Qwen3(阿里)
- 参数:7B-235B,Apache 2.0;.bin/.safetensors,中文强、长上下文 1M
- 预训练:仅公开架构与训练配置,不开放原始数据和完整预训练代码
- 微调 & 推理:GitHub 提供 SFT/RLHF/DPO 脚本,支持 LoRA/QLORA;vllm 推理速度快,Mac 可跑 7B
3、DeepSeek V3.2
- 参数:7B/67B/33B MoE,MIT 协议;代码 / 数学推理强
- 预训练:公开训练日志与技术报告,不开放完整预训练代码和原始数据
- 微调 & 推理:GitHub 含推理与 LoRA 微调代码,适配 vllm/Transformers,轻量部署友好
4、GLM-4.6(智谱)
- 参数:9B/65B,商用友好;128K 上下文,工具调用强
- 预训练:公开架构,不开放完整预训练代码与原始数据
- 微调 & 推理:GitHub 有微调脚本(含 LoRA),推理支持 Transformers/XTuner,适配 Mac 量化部署
2.2.2 多模态
1、Qwen-VL 3:阿里,图文理解 / 生成,医疗影像等场景表现优。
2.2.3 垂直
1、代码:Qwen3-Coder、DeepSeek-Coder,基准测试表现顶尖。
2、数学:DeepSeek-Math、GLM-4-Math,复杂推理能力突出。
3、视频:阿里 Wan2.2,电影级视频生成,开源生态完善。
2.3 如果不开源是不是没有办法做微调(如 LoRA)
不是的!不开源训练数据和训练代码,完全不影响做微调(包括LoRA)。
做微调(LoRA、全参数微调等)只需要:
✅ 模型权重 – 主流模型都已开源
- 完全开源: 代码 + 权重 + 训练数据都公开(如 Llama 2/3, Mistral)
- 权重开放: 只提供模型权重(如早期的 BLOOM, OPT)
- 闭源: 只能通过 API 访问(如 GPT-4, Claude)
✅ 模型架构信息 – 也都公开了
✅ 你自己的微调数据 – 根据你的任务准备
✅ 微调框架/工具 – 开源工具很多




