1 主流模型

1.1 通用模型

  • 国内:千问、Deepseek 、豆包
  • 国外:Gpt、Cluade、Gemini、
模型开发方
主要版本 / 代表性模型
核心特点 / 适用场景
GPT系列 (OpenAI)
GPT-5
GPT-5 Codex
Sora 2
全能型选手:在复杂推理、问题解决和代码生成上表现出色,是企业级AI Agent任务的可靠选择。
• 专用编码模型:GPT-5 Codex在代码生成和自测方面表现突出。
• 视频生成:Sora 2是OpenAI最新的视频和音频生成模型
Gemini系列 (Google)
Gemini 2.5 Pro
Gemini 3.0 (即将发布)
长文本与深度研究:支持100万token的上下文窗口,适合处理大型代码库、长篇文档和进行深度研究。
• 计算机使用:Gemini 2.5 Computer Use可以让AI直接控制浏览器执行点击、输入等操作,适合自动化任务。
Claude系列 (Anthropic)
Claude Sonnet 4.5
Claude Haiku 4.5
Claude Opus 4.1
均衡与写作:Sonnet 4.5在推理、写作和编码方面表现均衡,成本与前代相同。
• 高性价比:Haiku 4.5速度极快,成本低廉,性能接近Sonnet 4,适合作为子智能体或构建多智能体系统。
• 复杂推理:Opus 4.1专注于复杂的混合推理任务。
DeepSeek系列
DeepSeek-R1
DeepSeek-V3
• 国产开源之星:R1在数学、代码和逻辑推理上表现卓越,性能接近顶级闭源模型,适合希望在本地部署的企业。
• 高效架构:采用MoE架构和MLA注意力机制,在保证性能的同时实现高效推理。
通义千问系列 (阿里)
Qwen3-Max
Qwen3系列 (多版本)
万亿参数规模:Qwen3-Max是参数过万亿的模型,在多项评测中名列前茅。
• 灵活的版本:提供从0.6B到235B参数的密集和MoE版本,支持思考模式与非思考模式的融合。
豆包大模型 (字节跳动)
豆包大模型1.6
企业级应用:采用MoE稀疏架构以降低推理成本,在企业级Agent平台和全模态支持方面有广泛落地
  • 追求极致性能与可靠性:对于处理复杂、多步骤推理的核心业务AI Agent,GPT-5Claude Sonnet 4.5是目前综合能力很强的选择。
  • 处理长文档与深度研究:如果你的Agent需要分析整个代码库、长篇报告或进行深度信息综合,Gemini 2.5 Pro的百万级上下文窗口是巨大优势。
  • 构建高性价比的多智能体系统:可以考虑使用Claude Haiku 4.5作为执行具体任务的子智能体,它速度快、成本低,而用更强大的模型(如Sonnet 4.5)来做规划,这种混合模式能显著优化成本效益。
  • 关注开源与本地部署:如果需要数据隐私、定制化或控制成本,DeepSeek-R1Qwen系列LLaMA 4等都是非常优秀的开源模型,适合本地部署。
  • 侧重中文场景与垂直领域:对于中文应用,豆包文心一言通义千问GLM等国内模型在本地化理解和特定行业(如金融、政务、工业)有深入布局。

1.2 垂直方向

1、 代码:Claude Sonnet 4.5 、Gpt5、Gemini

 

 

2 开源模型

2.1 开源内容

  • 必开源:训练好的模型权重(核心)+ 推理 / 微调代码(LoRA/QLORA 为主)
  • 少开源:完整预训练代码与原始数据(算力 / 合规 / 成本原因)

1、必开:模型权重。

  • 模型权重(weights) – 训练好的模型参数,这是最关键的部分

2、标配: 模型微调。包括模型架构、推理代码、微调代码,方便直接用或二次开发

  • 模型架构 – 神经网络结构设计、层数配置等技术细节
  • 推理代码 – 用于加载和运行模型的代码
  • 微调代码- 如 LoRA。

3、 可选:预训练。包括预训练代码和数据。多数项目不公开完整预训练代码与原始训练数据(算力 / 成本 / 合规原因);

  • 训练代码和脚本
  • 训练数据集(但大模型通常不会完全公开)
  • 数据处理pipeline
  • 训练配置文件

2.2 开源模型

2.2.1 通用文本大模型

1、Llama 3(Meta)

  • 参数:8B/70B(主流),另有 405B MoE;.safetensors权重,MIT 协议商用友好
  • 预训练:公开训练细节,不开放完整预训练代码与原始数据;训练 token 超 15T,上下文 8k→32k
  • 微调 & 推理:GitHub 有推理脚本、LoRA/QLORA 微调代码;支持 Transformers/vllm 部署,Mac 可 4-bit 量化跑 8B

2、 Qwen3(阿里)

  • 参数:7B-235B,Apache 2.0;.bin/.safetensors,中文强、长上下文 1M
  • 预训练:仅公开架构与训练配置,不开放原始数据和完整预训练代码
  • 微调 & 推理:GitHub 提供 SFT/RLHF/DPO 脚本,支持 LoRA/QLORA;vllm 推理速度快,Mac 可跑 7B

3、DeepSeek V3.2

  • 参数:7B/67B/33B MoE,MIT 协议;代码 / 数学推理强
  • 预训练:公开训练日志与技术报告,不开放完整预训练代码和原始数据
  • 微调 & 推理:GitHub 含推理与 LoRA 微调代码,适配 vllm/Transformers,轻量部署友好

4、GLM-4.6(智谱)

  • 参数:9B/65B,商用友好;128K 上下文,工具调用强
  • 预训练:公开架构,不开放完整预训练代码与原始数据
  • 微调 & 推理:GitHub 有微调脚本(含 LoRA),推理支持 Transformers/XTuner,适配 Mac 量化部署

2.2.2 多模态

1、Qwen-VL 3:阿里,图文理解 / 生成,医疗影像等场景表现优。

2.2.3 垂直

1、代码Qwen3-Coder、DeepSeek-Coder,基准测试表现顶尖。

2、数学:DeepSeek-Math、GLM-4-Math,复杂推理能力突出。

3、视频:阿里 Wan2.2,电影级视频生成,开源生态完善。

 

 

2.3 如果不开源是不是没有办法做微调(如 LoRA)

不是的!不开源训练数据和训练代码,完全不影响做微调(包括LoRA)。

做微调(LoRA、全参数微调等)只需要:

✅ 模型权重 – 主流模型都已开源

  • 完全开源: 代码 + 权重 + 训练数据都公开(如 Llama 2/3, Mistral)
  • 权重开放: 只提供模型权重(如早期的 BLOOM, OPT)
  • 闭源: 只能通过 API 访问(如 GPT-4, Claude)

✅ 模型架构信息 – 也都公开了

✅ 你自己的微调数据 – 根据你的任务准备

✅ 微调框架/工具 – 开源工具很多

 

如何判断大模型是否支持微调

分类&标签