一、介绍
在大模型(Large Language Models, LLMs)的生命周期中,通常包括四个关键阶段:训练(Training)、微调(Fine-tuning)、推理(Inference) 和 部署(Deployment)。每个阶段都有其特定的技术栈、工具链和平台支持。本文将对这四个阶段所涉及的主流框架与平台进行系统性分类与详细介绍,帮助开发者和研究人员高效构建大模型应用。
一、大模型训练(Training)
大模型训练是指从零开始或基于已有架构,利用海量数据和大规模计算资源完成模型参数学习的过程。该阶段对算力、分布式训练能力和数据处理能力要求极高。
主流训练框架与平台
类别 | 框架/平台 | 特点 | 支持硬件 | 开源状态 | 官网/仓库 |
|---|
通用深度学习框架 | PyTorch | 灵活、动态图、社区活跃,支持 Hugging Face 生态 | GPU/TPU | ✅ 开源 | pytorch.org |
TensorFlow | 静态图优化好,适合生产级训练 | GPU/TPU | ✅ 开源 | tensorflow.org |
JAX | Google 推出,函数式编程 + 自动微分 + XLA 编译加速 | TPU/GPU | ✅ 开源 | github.com/google/jax |
专用大模型训练框架 | DeepSpeed (Microsoft) | ZeRO 分片、3D 并行、混合精度、支持千亿参数 | GPU | ✅ 开源 | github.com/microsoft/DeepSpeed |
Megatron-LM (NVIDIA) | 张量并行 + 流水线并行,专为 Transformer 优化 | GPU | ✅ 开源(部分) | github.com/NVIDIA/Megatron-LM |
Colossal-AI | 高效显存优化、自动并行、支持多种并行策略 | GPU | ✅ 开源 | github.com/hpcaitech/ColossalAI |
FairScale (Meta) | PyTorch 扩展,支持 FSDP(Fully Sharded Data Parallel) | GPU | ✅ 开源 | github.com/facebookresearch/fairscale |
云平台训练服务 | AWS SageMaker | 托管训练、自动扩缩容、支持自定义容器 | GPU/TPU 实例 | ❌ 商业 | aws.amazon.com/sagemaker |
Google Vertex AI | 集成 JAX/TensorFlow,支持 TPU 训练 | TPU/GPU | ❌ 商业 | cloud.google.com/vertex-ai |
Azure ML | 与 DeepSpeed 深度集成,支持大规模分布式训练 | GPU | ❌ 商业 | azure.microsoft.com/en-us/products/machine-learning |
Alibaba PAI | 支持千卡训练、ModelScope 集成 | GPU | ❌ 商业(部分开源) | help.aliyun.com/product/43012.html |
💡 提示:实际训练中常组合使用(如 PyTorch + DeepSpeed + Megatron-LM)以实现极致扩展性。
二、大模型微调(Fine-tuning)
微调是在预训练模型基础上,使用特定任务或领域的小规模数据进行参数调整,以提升模型在下游任务上的性能。近年来,参数高效微调(PEFT) 技术大幅降低了资源需求。
主流微调框架与平台
类别 | 框架/平台 | 特点 | 支持方法 | 开源状态 | 官网/仓库 |
|---|
通用微调库 | Hugging Face Transformers + Trainer | 与 datasets、accelerate 无缝集成,支持 LoRA、QLoRA 等 | Full FT, LoRA, Prefix Tuning | ✅ 开源 | huggingface.co |
🤗 PEFT (Parameter-Efficient Fine-Tuning) | 统一接口支持多种 PEFT 方法 | LoRA, AdaLoRA, Prompt Tuning, IA³ | ✅ 开源 | github.com/huggingface/peft |
Axolotl | 专为 LLM 微调设计,支持多 GPU、QLoRA、DPO | QLoRA, DPO, SFT | ✅ 开源 | github.com/OpenAccess-AI-Collective/axolotl |
Unsloth | 极速微调(比标准 LoRA 快 2–5 倍),低显存 | LoRA, QLoRA | ✅ 开源 | github.com/unslothai/unsloth |
专用微调平台 | LLaMA-Factory | 支持 100+ 模型、多算法(SFT/DPO/ORPO)、Web UI | LoRA, GaLore, DoRA | ✅ 开源 | github.com/hiyouga/LLaMA-Factory |
OpenChat | 支持 DPO、CPO、KTO 等对齐算法 | DPO, CPO, KTO | ✅ 开源 | github.com/imoneoi/openchat |
云平台微调服务 | Amazon Bedrock Model Customization | 托管式微调,无需管理基础设施 | Full/Lora-like | ❌ 商业 | aws.amazon.com/bedrock |
Google Vertex AI Model Garden | 支持 Gemma、Llama 等模型微调 | Full FT | ❌ 商业 | cloud.google.com/vertex-ai |
Alibaba ModelScope | 提供“模型即服务”,支持在线微调 | LoRA, Full FT | ✅ 部分开源 | modelscope.cn |
🔧 常用 PEFT 方法:
LoRA(Low-Rank Adaptation):冻结原权重,注入低秩矩阵。
QLoRA:4-bit 量化 + LoRA,可在 24GB 显存微调 70B 模型。
DPO(Direct Preference Optimization):替代 RLHF 的偏好对齐方法。
三、大模型推理(Inference)
推理是将训练/微调好的模型用于生成文本、回答问题等任务。核心挑战在于低延迟、高吞吐、低显存占用。
主流推理框架与平台
类别 | 框架/平台 | 特点 | 优化技术 | 支持模型 | 开源状态 |
|---|
通用推理引擎 | vLLM | PagedAttention + 连续批处理,吞吐提升 10–24x | PagedAttention, Continuous Batching | Llama, Mistral, Qwen 等 | ✅ 开源 |
Text Generation Inference (TGI) | Hugging Face 官方推理服务器,支持量化 | FlashAttention, Tensor Parallelism | 多数 HF 模型 | ✅ 开源 |
llama.cpp | CPU/GPU 推理,GGUF 量化格式,跨平台 | GGUF 量化(4-bit/5-bit) | Llama, Mistral, Phi, Qwen 等 | ✅ 开源 |
Ollama | 本地一键运行 LLM,支持 Mac/Linux/Windows | GGUF + 自动下载 | 主流开源模型 | ✅ 开源 |
高性能推理库 | TensorRT-LLM (NVIDIA) | 最大化 NVIDIA GPU 利用率,支持 FP8 | TensorRT 优化、Kernel 融合 | Llama, Falcon, GPT-J etc. | ✅ 开源(需注册) |
FasterTransformer (NVIDIA) | C++ 推理库,低延迟 | Multi-GPU, INT8 | BERT, GPT, T5 | ✅ 开源 |
DeepSpeed-Inference | 模型并行 + 量化 + 算子融合 | ZeRO-Inference, Quantization | 支持自定义模型 | ✅ 开源 |
云推理服务 | AWS SageMaker Endpoints | 自动扩缩容、A/B 测试、监控 | 支持自定义容器 | 任意模型 | ❌ 商业 |
Google Cloud Vertex AI Prediction | 与 Model Garden 集成,支持 TPU 推理 | TPU 优化 | PaLM, Gemma 等 | ❌ 商业 |
Azure AI Studio | 一键部署 Llama、Mistral 等 | 托管推理 | Meta、Mistral 模型 | ❌ 商业 |
Alibaba PAI-EAS | 弹性扩缩、GPU 共享、支持 vLLM/TGI | 多实例共享 GPU | Qwen, Baichuan 等 | ❌ 商业 |
⚡ 推理优化关键技术:
四、大模型部署(Deployment)
部署是将推理服务上线,提供 API 或 Web 界面供用户调用。需考虑可扩展性、监控、安全、成本等因素。
主流部署框架与平台
类别 | 框架/平台 | 特点 | 部署方式 | 开源状态 |
|---|
本地/私有化部署 | vLLM + FastAPI | 高吞吐 API 服务 | Docker / Kubernetes | ✅ |
TGI + Docker | 官方推荐部署方式 | Docker Compose | ✅ |
Ollama + WebUI | 本地 Web 界面(如 Open WebUI) | 本地运行 | ✅ |
LM Studio | 图形化本地部署工具(Mac/Windows) | 桌面应用 | ❌(免费) |
云原生部署 | KServe (Kubeflow) | Kubernetes 原生,支持 autoscaling | K8s CRD | ✅ |
Seldon Core | MLOps 平台,支持 A/B 测试、监控 | K8s | ✅ |
BentoML | 模型打包为 “Bento”,支持 serverless | Docker / Serverless | ✅ |
Ray Serve | 分布式模型服务,与 Ray 生态集成 | Python API | ✅ |
托管部署平台 | Hugging Face Inference Endpoints | 一键部署,自动扩缩,按秒计费 | 托管服务 | ❌(商业) |
Replicate | 支持自定义模型部署,简单 API | 托管 | ❌ |
Banana.dev / Modal / Fal.ai | Serverless GPU 推理 | 函数即服务 | ❌ |
Alibaba PAI-EAS | 支持 vLLM/TGI 镜像,国内低延迟 | 托管 | ❌ |
🌐 典型部署架构:
text
编辑
用户 → API Gateway → 负载均衡 → vLLM/TGI Pods (K8s) → 监控/日志 (Prometheus + Grafana)
五、综合对比与选型建议
阶段 | 推荐组合(开源) | 推荐组合(云服务) |
|---|
训练 | PyTorch + DeepSpeed + Megatron-LM | AWS SageMaker / Azure ML + DeepSpeed |
微调 | LLaMA-Factory / Axolotl + QLoRA | Hugging Face Endpoints / Bedrock Customization |
推理 | vLLM(GPU) / llama.cpp(CPU) | Vertex AI Prediction / PAI-EAS |
部署 | vLLM + FastAPI + K8s | Hugging Face Endpoints / Replicate |
六、结语
大模型技术栈日新月异,但核心逻辑不变:训练重规模,微调重效率,推理重速度,部署重稳定。选择合适的工具链,能显著降低开发成本与上线周期。
✅ 建议:
学术研究/小团队:优先使用 Hugging Face + vLLM + LLaMA-Factory 开源组合。
企业生产:考虑 云平台托管服务(如 Bedrock、Vertex AI)以减少运维负担。
本地私有化:Ollama + Open WebUI 或 vLLM + Docker 是理想起点。