51CTO LLM推理优化与部署实战2026资源概述:

按5大模块覆盖全链路:
模块 1:LLM 推理基础
核心:推理双阶段(预填充 / 解码)、KVCache 原理与内存估算、GPU 运算与存储逻辑;
模块 2:性能指标与评估
核心:TTFT/ITL/TPS 等指标定义、业务 SLO 映射、GenAI-Perf 评测工具;
模块 3:模型压缩优化
核心:AWQ/GPTQ 量化实践、剪枝(宽度 / 深度)、知识蒸馏(Logit-only / 多层);
模块 4:运行时加速
核心:MQA/GQA 机制、FlashAttention(算子融合)、PagedAttention(动态内存)、框架选型;
模块 5:部署实战总结
核心:基于工作负载的部署策略、课程总结与进阶方向。
这堂课的教学特色是什么?
底层 + 实战双驱动:不仅讲 “怎么做”,更讲 “为什么”(如 KVCache 生成推演、GPU 运算原理);
工具化落地:每个优化环节配实战(如 GPTQ 量化工具实践、vLLM 部署演示);
指标可量化:给出实验数据(如 AWQ 量化后 PPL 变化、FlashAttention 提速倍数);
场景化选型:针对不同业务(实时聊天 / 离线批处理 / 长上下文)给出技术栈搭配;
避坑指南:覆盖框架选型、量化误差、内存碎片化等工程常见问题
学完这堂课后,同学可以运用在哪些场景?
职场优化场景:
优化现有 LLM 服务:通过 AWQ/GPTQ 量化将 7B 模型显存从 16GB 压缩至 4GB,或用 FlashAttention 将长序列(1024Token)预填充速度提升 3 倍;
硬件 / 框架选型:为企业选择适配的 GPU(如 A10G 适合中小模型、A100 适合大模型分布式推理)与推理框架(vLLM 适合开源部署、TRT-LLM 适合 NVIDIA 硬件优化);
项目落地场景:
构建检索增强生成(RAG)系统:结合量化 + PagedAttention 提升长上下文(2048Token)处理效率,降低检索延迟;
多模态推理服务:将本课程的运行时加速方案复用至图文生成模型,适配 CPU/GPU 混合部署(如手机端轻量推理);
进阶学习场景:
自研推理工具:基于课程知识扩展 GPTQ 量化工具,支持自定义模型的压缩;
开源贡献:理解 vLLM/TRT-LLM 源码,提交算子融合、内存优化等 PR。
目录结构:
进阶学习场景:
1-1 课程内容介绍.mp4
1-2 LLM推理基础-预填充与解码阶段.mp4
1-3 LLM推理基础-推理阶段与KVCache的关系.mp4
1-4 LLM推理基础-生成KVCache过程推演.mp4
1-5 LLM推理基础-为何需要对KVCache优化.mp4
1-6 LLM推理基础-如何估算模型占用内存.mp4
1-7 LLM推理基础-GPU内部运算原理与推理机制的关系.mp4
1-8 LLM推理基础-列举LLM存储介质以及如何搬运参数.mp4
1-9 LLM推理基础-优化思路-参数量化-运行时加速-IO优化.mp4
1-10 LLM推理基础-章节总结.mp4
1-11 LLM性能指标-内容介绍.mp4
1-12 LLM性能指标-推理评估指标全景图.mp4
1-13 LLM性能指标-首词生成时间.mp4
1-14 LLM性能指标-每词生成时间.mp4
1-15 LLM性能指标-端到端的请求时间.mp4
1-16 LLM性能指标-系统吞吐量TPS.mp4
1-17 LLM性能指标-业务指标SLO.mp4
1-18 LLM性能指标-评测过程与评测工具.mp4
1-19 LLM性能指标-章节总结.mp4
1-20 模型压缩-内容介绍.mp4
1-21 模型压缩-压缩策略-量化-剪枝-蒸馏.mp4
1-22 模型压缩-模型量化-参数存储空间的组成.mp4
1-23 模型压缩-模型量化前后使用的方法AWQ与GPTQ.mp4
1-24 模型压缩-AWQ针对PPL的实验结果.mp4
1-25 模型压缩-AWQ量化过程与实现-.mp4
1-26 模型压缩-GPTQ量化过程以及优化IO策略.mp4
1-27 模型压缩-GPTQ量化工具与实践.mp4
1-28 模型压缩-剪枝分类和过程详解.mp4
1-29 模型压缩-模型蒸馏分类和应用场景.mp4
1-30 模型压缩-章节总结.mp4
1-31 运行时加速方案-内容介绍.mp4
1-32 运行时加速方案-多头注意力机制原理与弊端.mp4
1-33 运行时加速方案-多头注意力计算过程与分析.mp4
1-34 运行时加速方案-MQA与GQA机制以及性能比较.mp4
1-35 运行时加速方案-GPU运算与数据传输分析.mp4
1-36 运行时加速方案-FlashAttention切块和算子.mp4
1-37 运行时加速方案-PagedAttention原理解析.mp4
1-38 运行时加速方案-持续批处理原理解析.mp4
1-39 运行时加速方案-核心推理框架选型.mp4
1-40 运行时加速方案-章节总结.mp4
1-41 推理部署实战指导与总结.mp4
01-vLLM推理实战.docx
2-1 vLLM产品介绍.mp4
2-2 vLLM分布式推理.mp4
2-3 显卡驱动安装与配置.mp4
2-4 Docker进行vLLM模型安装与部署.mp4
2-5 测试vLLM部署的大模型.mp4
2-6 vLLM分布式部署思路.mp4
2-7 系统构建网络配置和框架安装.mp4
2-8 Head和Worker节点配置创建推理集群.mp4
2-9 测试vLLM分布式部署.mp4
02-量化实战-高级.docx
3-1 量化实战-量化目的与结果介绍.mp4
3-2 量化实战-思路与实战步骤讲解.mp4
3-3 量化实战-了解硬件架构量化工具.mp4
3-4 量化实战-安装WSL与Conda.mp4
3-5 TensorRT模型优化器安装与配置.mp4
3-6 NVFP4量化格式.mp4
3-7 模型量化脚本解析与校准数据集.mp4
3-8 模型量化以及结果查看.mp4
3-9 测试量化之后模型查看返回结果.mp4
3-10 介绍EvalScope与Perf命令组成.mp4
3-11 使用EvalScope评测量化模型.mp4
3-12 介绍LLMCompressor量化工具.mp4
3-13 安装LLMCompressor.mp4
3-14 使用LLMCompressor对GPTQ-AWQ-NV.mp4
3-15 针对两种量化工具比较四种量化结果.mp4
3-16 量化实战-课程总结.mp4
《LLM推理优化与部署实战》课件.pptx

评论(0)