51CTO LLM推理优化与部署实战2026(夸克网盘)-三行代码

51CTO LLM推理优化与部署实战2026资源概述:

按5大模块覆盖全链路：

模块 1：LLM 推理基础
核心：推理双阶段（预填充 / 解码）、KVCache 原理与内存估算、GPU 运算与存储逻辑；
模块 2：性能指标与评估
核心：TTFT/ITL/TPS 等指标定义、业务 SLO 映射、GenAI-Perf 评测工具；
模块 3：模型压缩优化
核心：AWQ/GPTQ 量化实践、剪枝（宽度 / 深度）、知识蒸馏（Logit-only / 多层）；
模块 4：运行时加速
核心：MQA/GQA 机制、FlashAttention（算子融合）、PagedAttention（动态内存）、框架选型；
模块 5：部署实战总结
核心：基于工作负载的部署策略、课程总结与进阶方向。

这堂课的教学特色是什么？

底层 + 实战双驱动：不仅讲 “怎么做”，更讲 “为什么”（如 KVCache 生成推演、GPU 运算原理）；
工具化落地：每个优化环节配实战（如 GPTQ 量化工具实践、vLLM 部署演示）；
指标可量化：给出实验数据（如 AWQ 量化后 PPL 变化、FlashAttention 提速倍数）；
场景化选型：针对不同业务（实时聊天 / 离线批处理 / 长上下文）给出技术栈搭配；
避坑指南：覆盖框架选型、量化误差、内存碎片化等工程常见问题

学完这堂课后，同学可以运用在哪些场景？

职场优化场景：
优化现有 LLM 服务：通过 AWQ/GPTQ 量化将 7B 模型显存从 16GB 压缩至 4GB，或用 FlashAttention 将长序列（1024Token）预填充速度提升 3 倍；
硬件 / 框架选型：为企业选择适配的 GPU（如 A10G 适合中小模型、A100 适合大模型分布式推理）与推理框架（vLLM 适合开源部署、TRT-LLM 适合 NVIDIA 硬件优化）；
项目落地场景：
构建检索增强生成（RAG）系统：结合量化 + PagedAttention 提升长上下文（2048Token）处理效率，降低检索延迟；
多模态推理服务：将本课程的运行时加速方案复用至图文生成模型，适配 CPU/GPU 混合部署（如手机端轻量推理）；
进阶学习场景：
自研推理工具：基于课程知识扩展 GPTQ 量化工具，支持自定义模型的压缩；
开源贡献：理解 vLLM/TRT-LLM 源码，提交算子融合、内存优化等 PR。

目录结构:

进阶学习场景：
1-1 课程内容介绍.mp4
1-2 LLM推理基础-预填充与解码阶段.mp4
1-3 LLM推理基础-推理阶段与KVCache的关系.mp4
1-4 LLM推理基础-生成KVCache过程推演.mp4
1-5 LLM推理基础-为何需要对KVCache优化.mp4
1-6 LLM推理基础-如何估算模型占用内存.mp4
1-7 LLM推理基础-GPU内部运算原理与推理机制的关系.mp4
1-8 LLM推理基础-列举LLM存储介质以及如何搬运参数.mp4
1-9 LLM推理基础-优化思路-参数量化-运行时加速-IO优化.mp4
1-10 LLM推理基础-章节总结.mp4
1-11 LLM性能指标-内容介绍.mp4
1-12 LLM性能指标-推理评估指标全景图.mp4
1-13 LLM性能指标-首词生成时间.mp4
1-14 LLM性能指标-每词生成时间.mp4
1-15 LLM性能指标-端到端的请求时间.mp4
1-16 LLM性能指标-系统吞吐量TPS.mp4
1-17 LLM性能指标-业务指标SLO.mp4
1-18 LLM性能指标-评测过程与评测工具.mp4
1-19 LLM性能指标-章节总结.mp4
1-20 模型压缩-内容介绍.mp4
1-21 模型压缩-压缩策略-量化-剪枝-蒸馏.mp4
1-22 模型压缩-模型量化-参数存储空间的组成.mp4
1-23 模型压缩-模型量化前后使用的方法AWQ与GPTQ.mp4
1-24 模型压缩-AWQ针对PPL的实验结果.mp4
1-25 模型压缩-AWQ量化过程与实现-.mp4
1-26 模型压缩-GPTQ量化过程以及优化IO策略.mp4
1-27 模型压缩-GPTQ量化工具与实践.mp4
1-28 模型压缩-剪枝分类和过程详解.mp4
1-29 模型压缩-模型蒸馏分类和应用场景.mp4
1-30 模型压缩-章节总结.mp4
1-31 运行时加速方案-内容介绍.mp4
1-32 运行时加速方案-多头注意力机制原理与弊端.mp4
1-33 运行时加速方案-多头注意力计算过程与分析.mp4
1-34 运行时加速方案-MQA与GQA机制以及性能比较.mp4
1-35 运行时加速方案-GPU运算与数据传输分析.mp4
1-36 运行时加速方案-FlashAttention切块和算子.mp4
1-37 运行时加速方案-PagedAttention原理解析.mp4
1-38 运行时加速方案-持续批处理原理解析.mp4
1-39 运行时加速方案-核心推理框架选型.mp4
1-40 运行时加速方案-章节总结.mp4
1-41 推理部署实战指导与总结.mp4
01-vLLM推理实战.docx
2-1 vLLM产品介绍.mp4
2-2 vLLM分布式推理.mp4
2-3 显卡驱动安装与配置.mp4
2-4 Docker进行vLLM模型安装与部署.mp4
2-5 测试vLLM部署的大模型.mp4
2-6 vLLM分布式部署思路.mp4
2-7 系统构建网络配置和框架安装.mp4
2-8 Head和Worker节点配置创建推理集群.mp4
2-9 测试vLLM分布式部署.mp4
02-量化实战-高级.docx
3-1 量化实战-量化目的与结果介绍.mp4
3-2 量化实战-思路与实战步骤讲解.mp4
3-3 量化实战-了解硬件架构量化工具.mp4
3-4 量化实战-安装WSL与Conda.mp4
3-5 TensorRT模型优化器安装与配置.mp4
3-6 NVFP4量化格式.mp4
3-7 模型量化脚本解析与校准数据集.mp4
3-8 模型量化以及结果查看.mp4
3-9 测试量化之后模型查看返回结果.mp4
3-10 介绍EvalScope与Perf命令组成.mp4
3-11 使用EvalScope评测量化模型.mp4
3-12 介绍LLMCompressor量化工具.mp4
3-13 安装LLMCompressor.mp4
3-14 使用LLMCompressor对GPTQ-AWQ-NV.mp4
3-15 针对两种量化工具比较四种量化结果.mp4
3-16 量化实战-课程总结.mp4
《LLM推理优化与部署实战》课件.pptx

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

LLM推理优化与部署实战2026

51CTO LLM推理优化与部署实战2026资源概述:

按5大模块覆盖全链路：

这堂课的教学特色是什么？

学完这堂课后，同学可以运用在哪些场景？

目录结构:

评论(0)

提示：请文明发言取消回复

文章展示

Python Flask高级编程之从0到1开发《鱼书》精品项目

一站式学习Redis，从入门到高可用分布式实践

玩转机器学习之神经网络，系统入门算法工程师

AI智能体（Agent）开发实战：工业级项目案例驱动课

Hadoop系统入门+核心精讲

Python3.8系统入门+进阶 (程序员必备第二语言)

近期文章

近期评论

LLM推理优化与部署实战2026

51CTO LLM推理优化与部署实战2026资源概述:

按5大模块覆盖全链路：

这堂课的教学特色是什么？

学完这堂课后，同学可以运用在哪些场景？

目录结构:

评论(0)

提示：请文明发言 取消回复

相关文章

文章展示

近期文章

近期评论

提示：请文明发言取消回复