模型量化 • Shattered217のBlog

一个有趣的白日梦想家

发布于 2025-07-19

288 热度无~ Linux

摘要

这篇文章讲解如何在单卡 A100 上，通过 TensorRT-LLM 实现 Qwen3-8B 模型的量化推理，内容涵盖环境设置、模型转换及推理运行，适合关注高性能计算的开发者。