模型部署 • Shattered217のBlog

一个有趣的白日梦想家

发布于 2025-07-25

259 热度无~ Linux

摘要

基于TensorRT-LLM，在A100环境下对QwQ-32B模型进行int4量化推理。通过转换检查点并构建TensorRT引擎，成功运行吞吐基准测试，使用合成数据集评估性能。