post_img

Tensor-LLM 1.0.0rc4 量化推理QwQ-32B int4

摘要

基于TensorRT-LLM,在A100环境下对QwQ-32B模型进行int4量化推理。通过转换检查点并构建TensorRT引擎,成功运行吞吐基准测试,使用合成数据集评估性能。