发布于 9 天前
摘要
基于TensorRT-LLM,在A100环境下对QwQ-32B模型进行int4量化推理。通过转换检查点并构建TensorRT引擎,成功运行吞吐基准测试,使用合成数据集评估性能。
探索模型量化技术,分享不同精度下的推理性能优化经验与解决方案。
基于TensorRT-LLM,在A100环境下对QwQ-32B模型进行int4量化推理。通过转换检查点并构建TensorRT引擎,成功运行吞吐基准测试,使用合成数据集评估性能。