发布于 9 天前
摘要
基于TensorRT-LLM,在A100环境下对QwQ-32B模型进行int4量化推理。通过转换检查点并构建TensorRT引擎,成功运行吞吐基准测试,使用合成数据集评估性能。
聚焦大模型从训练到落地的全流程实践,包括引擎构建、性能调优等实战技巧。
基于TensorRT-LLM,在A100环境下对QwQ-32B模型进行int4量化推理。通过转换检查点并构建TensorRT引擎,成功运行吞吐基准测试,使用合成数据集评估性能。