0%

在纯推理场景下,GPTQ通常比普通bnb量化更注重精度保持。

我们也可以选择将量化后的模型进行保存,下次使用可以直接加载。

利用大模型量化技术可以显著地减少大模型推理部署时的显存开销。

通过分片可以将模型分割成小块,每个分片包含模型的较小部分,通过在不同设备上分配模型权重来解决GPU内存限制。

能在单个显卡上部署的支持中文的开源LLM推荐。