ByteCat

大模型量化格式：GGUF

发表于 2023-03-12 更新于 2026-05-02

GGUF是一种专为LLM推理设计的优化文件格式。它通过一系列技术手段，提高了模型的加载效率和使用便捷性，对于需要在CPU上快速进行推理的场景尤为有用。

发表于 2023-03-12 更新于 2026-05-02

AWQ是比GPTQ更新的一类4bit PTQ方法，在推理部署和速度上通常更友好。

发表于 2023-03-12 更新于 2026-05-02

在纯推理场景下，GPTQ通常比普通bnb量化更注重精度保持。

发表于 2023-03-12 更新于 2026-05-02

我们也可以选择将量化后的模型进行保存，下次使用可以直接加载。

发表于 2023-03-12 更新于 2026-05-02

利用大模型量化技术可以显著地减少大模型推理部署时的显存开销。

发表于 2023-03-12 更新于 2024-05-01

通过分片可以将模型分割成小块，每个分片包含模型的较小部分，通过在不同设备上分配模型权重来解决GPU内存限制。

发表于 2023-03-12 更新于 2023-11-10

使用fastapi实现大模型单卡推理的接口版部署。

发表于 2023-03-12 更新于 2023-11-08

使用gradio实现大模型单卡推理的网页版部署。

发表于 2023-03-12 更新于 2024-05-01

同时多人对话时候保持各自对话历史。

发表于 2023-03-12 更新于 2024-01-06

大模型多显卡推理方案。