ByteCat

社区流行的大模型文件格式GGUF

发表于 2023-03-12 更新于 2024-05-01

GGUF是一种专为LLM推理设计的优化文件格式。它通过一系列技术手段，提高了模型的加载效率和使用便捷性，对于需要在CPU上快速进行推理的场景尤为有用。

发表于 2023-03-12 更新于 2024-12-24

除了运行时量化，还有一种静态量化方式。这种方式保存的模型加载起来更简单。

发表于 2023-03-12 更新于 2024-12-24

我们也可以选择将量化后的模型进行保存，下次使用可以直接加载。

发表于 2023-03-12 更新于 2025-02-03

利用大模型量化技术可以显著地减少大模型推理部署时的显存开销。

发表于 2023-03-12 更新于 2024-05-01

通过分片可以将模型分割成小块，每个分片包含模型的较小部分，通过在不同设备上分配模型权重来解决GPU内存限制。

发表于 2023-03-12 更新于 2023-11-10

使用fastapi实现大模型单卡推理的接口版部署。

发表于 2023-03-12 更新于 2023-11-08

使用gradio实现大模型单卡推理的网页版部署。

发表于 2023-03-12 更新于 2024-05-01

同时多人对话时候保持各自对话历史。

发表于 2023-03-12 更新于 2024-01-06

大模型多显卡推理方案。

发表于 2023-03-12 更新于 2024-04-29

能在单个显卡上部署的支持中文的开源LLM推荐。