在云服务器上的部署实践(3)
利用Ollama在云服务器上构建大模型后端api服务。
利用Ollama在云服务器上构建大模型后端api服务。
利用LocalAI在云服务器上构建大模型后端api服务。
在无CPU的阿里云服务器部署chatglm3-6b大模型。
AutoGGUF提供了一个图形用户界面,用于使用llama.cpp库量化GGUF模型。
GGUF是一种专为LLM推理设计的优化文件格式。它通过一系列技术手段,提高了模型的加载效率和使用便捷性,对于需要在CPU上快速进行推理的场景尤为有用。
除了运行时量化,还有一种静态量化方式。这种方式保存的模型加载起来更简单。
我们也可以选择将量化后的模型进行保存,下次使用可以直接加载。
利用大模型量化技术可以显著地减少大模型推理部署时的显存开销。
通过分片可以将模型分割成小块,每个分片包含模型的较小部分,通过在不同设备上分配模型权重来解决GPU内存限制。
使用fastapi实现大模型单卡推理的接口版部署。