大模型量化技术(1)
利用大模型量化技术可以显著地减少大模型推理部署时的显存开销。
利用大模型量化技术可以显著地减少大模型推理部署时的显存开销。
通过分片可以将模型分割成小块,每个分片包含模型的较小部分,通过在不同设备上分配模型权重来解决GPU内存限制。
使用fastapi实现大模型单卡推理的接口版部署。
使用gradio实现大模型单卡推理的网页版部署。
同时多人对话时候保持各自对话历史。
大模型多显卡推理方案。
能在单个显卡上部署的支持中文的开源LLM推荐。
深入浅出讲解什么是GRPO。
深入浅出讲解什么是DPO。
深入浅出讲解什么是RLHF。