大模型单卡推理的接口版部署