大模型后训练之GRPO
深入浅出讲解什么是GRPO。
深入浅出讲解什么是GRPO。
深入浅出讲解什么是DPO。
深入浅出讲解什么是RLHF。
从头预训练一只超迷你LLaMA3。
评估部分,只需要看模型整体的知识掌握程度即可。
训练部分,自研pretrain模型如何训练。
数据部分,自研pretrain模型如何准备数据集。
背景部分,自研pretrain模型的意义有哪些。
大模型在部署的时候,肯定离不开一个概念,叫显存占用。这里主要来看怎么计算大模型的显存占用。
从huggingface模型仓库下载大模型文件和代码。