skip to content
Usubeni Fantasy
归档
标签
关于
友链
虫洞
Close
Dark Theme
Tags
→
#Reasoning
2025/12/08
小猫都能懂的大模型原理 5 - 后训练
大语言模型后训练完整指南:SFT监督微调、RLHF人类反馈强化学习、Reasoning 推理能力训练等技术。详解如何将基础大模型训练成对话助手,提升模型实用性、安全性和推理能力。