【李宏毅-生成式AI】Spring 2024, HW6:Learning from Human Preference
Task Overview 使用RLHF(Reinforcement Learning from Human Feedback)训练LLM,使它输出符合人类偏好的回答。这个过程也称为‘Alignment’,中文翻译作‘对齐’。具体‘对齐’什么东西呢?‘对齐’人类的喜好和偏向。 本次作业的目标是训练一个”支持漫画真人化“的LLM。如下图所示,在Alignment之前,模型输出”中立“的回答...