Tarragon
搜尋
文章
標籤
Now
RSS
"Alignment"
2026-05-12
DPO(Direct Preference Optimization)
RLHF 的簡化替代:跳過 reward model、直接從人類偏好資料 fine-tune LLM
2026-05-12
RLHF
Reinforcement Learning from Human Feedback:用人類偏好訓練的 reward model 透過 RL 對齊 LLM