Tarragon

"Alignment"

2026-05-12 DPO（Direct Preference Optimization） RLHF 的簡化替代：跳過 reward model、直接從人類偏好資料 fine-tune LLM
2026-05-12 RLHF Reinforcement Learning from Human Feedback：用人類偏好訓練的 reward model 透過 RL 對齊 LLM