DPO vs RLHF: 直接偏好优化的优势与局限 对比分析DPO和RLHF两种后训练方法的原理、实现和性能差异 2024年2月1日 • LLM Engineer • 包含公式 DPO RLHF 对比分析 后训练
RLHF: 从人类反馈中学习的强化学习方法 深入解析RLHF算法原理、实现细节和在大语言模型训练中的应用 2024年1月15日 • LLM Engineer • 包含公式 RLHF 强化学习 LLM 后训练