技术博客

深度分享LLM后训练、强化学习算法、框架开发和数据工程的实践经验

热门标签

DPO RLHF 对比分析后训练强化学习 LLM 测试代码高亮编程语言数学公式 KaTeX

DPO vs RLHF: 直接偏好优化的优势与局限

对比分析DPO和RLHF两种后训练方法的原理、实现和性能差异

2024年2月1日 • LLM Engineer • 包含公式

DPO RLHF 对比分析后训练

RLHF: 从人类反馈中学习的强化学习方法

深入解析RLHF算法原理、实现细节和在大语言模型训练中的应用

2024年1月15日 • LLM Engineer • 包含公式

RLHF 强化学习 LLM 后训练

代码高亮测试

测试各种编程语言的代码高亮效果，包括 Python、JavaScript、C++、CUDA 等

2024年1月12日 • LLM Engineer

测试代码高亮编程语言

数学公式渲染测试

测试 KaTeX 数学公式渲染效果，包括行内公式、块级公式和复杂数学表达式

2024年1月10日 • LLM Engineer • 包含公式

测试数学公式 KaTeX