学海无涯，进一寸有一寸的欢喜

SwordFaith's Blog

Pursuing simple and universal ideas 追求简单普适的想法

阅读博客了解我

最新文章

分享LLM领域的最新研究成果和技术实践

DPO vs RLHF: 直接偏好优化的优势与局限

对比分析DPO和RLHF两种后训练方法的原理、实现和性能差异

2024/2/1

DPO RLHF

RLHF: 从人类反馈中学习的强化学习方法

深入解析RLHF算法原理、实现细节和在大语言模型训练中的应用

2024/1/15

RLHF 强化学习

代码高亮测试

测试各种编程语言的代码高亮效果，包括 Python、JavaScript、C++、CUDA 等

2024/1/12

测试代码高亮

查看所有文章 →