学海无涯,进一寸有一寸的欢喜

SwordFaith's Blog

Pursuing simple and universal ideas 追求简单普适的想法

研究领域

聚焦前沿技术,探索LLM训练与优化的最佳实践

后训练技术

RLHF、DPO、SFT 等后训练方法的研究与实现,提升模型对话能力和安全性

强化学习算法

PPO、SAC、DQN 等强化学习算法在大语言模型训练中的应用与优化

框架与数据

分布式训练框架开发,高质量训练数据构建与处理流程设计

最新文章

分享LLM领域的最新研究成果和技术实践

代码高亮测试

测试各种编程语言的代码高亮效果,包括 Python、JavaScript、C++、CUDA 等

测试 代码高亮