LLM 算法工程师

专注于后训练、强化学习算法、框架和数据研发的技术分享

研究领域

后训练技术

RLHF、DPO、SFT 等后训练方法的研究与实现,提升模型对话能力和安全性

强化学习算法

PPO、SAC、DQN 等强化学习算法在大语言模型训练中的应用与优化

框架与数据

分布式训练框架开发,高质量训练数据构建与处理流程设计

最新文章

代码高亮测试

测试各种编程语言的代码高亮效果,包括 Python、JavaScript、C++、CUDA 等

测试 代码高亮