LLM 算法工程师
专注于后训练、强化学习算法、框架和数据研发的技术分享
研究领域
后训练技术
RLHF、DPO、SFT 等后训练方法的研究与实现,提升模型对话能力和安全性
强化学习算法
PPO、SAC、DQN 等强化学习算法在大语言模型训练中的应用与优化
框架与数据
分布式训练框架开发,高质量训练数据构建与处理流程设计
专注于后训练、强化学习算法、框架和数据研发的技术分享
RLHF、DPO、SFT 等后训练方法的研究与实现,提升模型对话能力和安全性
PPO、SAC、DQN 等强化学习算法在大语言模型训练中的应用与优化
分布式训练框架开发,高质量训练数据构建与处理流程设计