1.学历与专业背景:硕士或博士学历(顶尖高校或实验室优先),计算机科学、人工智能、数学、统计学、电子工程等相关专业。具备扎实机器学习理论基础,熟悉深度学习、NLP、CV 等前沿技术。在 NeurIPS、ICML、ACL、CVPR 等顶级会议或期刊发表过相关论文者优先。
2.核心技术能力:大模型技术栈:精通 Transformer 架构、自监督学习、预训练 - 微调范式;熟悉大模型训练与推理加速技术;了解多模态大模型、强化学习与大模型结合技术。
3.编程与工具:熟练使用 PyTorch 等深度学习框架,掌握分布式训练框架;熟悉 CUDA、并行计算、HPC 或云计算平台;精通 Python,熟悉 C++、Shell 者优先。
4.数学基础:具备扎实的线性代数、概率统计、优化理论、信息论基础。
5.项目经验:参与过亿级参数大模型训练、调优或部署,熟悉全流程。有开源大模型二次开发或优化经验者优先。在 NLP、CV 等领域实际场景应用过大模型技术。
6.工程能力:能独立设计实验方案,解决训练中稳定性等问题。擅长分析模型性能瓶颈并优化。有开发训练框架、工具链或模型服务化经验者优先。
7.软技能与综合素养:对技术前沿敏感,学习能力强。逻辑清晰,能独立解决复杂问题,具创新意识和抗压能力。沟通良好,能与多团队协作。理解大模型在垂直领域应用和商业化逻辑。
8.加分项:在 Kaggle、天池等竞赛中成绩优异。有开源社区贡献。熟悉大模型安全与伦理。有多语言、跨文化场景研究经验。