首席代码标注员/大语言模型评估工程师(合同工)
3 小时前发布|牙买加|$75-$90/小时|Freelance|10 年以上经验|Leading AI Lab
Data AnnotationSoftware EngineeringPython
💡 申请小贴士: 点击下方按钮会跳转到 Braintrust 官网申请。完全免费,同时也支持我们平台运营。
⚠️ 翻译说明: 本职位信息由AI翻译,如有任何不准确或歧义之处,请以英文原版为准。
职位概述
本职位为合同制岗位,初始合同期为6个月,表现优异者可转为长期合作。 工作地点:优先考虑巴黎本地候选人;若候选人条件优秀,也可接受欧洲地区远程办公
我们正在构建并评估最先进的大语言模型(LLMs),并正在寻找经验丰富的软件工程师加入我们的评估与标注团队。该职位融合了实际软件工程、模型评估与应用人工智能三大领域,对提升模型可靠性、推理能力及代码质量具有关键作用。
你将设计具有挑战性的编码任务,基于严格基准评估模型输出,识别故障模式,并参与强化学习与模型优化流程。
这并非初级标注岗位。我们希望寻找具备深厚编码实践经验,能够同时以工程师和评估者视角思考的从业者。
你的职责
- 创建高质量的编码提示和参考答案(基准测试风格,例如SWE-Bench类问题)。
- 评估LLM在代码生成、重构、调试及实现任务中的输出表现。
- 识别并记录模型故障、边界案例及推理缺陷。
- 在私有LLM(基于Mistral架构)与领先外部模型间开展对比评估。
- 构建或配置编码环境以支持评估与强化学习(RL)。
- 严格遵循详细的标注与评估指南并保持高度一致性。
我们的要求
- 10年以上专业软件开发经验
- 精通Python技能(必须条件)
- 掌握至少一门其他编程语言(加分项)
- 1年以上代码标注和/或LLM评估经验(兼职或全职均可),需服务于主要前沿AI实验室或AI基础设施公司
- 具备代码评审经验者优先
- 能够应用结构化评估标准并撰写清晰的技术反馈
- 英语流利(书面及口语)
- 具备团队领导或指导经验者优先
为何选择该职位
- 亲自动手实践前沿LLM技术
- 将实际工程判断应用于模型评估与优化
- 与专注且资深的团队共同完成高影响力技术工作
获取个性化职位推送
✓绝不发送垃圾邮件
✓随时可以取消订阅
✓来自顶级平台的职位