referry - Job Search Platform Logoreferry
查看所有职位

首席代码标注员/大语言模型评估工程师(合同工)

3 小时前发布|牙买加|$75-$90/小时|Freelance|10 年以上经验|Leading AI Lab
Data AnnotationSoftware EngineeringPython

💡 申请小贴士: 点击下方按钮会跳转到 Braintrust 官网申请。完全免费,同时也支持我们平台运营。
⚠️ 翻译说明: 本职位信息由AI翻译,如有任何不准确或歧义之处,请以英文原版为准。

职位概述

本职位为合同制岗位,初始合同期为6个月,表现优异者可转为长期合作。 工作地点:优先考虑巴黎本地候选人;若候选人条件优秀,也可接受欧洲地区远程办公

我们正在构建并评估最先进的大语言模型(LLMs),并正在寻找经验丰富的软件工程师加入我们的评估与标注团队。该职位融合了实际软件工程、模型评估与应用人工智能三大领域,对提升模型可靠性、推理能力及代码质量具有关键作用。

你将设计具有挑战性的编码任务,基于严格基准评估模型输出,识别故障模式,并参与强化学习与模型优化流程。

这并非初级标注岗位。我们希望寻找具备深厚编码实践经验,能够同时以工程师和评估者视角思考的从业者。

你的职责

  • 创建高质量的编码提示和参考答案(基准测试风格,例如SWE-Bench类问题)。
  • 评估LLM在代码生成、重构、调试及实现任务中的输出表现。
  • 识别并记录模型故障、边界案例及推理缺陷。
  • 在私有LLM(基于Mistral架构)与领先外部模型间开展对比评估。
  • 构建或配置编码环境以支持评估与强化学习(RL)。
  • 严格遵循详细的标注与评估指南并保持高度一致性。

我们的要求

  • 10年以上专业软件开发经验
  • 精通Python技能(必须条件)
  • 掌握至少一门其他编程语言(加分项)
  • 1年以上代码标注和/或LLM评估经验(兼职或全职均可),需服务于主要前沿AI实验室或AI基础设施公司
  • 具备代码评审经验者优先
  • 能够应用结构化评估标准并撰写清晰的技术反馈
  • 英语流利(书面及口语)
  • 具备团队领导或指导经验者优先

为何选择该职位

  • 亲自动手实践前沿LLM技术
  • 将实际工程判断应用于模型评估与优化
  • 与专注且资深的团队共同完成高影响力技术工作

获取个性化职位推送

💰 258 个高薪职位

绝不发送垃圾邮件
随时可以取消订阅
来自顶级平台的职位