查看所有职位

首席代码标注员/大语言模型评估工程师（合同工）

3 小时前发布|牙买加|$75-$90/小时|Freelance|10 年以上经验|Leading AI Lab

Data AnnotationSoftware EngineeringPython

💡 申请小贴士： 点击下方按钮会跳转到 Braintrust 官网申请。完全免费，同时也支持我们平台运营。
⚠️ 翻译说明： 本职位信息由AI翻译，如有任何不准确或歧义之处，请以英文原版为准。

职位概述

本职位为合同制岗位，初始合同期为6个月，表现优异者可转为长期合作。 工作地点：优先考虑巴黎本地候选人；若候选人条件优秀，也可接受欧洲地区远程办公

我们正在构建并评估最先进的大语言模型（LLMs），并正在寻找经验丰富的软件工程师加入我们的评估与标注团队。该职位融合了实际软件工程、模型评估与应用人工智能三大领域，对提升模型可靠性、推理能力及代码质量具有关键作用。

你将设计具有挑战性的编码任务，基于严格基准评估模型输出，识别故障模式，并参与强化学习与模型优化流程。

这并非初级标注岗位。我们希望寻找具备深厚编码实践经验，能够同时以工程师和评估者视角思考的从业者。

你的职责

创建高质量的编码提示和参考答案（基准测试风格，例如SWE-Bench类问题）。
评估LLM在代码生成、重构、调试及实现任务中的输出表现。
识别并记录模型故障、边界案例及推理缺陷。
在私有LLM（基于Mistral架构）与领先外部模型间开展对比评估。
构建或配置编码环境以支持评估与强化学习（RL）。
严格遵循详细的标注与评估指南并保持高度一致性。

我们的要求

10年以上专业软件开发经验
精通Python技能（必须条件）
掌握至少一门其他编程语言（加分项）
1年以上代码标注和/或LLM评估经验（兼职或全职均可），需服务于主要前沿AI实验室或AI基础设施公司
具备代码评审经验者优先
能够应用结构化评估标准并撰写清晰的技术反馈
英语流利（书面及口语）
具备团队领导或指导经验者优先

为何选择该职位

亲自动手实践前沿LLM技术
将实际工程判断应用于模型评估与优化
与专注且资深的团队共同完成高影响力技术工作

获取个性化职位推送

💰 258 个高薪职位

✓绝不发送垃圾邮件

✓随时可以取消订阅

✓来自顶级平台的职位

在 Braintrust 免费申请