Annotator Principal de Código / Engenheiro de Avaliação de Modelos de Linguagem Grandes (MLGs) (Contrato)
💡 Dica de Candidatura: Clicar em "Candidatar-se em Braintrust de Graça" irá redirecioná-lo para o site oficial de Braintrust. Isso é 100% gratuito para você e ajuda a apoiar nossa plataforma através de bónus de indicação.
⚠️ Aviso de tradução: As informações desta vaga foram traduzidas por IA. Em caso de imprecisão ou ambiguidade, considere a versão original em inglês.
Visão Geral do Cargo
Este é um contrato temporário - inicialmente de 6 meses - com potencial para continuidade de longo prazo. Localização: Com preferência para Paris; alternativamente, remoto na Europa para candidatos fortes
Estamos desenvolvendo e avaliando modelos de linguagem grandes de ponta (MLGs) e buscamos engenheiros de software experientes para ingressar em nossa equipe de avaliação e anotação. Esta função está na interseção da engenharia de software prática, avaliação de modelos e IA aplicada, e é fundamental para melhorar a confiabilidade dos modelos, raciocínio e qualidade do código.
Você desenvolverá tarefas de codificação desafiadoras, avaliará as saídas dos modelos contra benchmarks rigorosos, identificará modos de falha e contribuirá para fluxos de trabalho de aprendizado por reforço e melhoria dos modelos.
Esta é não uma função de anotação júnior. Buscamos profissionais com experiência prática profunda em codificação, capazes de pensar como engenheiros e avaliadores simultaneamente.
Suas Responsabilidades
- Criar prompts de codificação de alta qualidade e respostas de referência (estilo benchmark, ex.: problemas semelhantes ao SWE-Bench).
- Avaliar saídas de LLMs para geração de código, refatoração, depuração e tarefas de implementação.
- Identificar e documentar falhas nos modelos, casos extremos e lacunas de raciocínio.
- Realizar avaliações diretas entre LLMs privados (baseados no Mistral) e modelos externos líderes.
- Desenvolver ou configurar ambientes de codificação para apoiar avaliação e aprendizado por reforço (RL).
- Seguir rigorosamente diretrizes detalhadas de anotação e avaliação com alta consistência.
O Que Buscamos
- 10+ anos de experiência profissional em desenvolvimento de software
- Habilidades sólidas em Python (obrigatório)
- Conhecimento de pelo menos uma linguagem de programação adicional (desejável)
- 1+ ano de experiência em anotação de código e/ou avaliação de LLMs (em período parcial é aceitável) em laboratório de IA de fronteira ou empresa de infraestrutura em IA
- Experiência prévia como revisor de código é um diferencial
- Capacidade comprovada de aplicar critérios estruturados de avaliação e escrever feedback técnico claro
- Fluência em inglês (escrita e falada)
- Experiência em liderança de equipe ou mentoria é um forte diferencial
Por Que Esta Oportunidade
- Trabalhar de forma prática com LLMs de ponta
- Aplicar julgamento de engenharia prático na avaliação e melhoria de modelos
- Realizar trabalho técnico de alto impacto com uma equipe sênior e focada
Receba alertas de vagas personalizados