Visão Geral do Cargo

Este é um contrato temporário - inicialmente de 6 meses - com potencial para continuidade de longo prazo. Localização: Com preferência para Paris; alternativamente, remoto na Europa para candidatos fortes

Estamos desenvolvendo e avaliando modelos de linguagem grandes de ponta (MLGs) e buscamos engenheiros de software experientes para ingressar em nossa equipe de avaliação e anotação. Esta função está na interseção da engenharia de software prática, avaliação de modelos e IA aplicada, e é fundamental para melhorar a confiabilidade dos modelos, raciocínio e qualidade do código.

Você desenvolverá tarefas de codificação desafiadoras, avaliará as saídas dos modelos contra benchmarks rigorosos, identificará modos de falha e contribuirá para fluxos de trabalho de aprendizado por reforço e melhoria dos modelos.

Esta é não uma função de anotação júnior. Buscamos profissionais com experiência prática profunda em codificação, capazes de pensar como engenheiros e avaliadores simultaneamente.

Suas Responsabilidades

Criar prompts de codificação de alta qualidade e respostas de referência (estilo benchmark, ex.: problemas semelhantes ao SWE-Bench).
Avaliar saídas de LLMs para geração de código, refatoração, depuração e tarefas de implementação.
Identificar e documentar falhas nos modelos, casos extremos e lacunas de raciocínio.
Realizar avaliações diretas entre LLMs privados (baseados no Mistral) e modelos externos líderes.
Desenvolver ou configurar ambientes de codificação para apoiar avaliação e aprendizado por reforço (RL).
Seguir rigorosamente diretrizes detalhadas de anotação e avaliação com alta consistência.

O Que Buscamos

10+ anos de experiência profissional em desenvolvimento de software
Habilidades sólidas em Python (obrigatório)
Conhecimento de pelo menos uma linguagem de programação adicional (desejável)
1+ ano de experiência em anotação de código e/ou avaliação de LLMs (em período parcial é aceitável) em laboratório de IA de fronteira ou empresa de infraestrutura em IA
Experiência prévia como revisor de código é um diferencial
Capacidade comprovada de aplicar critérios estruturados de avaliação e escrever feedback técnico claro
Fluência em inglês (escrita e falada)
Experiência em liderança de equipe ou mentoria é um forte diferencial

Por Que Esta Oportunidade

Trabalhar de forma prática com LLMs de ponta
Aplicar julgamento de engenharia prático na avaliação e melhoria de modelos
Realizar trabalho técnico de alto impacto com uma equipe sênior e focada

Annotator Principal de Código / Engenheiro de Avaliação de Modelos de Linguagem Grandes (MLGs) (Contrato)

Visão Geral do Cargo

Suas Responsabilidades

O Que Buscamos

Por Que Esta Oportunidade