referry - Job Search Platform Logoreferry
Ver todas as oportunidades

Annotator Principal de Código / Engenheiro de Avaliação de Modelos de Linguagem Grandes (MLGs) (Contrato)

há 3 horas|Jamaica|$75-$90/hora|Freelance|10+ anos de experiência|Leading AI Lab
Data AnnotationSoftware EngineeringPython

💡 Dica de Candidatura: Clicar em "Candidatar-se em Braintrust de Graça" irá redirecioná-lo para o site oficial de Braintrust. Isso é 100% gratuito para você e ajuda a apoiar nossa plataforma através de bónus de indicação.
⚠️ Aviso de tradução: As informações desta vaga foram traduzidas por IA. Em caso de imprecisão ou ambiguidade, considere a versão original em inglês.

Visão Geral do Cargo

Este é um contrato temporário - inicialmente de 6 meses - com potencial para continuidade de longo prazo. Localização: Com preferência para Paris; alternativamente, remoto na Europa para candidatos fortes

Estamos desenvolvendo e avaliando modelos de linguagem grandes de ponta (MLGs) e buscamos engenheiros de software experientes para ingressar em nossa equipe de avaliação e anotação. Esta função está na interseção da engenharia de software prática, avaliação de modelos e IA aplicada, e é fundamental para melhorar a confiabilidade dos modelos, raciocínio e qualidade do código.

Você desenvolverá tarefas de codificação desafiadoras, avaliará as saídas dos modelos contra benchmarks rigorosos, identificará modos de falha e contribuirá para fluxos de trabalho de aprendizado por reforço e melhoria dos modelos.

Esta é não uma função de anotação júnior. Buscamos profissionais com experiência prática profunda em codificação, capazes de pensar como engenheiros e avaliadores simultaneamente.

Suas Responsabilidades

  • Criar prompts de codificação de alta qualidade e respostas de referência (estilo benchmark, ex.: problemas semelhantes ao SWE-Bench).
  • Avaliar saídas de LLMs para geração de código, refatoração, depuração e tarefas de implementação.
  • Identificar e documentar falhas nos modelos, casos extremos e lacunas de raciocínio.
  • Realizar avaliações diretas entre LLMs privados (baseados no Mistral) e modelos externos líderes.
  • Desenvolver ou configurar ambientes de codificação para apoiar avaliação e aprendizado por reforço (RL).
  • Seguir rigorosamente diretrizes detalhadas de anotação e avaliação com alta consistência.

O Que Buscamos

  • 10+ anos de experiência profissional em desenvolvimento de software
  • Habilidades sólidas em Python (obrigatório)
  • Conhecimento de pelo menos uma linguagem de programação adicional (desejável)
  • 1+ ano de experiência em anotação de código e/ou avaliação de LLMs (em período parcial é aceitável) em laboratório de IA de fronteira ou empresa de infraestrutura em IA
  • Experiência prévia como revisor de código é um diferencial
  • Capacidade comprovada de aplicar critérios estruturados de avaliação e escrever feedback técnico claro
  • Fluência em inglês (escrita e falada)
  • Experiência em liderança de equipe ou mentoria é um forte diferencial

Por Que Esta Oportunidade

  • Trabalhar de forma prática com LLMs de ponta
  • Aplicar julgamento de engenharia prático na avaliação e melhoria de modelos
  • Realizar trabalho técnico de alto impacto com uma equipe sênior e focada

Receba alertas de vagas personalizados

💰 258 vagas com altos salários

Sem spam, nunca
Cancele a inscrição a qualquer momento
Vagas das melhores plataformas