referry - Job Search Platform Logoreferry
Ver todas las oportunidades

Annotador Principal de Código / Ingeniero de Evaluación de Modelos de Lenguaje Grande (LLM) (Contrato)

hace 3 horas|Jamaica|$75-$90/hora|Freelance|10+ años de experiencia|Leading AI Lab
Data AnnotationSoftware EngineeringPython

💡 Consejo para tu postulación: Al hacer clic en "Postular gratis en Braintrust", serás redirigido al sitio oficial de Braintrust. Es 100% gratis para ti y nos ayuda a mantener la plataforma gracias a las comisiones de recomendación.
⚠️ Nota de traducción: Esta información se ha traducido con IA. Si hay imprecisiones o ambigüedades, prevalece la versión original en inglés.

Descripción del Puesto

Este es un contrato inicial de 6 meses con posibilidad de extensión a largo plazo. Ubicación: Con sede en París preferentemente; alternativamente, modalidad remota en Europa para candidatos destacados

Estamos desarrollando y evaluando modelos de lenguaje grande (LLM) de última generación y buscamos ingenieros de software experimentados para unirse a nuestro equipo de evaluación y anotación. Este rol combina ingeniería de software del mundo real, evaluación de modelos e inteligencia artificial aplicada, y es fundamental para mejorar la confiabilidad, razonamiento y calidad del código de los modelos.

Diseñarás tareas de codificación complejas, evaluarás las salidas de los modelos contra benchmarks rigurosos, identificarás modos de fallo y contribuirás a flujos de trabajo de aprendizaje por refuerzo y mejora de modelos.

Este no es un rol de anotación junior. Buscamos profesionales con amplia experiencia práctica en codificación que puedan pensar como ingenieros y evaluadores simultáneamente.

Funciones Principales

  • Crear prompts de codificación de alta calidad y respuestas de referencia (estilo benchmark, ej.: problemas similares a SWE-Bench).
  • Evaluar salidas de LLM para generación de código, refactorización, depuración e implementación de tareas.
  • Identificar y documentar fallos del modelo, casos límite y lagunas en el razonamiento.
  • Realizar evaluaciones comparativas entre LLMs privados (basados en Mistral) y modelos externos líderes.
  • Construir o configurar entornos de codificación para apoyar evaluación y aprendizaje por refuerzo (RL).
  • Seguir con precisión las pautas de anotación y evaluación con alta consistencia.

Requisitos

  • 10+ años de experiencia profesional en desarrollo de software
  • Dominio sólido de Python (requerido)
  • Conocimiento de al menos un lenguaje de programación adicional (valorable)
  • 1+ año de experiencia en anotación de código y/o evaluación de LLM (a tiempo parcial válido) en un laboratorio de IA avanzada o empresa de infraestructura de IA
  • Experiencia previa como revisor de código es un plus
  • Capacidad demostrada para aplicar criterios estructurados de evaluación y redactar retroalimentación técnica clara
  • Dominio fluido del inglés (escrito y hablado)
  • Experiencia liderando equipos o mentoría es un fuerte plus

Ventajas del Puesto

  • Trabajar directamente con LLMs de vanguardia
  • Aplicar criterios de ingeniería práctica a la evaluación y mejora de modelos
  • Trabajo técnico de alto impacto con un equipo senior y enfocado

Recibe alertas de empleo personalizadas

💰 258 empleos bien pagados

Cero spam, garantizado
Cancela tu suscripción cuando quieras
Empleos de las mejores plataformas