Annotador Principal de Código / Ingeniero de Evaluación de Modelos de Lenguaje Grande (LLM) (Contrato)
💡 Consejo para tu postulación: Al hacer clic en "Postular gratis en Braintrust", serás redirigido al sitio oficial de Braintrust. Es 100% gratis para ti y nos ayuda a mantener la plataforma gracias a las comisiones de recomendación.
⚠️ Nota de traducción: Esta información se ha traducido con IA. Si hay imprecisiones o ambigüedades, prevalece la versión original en inglés.
Descripción del Puesto
Este es un contrato inicial de 6 meses con posibilidad de extensión a largo plazo. Ubicación: Con sede en París preferentemente; alternativamente, modalidad remota en Europa para candidatos destacados
Estamos desarrollando y evaluando modelos de lenguaje grande (LLM) de última generación y buscamos ingenieros de software experimentados para unirse a nuestro equipo de evaluación y anotación. Este rol combina ingeniería de software del mundo real, evaluación de modelos e inteligencia artificial aplicada, y es fundamental para mejorar la confiabilidad, razonamiento y calidad del código de los modelos.
Diseñarás tareas de codificación complejas, evaluarás las salidas de los modelos contra benchmarks rigurosos, identificarás modos de fallo y contribuirás a flujos de trabajo de aprendizaje por refuerzo y mejora de modelos.
Este no es un rol de anotación junior. Buscamos profesionales con amplia experiencia práctica en codificación que puedan pensar como ingenieros y evaluadores simultáneamente.
Funciones Principales
- Crear prompts de codificación de alta calidad y respuestas de referencia (estilo benchmark, ej.: problemas similares a SWE-Bench).
- Evaluar salidas de LLM para generación de código, refactorización, depuración e implementación de tareas.
- Identificar y documentar fallos del modelo, casos límite y lagunas en el razonamiento.
- Realizar evaluaciones comparativas entre LLMs privados (basados en Mistral) y modelos externos líderes.
- Construir o configurar entornos de codificación para apoyar evaluación y aprendizaje por refuerzo (RL).
- Seguir con precisión las pautas de anotación y evaluación con alta consistencia.
Requisitos
- 10+ años de experiencia profesional en desarrollo de software
- Dominio sólido de Python (requerido)
- Conocimiento de al menos un lenguaje de programación adicional (valorable)
- 1+ año de experiencia en anotación de código y/o evaluación de LLM (a tiempo parcial válido) en un laboratorio de IA avanzada o empresa de infraestructura de IA
- Experiencia previa como revisor de código es un plus
- Capacidad demostrada para aplicar criterios estructurados de evaluación y redactar retroalimentación técnica clara
- Dominio fluido del inglés (escrito y hablado)
- Experiencia liderando equipos o mentoría es un fuerte plus
Ventajas del Puesto
- Trabajar directamente con LLMs de vanguardia
- Aplicar criterios de ingeniería práctica a la evaluación y mejora de modelos
- Trabajo técnico de alto impacto con un equipo senior y enfocado
Recibe alertas de empleo personalizadas