Annotateur principal de code / Ingénieur d'évaluation de LLM (Contrat)
💡 Conseil pour postuler : Cliquer sur « Postuler gratuitement sur Braintrust » vous redirigera vers le site officiel de Braintrust. C'est 100 % gratuit pour vous et cela nous aide à soutenir notre plateforme grâce aux bonus de parrainage.
⚠️ Note de traduction : Ces informations ont été traduites par IA. En cas d’imprécision ou d’ambiguïté, référez-vous à la version originale en anglais.
Aperçu du rôle
C'est un engagement en contrat - initialement de 6 mois - avec un potentiel pour un engagement à long terme. Localisation : Préférablement basé à Paris ; à défaut, télétravail en Europe pour les candidats qualifiés
Nous concevons et évaluons des modèles linguistiques de grande taille (LLM) à la pointe de la technologie et recherchons des ingénieurs logiciels expérimentés pour rejoindre notre équipe d'évaluation et d'annotation. Ce poste allie ingénierie logicielle appliquée, évaluation de modèles et intelligence artificielle opérationnelle, et joue un rôle clé dans l'amélioration de la fiabilité, du raisonnement et de la qualité du code des modèles.
Vous concevrez des tâches de codage complexes, évaluerez les sorties des modèles selon des référentiels rigoureux, identifierez les modes de défaillance et contribuerez aux processus d'apprentissage par renforcement et d'optimisation des modèles.
Ce poste n'est pas destiné aux débutants. Nous recherchons des professionnels ayant une solide expérience pratique du codage et capables d'adopter à la fois une approche d'ingénieur et d'évaluateur.
Vos missions
- Créer des prompts de codage de haute qualité et des réponses de référence (au format benchmark, par exemple des problèmes inspirés de SWE-Bench).
- Évaluer les sorties des LLM pour la génération, la refonte, le débogage et l'implémentation de code.
- Identifier et documenter les défaillances des modèles, les cas limites et les lacunes de raisonnement.
- Réaliser des comparaisons directes entre des LLM privés (basés sur Mistral) et des modèles externes de référence.
- Configurer ou développer des environnements de codage pour soutenir l'évaluation et l'apprentissage par renforcement (RL).
- Appliquer avec rigueur et cohérence les consignes d'annotation et d'évaluation détaillées.
Notre recherche
- 10 ans d'expérience professionnelle minimum en développement logiciel
- Maîtrise solide de Python (obligatoire)
- Connaissance d'au moins un autre langage de programmation (un plus)
- 1 an minimum d'expérience en annotation de code et/ou en évaluation de LLM (temps partiel acceptable) au sein d'un laboratoire d'intelligence artificielle de premier plan ou d'une entreprise d'infrastructure IA
- Expérience préalable en relecture de code (un atout)
- Capacité démontrée à appliquer des critères d'évaluation structurés et à rédiger des retours techniques clairs
- Maîtrise fluide de l'anglais (écrit et parlé)
- Expérience de leadership d'équipe ou de mentorat (un fort atout)
Les atouts de ce poste
- Travailler directement sur des LLM de pointe
- Appliquer un jugement d'ingénierie pratique à l'évaluation et à l'amélioration des modèles
- Réaliser un travail technique à fort impact au sein d'une équipe expérimentée et ciblée
Recevez des alertes d'emploi personnalisées