Panoramica del Ruolo

Si tratta di una collaborazione a contratto - inizialmente di 6 mesi - con possibilità di proroga. Sede: Preferibilmente Parigi; alternativamente lavoro remoto in Europa per candidati qualificati

Stiamo sviluppando e valutando modelli linguistici di grandi dimensioni (LLMs) all'avanguardia e siamo alla ricerca di ingegneri software esperti da inserire nel team di valutazione e annotazione. Questo ruolo si colloca all'incrocio tra ingegneria software pratica, valutazione dei modelli e applicazione dell'intelligenza artificiale, ed è fondamentale per migliorare l'affidabilità, il ragionamento e la qualità del codice dei modelli.

Progetterai attività di codifica complesse, valuterai gli output dei modelli rispetto a benchmark rigorosi, identificherai i modelli di fallimento e contribuirai ai workflow di apprendimento per rinforzo e miglioramento dei modelli.

Questa non è una posizione junior per l'annotazione. Cerchiamo professionisti con una solida esperienza pratica nella programmazione, in grado di pensare come ingegneri e valutatori contemporaneamente.

Attività Principali

Creare prompt di codifica di alta qualità e risposte di riferimento (stile benchmark, ad esempio problemi simili a SWE-Bench).
Valutare gli output degli LLM per generazione di codice, refactoring, debug e implementazione di funzionalità.
Identificare e documentare i fallimenti dei modelli, i casi limite e le lacune nel ragionamento.
Effettuare valutazioni comparative tra LLM privati (basati su Mistral) e modelli esterni leader.
Creare o configurare ambienti di codifica per supportare la valutazione e l'apprendimento per rinforzo (RL).
Seguire con precisione le linee guida per l'annotazione e la valutazione.

Requisiti

10+ anni di esperienza professionale nello sviluppo software
Ottime competenze in Python (obbligatorio)
Conoscenza di almeno un altro linguaggio di programmazione (preferenza)
1+ anno di esperienza nell'annotazione di codice e/o valutazione di LLM (anche part-time) presso un laboratorio di ricerca AI avanzata o un'azienda di infrastrutture AI
Esperienza pregressa come revisore del codice è un vantaggio
Dimostrata capacità di applicare criteri di valutazione strutturati e redigere feedback tecnici chiari
Fluente in inglese (scritto e parlato)
Esperienza di leadership o mentoring è un forte vantaggio

Motivazioni

Lavorare direttamente con LLM all'avanguardia
Applicare il giudizio ingegneristico alla valutazione e al miglioramento dei modelli
Lavoro tecnico di alto impatto con un team senior e focalizzato

Annotatore di Codice Senior / Ingegnere di Valutazione LLM (Contratto)

Panoramica del Ruolo

Attività Principali

Requisiti

Motivazioni