Annotatore di Codice Senior / Ingegnere di Valutazione LLM (Contratto)
💡 Suggerimento per la candidatura: Cliccando su "Candidati gratuitamente su Braintrust" verrai reindirizzato al sito ufficiale di Braintrust. È 100% gratuito per te e ci aiuta a sostenere la nostra piattaforma tramite bonus di segnalazione.
⚠️ Nota sulla traduzione: Queste informazioni sono state tradotte con l’AI. In caso di imprecisioni o ambiguità, fa fede la versione originale in inglese.
Panoramica del Ruolo
Si tratta di una collaborazione a contratto - inizialmente di 6 mesi - con possibilità di proroga. Sede: Preferibilmente Parigi; alternativamente lavoro remoto in Europa per candidati qualificati
Stiamo sviluppando e valutando modelli linguistici di grandi dimensioni (LLMs) all'avanguardia e siamo alla ricerca di ingegneri software esperti da inserire nel team di valutazione e annotazione. Questo ruolo si colloca all'incrocio tra ingegneria software pratica, valutazione dei modelli e applicazione dell'intelligenza artificiale, ed è fondamentale per migliorare l'affidabilità, il ragionamento e la qualità del codice dei modelli.
Progetterai attività di codifica complesse, valuterai gli output dei modelli rispetto a benchmark rigorosi, identificherai i modelli di fallimento e contribuirai ai workflow di apprendimento per rinforzo e miglioramento dei modelli.
Questa non è una posizione junior per l'annotazione. Cerchiamo professionisti con una solida esperienza pratica nella programmazione, in grado di pensare come ingegneri e valutatori contemporaneamente.
Attività Principali
- Creare prompt di codifica di alta qualità e risposte di riferimento (stile benchmark, ad esempio problemi simili a SWE-Bench).
- Valutare gli output degli LLM per generazione di codice, refactoring, debug e implementazione di funzionalità.
- Identificare e documentare i fallimenti dei modelli, i casi limite e le lacune nel ragionamento.
- Effettuare valutazioni comparative tra LLM privati (basati su Mistral) e modelli esterni leader.
- Creare o configurare ambienti di codifica per supportare la valutazione e l'apprendimento per rinforzo (RL).
- Seguire con precisione le linee guida per l'annotazione e la valutazione.
Requisiti
- 10+ anni di esperienza professionale nello sviluppo software
- Ottime competenze in Python (obbligatorio)
- Conoscenza di almeno un altro linguaggio di programmazione (preferenza)
- 1+ anno di esperienza nell'annotazione di codice e/o valutazione di LLM (anche part-time) presso un laboratorio di ricerca AI avanzata o un'azienda di infrastrutture AI
- Esperienza pregressa come revisore del codice è un vantaggio
- Dimostrata capacità di applicare criteri di valutazione strutturati e redigere feedback tecnici chiari
- Fluente in inglese (scritto e parlato)
- Esperienza di leadership o mentoring è un forte vantaggio
Motivazioni
- Lavorare direttamente con LLM all'avanguardia
- Applicare il giudizio ingegneristico alla valutazione e al miglioramento dei modelli
- Lavoro tecnico di alto impatto con un team senior e focalizzato
Ricevi avvisi di lavoro personalizzati