referry - Job Search Platform Logoreferry
Vedi tutte le opportunità

Annotatore di Codice Senior / Ingegnere di Valutazione LLM (Contratto)

3 ore fa|Giamaica|$75-$90/ora|Freelance|10+ anni di esperienza|Leading AI Lab
Data AnnotationSoftware EngineeringPython

💡 Suggerimento per la candidatura: Cliccando su "Candidati gratuitamente su Braintrust" verrai reindirizzato al sito ufficiale di Braintrust. È 100% gratuito per te e ci aiuta a sostenere la nostra piattaforma tramite bonus di segnalazione.
⚠️ Nota sulla traduzione: Queste informazioni sono state tradotte con l’AI. In caso di imprecisioni o ambiguità, fa fede la versione originale in inglese.

Panoramica del Ruolo

Si tratta di una collaborazione a contratto - inizialmente di 6 mesi - con possibilità di proroga. Sede: Preferibilmente Parigi; alternativamente lavoro remoto in Europa per candidati qualificati

Stiamo sviluppando e valutando modelli linguistici di grandi dimensioni (LLMs) all'avanguardia e siamo alla ricerca di ingegneri software esperti da inserire nel team di valutazione e annotazione. Questo ruolo si colloca all'incrocio tra ingegneria software pratica, valutazione dei modelli e applicazione dell'intelligenza artificiale, ed è fondamentale per migliorare l'affidabilità, il ragionamento e la qualità del codice dei modelli.

Progetterai attività di codifica complesse, valuterai gli output dei modelli rispetto a benchmark rigorosi, identificherai i modelli di fallimento e contribuirai ai workflow di apprendimento per rinforzo e miglioramento dei modelli.

Questa non è una posizione junior per l'annotazione. Cerchiamo professionisti con una solida esperienza pratica nella programmazione, in grado di pensare come ingegneri e valutatori contemporaneamente.

Attività Principali

  • Creare prompt di codifica di alta qualità e risposte di riferimento (stile benchmark, ad esempio problemi simili a SWE-Bench).
  • Valutare gli output degli LLM per generazione di codice, refactoring, debug e implementazione di funzionalità.
  • Identificare e documentare i fallimenti dei modelli, i casi limite e le lacune nel ragionamento.
  • Effettuare valutazioni comparative tra LLM privati (basati su Mistral) e modelli esterni leader.
  • Creare o configurare ambienti di codifica per supportare la valutazione e l'apprendimento per rinforzo (RL).
  • Seguire con precisione le linee guida per l'annotazione e la valutazione.

Requisiti

  • 10+ anni di esperienza professionale nello sviluppo software
  • Ottime competenze in Python (obbligatorio)
  • Conoscenza di almeno un altro linguaggio di programmazione (preferenza)
  • 1+ anno di esperienza nell'annotazione di codice e/o valutazione di LLM (anche part-time) presso un laboratorio di ricerca AI avanzata o un'azienda di infrastrutture AI
  • Esperienza pregressa come revisore del codice è un vantaggio
  • Dimostrata capacità di applicare criteri di valutazione strutturati e redigere feedback tecnici chiari
  • Fluente in inglese (scritto e parlato)
  • Esperienza di leadership o mentoring è un forte vantaggio

Motivazioni

  • Lavorare direttamente con LLM all'avanguardia
  • Applicare il giudizio ingegneristico alla valutazione e al miglioramento dei modelli
  • Lavoro tecnico di alto impatto con un team senior e focalizzato

Ricevi avvisi di lavoro personalizzati

💰 258 lavori ben retribuiti

Niente spam, mai
Annulla l'iscrizione quando vuoi
Lavori dalle migliori piattaforme