referry - Job Search Platform Logoreferry
Alle Stellenangebote ansehen

Senior Code-Annotator / LLM-Bewertungsingenieur (Vertrag)

vor 3 Stunden|Paris|$75-$90/Std.|Freelance|10+ Jahre Erfahrung|Leading AI Lab
Data AnnotationSoftware EngineeringPython

💡 Bewerbungstipp: Ein Klick auf „Kostenlos auf Braintrust bewerben“ leitet Sie zur offiziellen Website von Braintrust weiter. Dies ist für Sie 100 % kostenlos und unterstützt unsere Plattform durch Vermittlungsboni.
⚠️ Übersetzungshinweis: Diese Stelleninformationen wurden mit KI übersetzt. Bei Unklarheiten oder Ungenauigkeiten gilt die englische Originalversion.

Stellenüberblick

Dies ist eine Vertragsanstellung – zunächst für 6 Monate – mit der Möglichkeit einer langfristigen Zusammenarbeit. Standort: Vorzugsweise Paris; alternativ Remote innerhalb Europas für geeignete Kandidaten

Wir entwickeln und bewerten modernste große Sprachmodelle (LLMs) und suchen erfahrene Softwareingenieure, die unser Bewertungs- und Annotationsteam verstärken. Diese Rolle befindet sich an der Schnittstelle von realer Softwareentwicklung, Modellbewertung und angewandter KI und ist entscheidend für die Verbesserung der Modellzuverlässigkeit, des logischen Denkens und der Code-Qualität.

Sie entwerfen herausfordernde Codieraufgaben, bewerten Modellausgaben anhand anspruchsvoller Benchmarks, identifizieren Fehlermodi und tragen zu Verstärkendem Lernen (Reinforcement Learning) sowie Modellverbesserungs-Workflows bei.

Dies ist keine Junior-Rolle. Wir suchen Praktiker:innen mit umfassender praktischer Codiererfahrung, die sowohl wie Ingenieur:innen als auch wie Bewertungsspezialist:innen denken können.

Ihre Aufgaben

  • Erstellen hochwertiger Codierungsanfragen und Referenzantworten (benchmark-ähnlich, z. B. SWE-Bench-ähnliche Probleme).
  • Bewertung von LLM-Ausgaben für Code-Erstellung, Refaktorisierung, Debugging und Implementierungsaufgaben.
  • Identifizierung und Dokumentation von Modellausfällen, Randfällen und Lücken im logischen Denken.
  • Durchführung direkter Vergleichsbewertungen zwischen privaten LLMs (Mistral-basiert) und führenden externen Modellen.
  • Erstellen oder Konfigurieren von Codierumgebungen zur Unterstützung von Bewertung und Verstärkendem Lernen (RL).
  • Sorgfältige Anwendung detaillierter Annotation- und Bewertungsrichtlinien mit hoher Konsistenz.

Ihr Profil

  • Mindestens 10 Jahre Berufserfahrung in der Softwareentwicklung
  • Solide Python-Kenntnisse (Pflicht)
  • Kenntnisse mindestens einer weiteren Programmiersprache (Vorteil)
  • Mindestens 1 Jahr Erfahrung in Codierannotation und/oder LLM-Bewertung (Teilzeit möglich) in einem führenden KI-Labor oder KI-Infrastruktur-Unternehmen
  • Erfahrung als Code-Reviewer: in von Vorteil
  • Nachweisbare Fähigkeit, strukturierte Bewertungskriterien anzuwenden und klare technische Rückmeldungen zu formulieren
  • Fließend Englisch (schriftlich und mündlich)
  • Erfahrung in Teamleitung oder Mentoring ist ein großer Vorteil

Warum diese Position

  • Praxisnahe Arbeit mit Spitzentechnologie-LLMs
  • Anwendung realer Ingenieursurteile zur Modellbewertung und -verbesserung
  • Hochwirksame, technische Arbeit mit einem fokussierten, erfahrenen Team

Job-Benachrichtigungen

💰 258 hochbezahlte Jobs

Garantiert kein Spam
Jederzeit kündbar
Jobs von Top-Plattformen