Stellenüberblick

Dies ist eine Vertragsanstellung – zunächst für 6 Monate – mit der Möglichkeit einer langfristigen Zusammenarbeit. Standort: Vorzugsweise Paris; alternativ Remote innerhalb Europas für geeignete Kandidaten

Wir entwickeln und bewerten modernste große Sprachmodelle (LLMs) und suchen erfahrene Softwareingenieure, die unser Bewertungs- und Annotationsteam verstärken. Diese Rolle befindet sich an der Schnittstelle von realer Softwareentwicklung, Modellbewertung und angewandter KI und ist entscheidend für die Verbesserung der Modellzuverlässigkeit, des logischen Denkens und der Code-Qualität.

Sie entwerfen herausfordernde Codieraufgaben, bewerten Modellausgaben anhand anspruchsvoller Benchmarks, identifizieren Fehlermodi und tragen zu Verstärkendem Lernen (Reinforcement Learning) sowie Modellverbesserungs-Workflows bei.

Dies ist keine Junior-Rolle. Wir suchen Praktiker:innen mit umfassender praktischer Codiererfahrung, die sowohl wie Ingenieur:innen als auch wie Bewertungsspezialist:innen denken können.

Ihre Aufgaben

Erstellen hochwertiger Codierungsanfragen und Referenzantworten (benchmark-ähnlich, z. B. SWE-Bench-ähnliche Probleme).
Bewertung von LLM-Ausgaben für Code-Erstellung, Refaktorisierung, Debugging und Implementierungsaufgaben.
Identifizierung und Dokumentation von Modellausfällen, Randfällen und Lücken im logischen Denken.
Durchführung direkter Vergleichsbewertungen zwischen privaten LLMs (Mistral-basiert) und führenden externen Modellen.
Erstellen oder Konfigurieren von Codierumgebungen zur Unterstützung von Bewertung und Verstärkendem Lernen (RL).
Sorgfältige Anwendung detaillierter Annotation- und Bewertungsrichtlinien mit hoher Konsistenz.

Ihr Profil

Mindestens 10 Jahre Berufserfahrung in der Softwareentwicklung
Solide Python-Kenntnisse (Pflicht)
Kenntnisse mindestens einer weiteren Programmiersprache (Vorteil)
Mindestens 1 Jahr Erfahrung in Codierannotation und/oder LLM-Bewertung (Teilzeit möglich) in einem führenden KI-Labor oder KI-Infrastruktur-Unternehmen
Erfahrung als Code-Reviewer: in von Vorteil
Nachweisbare Fähigkeit, strukturierte Bewertungskriterien anzuwenden und klare technische Rückmeldungen zu formulieren
Fließend Englisch (schriftlich und mündlich)
Erfahrung in Teamleitung oder Mentoring ist ein großer Vorteil

Warum diese Position

Praxisnahe Arbeit mit Spitzentechnologie-LLMs
Anwendung realer Ingenieursurteile zur Modellbewertung und -verbesserung
Hochwirksame, technische Arbeit mit einem fokussierten, erfahrenen Team

Senior Code-Annotator / LLM-Bewertungsingenieur (Vertrag)

Stellenüberblick

Ihre Aufgaben

Ihr Profil

Warum diese Position