نظرة عامة على الدور

هذا عقد عمل مؤقت - لمدة 6 أشهر في البداية - مع إمكانية التمديد لفترة طويلة. الموقع: المفضل أن يكون مقره باريس؛ بديلًا العمل عن بُعد في أوروبا للمتقدمين الأقوياء

نحن نبني ونقيّم نماذج لغوية كبيرة متطورة (LLMs) ونبحث عن مهندسي برمجيات ذوي خبرة للانضمام إلى فريق التقييم والتعليق. هذا الدور يجمع بين الهندسة البرمجية التطبيقية وتقييم النماذج والذكاء الاصطناعي العملي، وهو ضروري لتحسين موثوقية النماذج وقدرتها على الاستنتاج وجودة الشيفرة البرمجية.

سوف تصمم مهام برمجة صعبة، وتقيم مخرجات النماذج مقابل مقاييس دقيقة، وتُحدّد أسباب الفشل، وتساهم في تحسين سير العمل في التعلم المعزز وتطوير النماذج.

هذا الدور ليس لمستوى مبتدئ. نحن نبحث عن ممارسين لديهم خبرة عملية عميقة في البرمجة ويمكنهم التفكير كمهندس ومقيّم في آن واحد.

ما ستقوم به

إنشاء طلبات برمجة عالية الجودة وإجابات مرجعية (بنمط اختبارات الأداء، مثل المشاكل المشابهة لـ SWE-Bench).
تقييم مخرجات النماذج اللغوية الكبيرة لتوليد الشيفرة وإعادة هندستها وإصلاح الأخطاء فيها وتنفيذ المهام.
تحديد وتوثيق حالات فشل النماذج والحالات الحدّية وثغرات الاستنتاج.
إجراء تقييمات مباشرة بين النماذج اللغوية الكبيرة الخاصة (المبنية على Mistral) والنماذج الخارجية الرائدة.
بناء أو تهيئة بيئات البرمجة لدعم التقييم والتعلم المعزز (RL).
الالتزام بتوجيهات التعليق والتقييم المفصلة بدقة عالية.

ما نبحث عنه

10 سنوات أو أكثر من الخبرة الاحترافية في تطوير البرمجيات
مهارات قوية في Python (شرط أساسي)
معرفة بلغة برمجة إضافية على الأقل (ميزة إضافية)
سنة على الأقل من خبرة التعليق البرمجي وتقييم النماذج اللغوية الكبيرة (دوام جزئي مقبول) في مختبر أبحاث ذكاء اصطناعي رائد أو شركة بنية تحتية للذكاء الاصطناعي
خبرة سابقة في مراجعة الشيفرة البرمجية ميزة إضافية
القدرة المثبتة على تطبيق معايير التقييم المنظمة وكتابة ملاحظات فنية واضحة
إجادة اللغة الإنجليزية (شفهيًا وكتابيًا)
خبرة في قيادة الفرق أو الإرشاد ميزة قوية

لماذا هذا الدور

العمل بشكل مباشر مع نماذج لغوية كبيرة متطورة
تطبيق حكم هندسي واقعي لتقييم النماذج وتحسينها
عمل تقني ذي تأثير كبير مع فريق متمرس ومُركّز

مُعلِّم رئيسي للبرمجة / مهندس تقييم النماذج اللغوية الكبيرة (عقد)

نظرة عامة على الدور

ما ستقوم به

ما نبحث عنه

لماذا هذا الدور