查看所有工作機會

首席編碼標註員 / LLM評估工程師（合約）

3 小時前發布|牙买加|$75-$90/小時|Freelance|10 年以上經驗|Leading AI Lab

Data AnnotationSoftware EngineeringPython

💡 應徵小提示： 點擊「在 Braintrust 免費應徵」會將您導向 Braintrust 的官方網站。這對您完全免費，同時也能透過推薦獎金幫助我們營運這個平台。
⚠️ 翻譯說明： 本職缺資訊由 AI 翻譯，若有不準確或歧義之處，請以英文原版為準。

職位概覽

此為合約職缺，初期為期6個月，有機會延長合作。 地點：優先考慮巴黎在地候選人；條件優秀者可接受歐洲遠端工作

我們正在開發與評估尖端大型語言模型（LLMs），現正徵求具經驗的軟體工程師加入評估與標註團隊。此職位結合實際軟體工程、模型評估與應用人工智慧，對提升模型可靠性、推理能力與程式碼品質至關重要。

您將設計具挑戰性的編碼任務，針對嚴謹基準評估模型輸出，識別失效模式，並參與增強學習與模型優化流程。

此非初階標註職位。我們尋求具深厚實務編碼經驗，能同時以工程師與評估者思維的專業人才。

您的職責

創建高品質編碼提示與參考答案（基準測試風格，例如 SWE-Bench 類似問題）。
評估 LLM 在程式碼生成、重構、除錯與實作任務的輸出表現。
識別並記錄模型失效情形、邊際案例與推理缺口。
執行內部 LLM（基於 Mistral）與主流外部模型的直接比較評估。
建立或配置支援評估與增強學習（RL）的編碼環境。
依循詳細標註與評估指引，保持高度一致性。

我們的要求

10年以上專業軟體開發經驗
熟練的 Python 技能（必備）
精通至少一種其他程式語言（加分）
1年以上編碼標註和/或 LLM 評估經驗（可接受兼職），需曾於主要前沿 AI 實驗室或 AI 基礎架構公司任職
具備代碼審查員經驗者優先
能應用結構化評估標準並撰寫清晰技術反饋
英語流利（書寫與口語）
具備團隊領導或指導經驗者尤佳

此職位的優勢

實務操作最尖端 LLM 技術
將實際工程判斷應用於模型評估與優化
與資深團隊合作，執行高影響力技術工作

接收個人化職缺提醒

💰 258 個高薪職缺

✓絕不寄送垃圾郵件

✓隨時取消訂閱

✓職缺來自頂尖平台

在 Braintrust 免費應徵