首頁 » News » AI基準測試Terminal-Bench升級2.0，強化任務驗證提升代理評測可靠性

AI基準測試Terminal-Bench升級2.0，強化任務驗證提升代理評測可靠性

發佈日期: 12 11 月, 2025 作者: wellchen2020

由Stanford大學與Laude Institute合作開發的終端人工智慧代理基準測試Terminal-Bench，正式推出2.0版本。新版重點在於提升任務驗證品質，確保測試結果更可靠且能被重現，並同步推出名為Harbor的雲端容器化執行框架，讓代理評測更貼近實際運作環境。