AI基準測試Terminal-Bench升級2.0,強化任務驗證提升代理評測可靠性 發佈日期: 12 11 月, 2025 作者: wellchen2020 由Stanford大學與Laude Institute合作開發的終端人工智慧代理基準測試Terminal-Bench,正式推出2.0版本。新版重點在於提升任務驗證品質,確保測試結果更可靠且能被重現,並同步推出名為Harbor的雲端容器化執行框架,讓代理評測更貼近實際運作環境。