Artificial Analysis改版智慧指標v4.0，新增幻覺風險與研究級推理評測

發佈日期: 10 1 月, 2026 作者: wellchen2020

獨立模型評測機構Artificial Analysis更新智慧指標（Intelligence Index）至v4.0，調整評測組合，讓評測重心更貼近實務任務與可靠性行為。官方同時提醒，合成指標可用來比較模型，但仍有侷限，不必然能直接套用到每一個使用案例，並在方法論中強調評測應兼顧公平性與真實世界適用性。
Intelligence Index v4.0移除MMLU-Pro、AIME2025與LiveCodeBench等常見測試，改採新的評測組合，試圖重新拉開模型差距。

發佈留言 取消回覆

發佈留言取消回覆