

位於美國加州柏克萊的非營利組織 METR 設計了近 170 項涵蓋程式設計、網路安全、一般推理和機器學習的實際任務,測量專業程式設計師完成這些任務所需的時間,建立了「人類基準」。
METR 指出2019 年 OpenAI 發布的 GPT-2無法完成任何需要人類專家超過一分鐘的任務。而 2024 年 2 月由美國新創公司 Anthropic 推出的 Claude 3.7 Sonnet 則能完成 50% 需要人類 59 分鐘完成的任務。自 2019 年以來,13 款領先 AI 模型的所需時間約每七個月翻倍一次。2024 年 AI 所需時間的增長速度加快,最新模型約每三個月翻倍一次。按照 2019-2024 年的進展速度,METR 預測 AI 模型可能會在 2029 年(甚至更早)達到能以 50% 的可靠性完成需要人類大約一個月的任務。
過去五年來,大型語言模型(LLM)的整體能力提升主因是來自大量的訓練數據量、訓練時間和模型參數增加。研究認為,AI 時間的加速主要歸因於 AI 在邏輯推理、工具使用、錯誤修正以及任務執行時的自我監測能力的提升。