logo logo
焦點觀點
::: 首頁 焦點觀點專欄 AI工具可挑出研究論文的錯誤

AI工具可挑出研究論文的錯誤

2025-04-01
TAG AI LLM 人工智慧 Artificial Intelligence

去年年底,全球媒體紛紛報導黑色塑膠廚具可能含有令人擔憂的致癌阻燃劑。然而,這項風險被過度渲染原始研究中的數學錯誤導致一種關鍵化學物質被誤認為超過安全標準,實際上其含量比標準低了十倍。敏銳的研究人員指出人工智慧(AI)模型可以在幾秒鐘內發現這個錯誤。

這起事件促成了兩個利用 AI 檢測科學文獻錯誤的專案誕生。Black Spatula Project 是一個開放原始碼 AI 工具,迄今已分析約 500 篇論文的錯誤。該專案由約八名開發者和數百名志工顧問組成,目前尚未公開這些錯誤,而是直接聯繫受影響的作者。

另一個名為 YesNoError 的專案則受到 Black Spatula Project 啟發,創辦人兼 AI 創業家 Matt Schlicht聲稱,該專案的 AI 工具在兩個月內已分析超過 37,000 篇論文。該網站標記出 AI 發現有問題的論文,但許多錯誤尚未經人類驗證。目前,YesNoError 網站上列出的錯誤中仍包含許多誤報,且尚未完整公開該工具的準確度報告。

這兩個專案希望研究人員在投稿至期刊前使用這些工具,而期刊則應在發表前加以審查,以避免錯誤甚至學術欺詐流入科學文獻中。

這些計畫獲得了一些研究誠信專家的初步支持,但也引發了對潛在風險的擔憂,例如這些工具可能會在尚未成熟時被惡意使用。荷蘭蒂爾堡大學的計量科學(metascience)研究員 Michèle Nuijten 表示:「這些工具能否準確找出錯誤,以及其結論是否經過驗證,這些問題必須明確說明。」她警告,如果 AI 錯誤地指控某篇論文有錯,而後來證實並無問題,可能會造成名譽損害。

Black Spatula Project YesNoError 都利用大型語言模型來檢測論文中的各種錯誤,包括事實錯誤、計算錯誤、方法論問題和引用錯誤。系統首先從論文中提取資訊,包括表格和圖片,然後生成一組複雜的指令(prompt),告訴「推理」模型(一種專門的 LLM)應檢查哪些內容,以及應尋找何種類型的錯誤。該模型可能會多次分析論文,每次檢查不同類型的錯誤,或進行交叉檢查。分析每篇論文的成本從 0.15 美元到數美元不等,具體取決於論文長度和使用的提示數量。

誤報率是一個主要障礙。Gulloso 表示,Black Spatula Project 的系統大約有 10% 的錯誤檢測是誤報。錯誤都需要由該領域的專家進行驗證,而尋找合適的專家是目前最大的瓶頸。

全文請見:https://doi.org/10.1038/d41586-025-00648-5

回索引頁