• English
  • 網站地圖
  • 回CONCERT
  • 回STPI
Bg

生成式AI、ChatGPT和Google Bard:評估其對學術出版的影響和應用

2023.11.21

生成式AI及其典型代表ChatGPT是2023年最熱門的話題之一,一直廣受討論與爭議,作者將ChatGPT的成功歸因於完成以下四件重要的事情 —

1. 技術方面:ChatGPT創建者選擇了正確的技術,並經過訓練以符合人類價值觀並理解人類需求。

2. 工程方面:從一開始,ChatGPT就被設計為可擴展以因應實際應用,而不是作為研究原型。

3. 產品方面:OpenAI首先建構了超級應用程式ChatGPT,然後轉移到具有ChatGPT應用程式介面和外掛程式的生態系統平台。

4. 商業模式方面:OpenAI與微軟合作獲得資金和資源,瞄準B2B(企業對企業交易)市場,與Google競爭,也涵蓋B2C(企業對消費者交易)市場。

作者服務於Wiley出版社,與其團隊一直在內部評估大型語言模型(LLM)在學術出版中的潛在應用和影響,也測試了ChatGPT和Google Bard,希望研究結果能夠找到使用生成式AI的新想法,並激發相關之討論,將從以下四種在學術出版的應用來探討。

    應用於創作的生成式AI

將ChatGPT和Google Bard應用到創作過程的四個階段:提高寫作品質和可讀性;生成摘要和標題;推薦相關期刊;主題建議。檢查可讀性和寫作品質並提出改進建議是大型語言模型常見的應用。

將ChatGPT應用於手稿時,我們發現ChatGPT能夠:

1. 評估寫作品質並給予合理的反饋。

2. 理解特定術語,即使是縮寫形式,並進行糾正。

3. 用更好的句子結構和詞彙重寫手稿以提高可讀性。

Bard具有類似的功能,也可以自動計算可讀性分數,然而,它在重寫方面不如ChatGPT。至於在生成摘要和標題、推薦相關期刊、主題建議三方面,ChatGPT似乎也略勝一籌。

應用於投稿和審稿的生成式AI

在投稿和審稿階段,許多程序會受益於生成式AI,作者測試了其中五個:摘錄資訊的能力;依特定標準審查論文的新穎性、相關性和正確性;參考文獻品質分析;審稿人建議;識別個人身份資訊。

1. 摘錄資訊的能力:ChatGPT能夠成功識別標題、作者、作者所屬機構和聯絡資訊,但無法識別或消除作者和機構的分歧,也無法連結至如ORCID等公開的識別碼資料庫,最嚴重的問題是,當要求ChatGPT查詢特定論文的作者時,它反而生成並回覆假名;Bard可以回覆作者的ORCID,但有時也會生成假的ORCID。

2. 審查論文的新穎性、相關性和正確性:在審查論文關聯性的測試,ChatGPT正確識別了每個期刊最相關的論文,包括研究領域、文章類型以及哪些文章較新穎,但它難以理解複雜的科學細節,例如,有一篇材料科學論文的主題相關性,AI還高於材料科學領域。目前看來,ChatGPT對於剛開始審查的編輯輔助可能有用,這取決於如何使用科學出版物數據來訓練或調整AI模組。

3. 參考文獻品質分析:要求ChatGPT和Bard檢測自我引用,識別撤回的、有問題的或過時的參考文獻,並檢查主題差異。結果ChatGPT無法準確識別自我引用,尤其是涉及非英文名稱時;Bard則能夠找到自我引用、識別過時的參考文獻、檢查主題差異,以及按主題提供參考文獻的分類;但ChatGPT和Bard都無法檢測到撤回的參考文獻,而作者團隊的參考文獻品質分析工具可以準確且能舉證地回答這些問題。

4. 審稿人建議:在大多數情況下,出版社依靠編輯和作者的網路和知識來尋找合格的審稿人,當要求ChatGPT、Bard 和作者團隊的審稿建議者提供特定主題和論文摘要的審稿人,結果ChatGPT經常建議不存在的審稿人,而Bard有時會將論文作者建議為審稿人,但作者團隊的審稿建議服務以豐富的資訊提供更可靠的結果。

5. 識別個人身份資訊 (Personal Identifiable Information, PII):結果ChatGPT不僅理解PII的含義,而且還正確選出PII,如人名、信用卡號碼和住址等,但Bard無法識別到PII。

應用於出版的生成式AI

ChatGPT可能有助於豐富出版階段的內容,然而,它目前無法根據客戶特定的分類法來標記內容,且通常會生成假標籤或ID。

為了查看內容摘要,便將ChatGPT與作者的智能服務團隊生成的摘要進行比較,團隊從原文中選粹出重要、詳細的資訊,但可讀性不高,ChatGPT摘要的可讀性很高,但詳細資訊較少。基於這些發現,決定將團隊選粹的摘要和ChatGPT結合使用,讓ChatGPT從選粹摘要生成新的摘要,新摘要保持了細節和良好的可讀性,並規避了輸入長度的限制也降低了假資訊的風險。ChatGPT生成的摘要內容通常比Bard生成的更流暢,但在商業應用中也更昂貴,生成的細節也較少。

資助資訊對於出版品非常重要,尤其是對於OA文章,作者要求ChatGPT和Bard選取資助者和其資助ID,並連結至Crossref的資助者登記資料庫,發現ChatGPT可以正確選取資助者資訊,但無法連結獲取Crossref的資訊,而Bard選錯了四位資助者且生成一個假的Crossref ID。

在英漢自動翻譯測試中,ChatGPT的GPT-3.5版本在生物醫學摘要方面的表現不如Google和DeepL等商業工具,但對口語確實生成了不錯的效果,但GPT-4版本的ChatGPT,其功能就與商業翻譯工具一樣好。

應用於發現和傳播的生成式AI

在學術出版關鍵的傳播和發現步驟中,AI顯著提高了檢索結果的品質,同時也引進發現資訊的新方法。

在評估ChatGPT、Microsoft Bing和Google Bard時,作者詢問:「訓練大型語言模型的最新研究進展為何?」結果發現:

1. Bard速度較快,提供較詳細的答案,並且可以提出搜尋的問題。

2. Bard和ChatGPT都將其答案限制在自己的數據範圍內,雖然Microsoft Bing速度較慢,但它會根據網路檢索並提供最新相關文章的連結。

3. 與學術研究相關的問題,Bing提供的結果比Bard或ChatGPT更好。

4. ChatGPT能更理解問題,但對2021年以後世界發生的事物瞭解有限。

5. ChatGPT支持英文和中文輸入,而Bard目前僅支持英文輸入,至於Microsoft Bing,英文檢索比中文檢索更好。

經過作者及其團隊對生成式AI的評估,深刻體會到目前AI管理遠遠落後於AI能力,在發展AI的同時,關於確保AI符合人類目標和價值觀並受其控管、遵守適用法律的研究卻似乎嚴重停滯,AI內容的生成、傳播和使用都存在許多風險。AI TRiSM(Trust, Risk, and Security Management)(信賴、風險和安全管理)變得愈來愈重要,與AI生成內容相關的法律和道德問題,包括是否侵害到智慧財產權或隱私權等,都必須認真處理。

    閱讀全文- Generative AI, ChatGPT, and Google Bard: Evaluating the Impact and Opportunities for Scholarly Publishing