研究表明在過去幾年中,企業越來越依賴人工智慧(AI),不僅僅是企業,甚至普通大眾也注意到了,GPT-3、DALL-E、ChatGPT和Alphacode等人工智慧模型一直是社交媒體上的熱門話題,因此,生成式AI的進步對科學界和學術界產生了影響也就不足為奇。若有研究人員用簡單的提示讓GPT-3寫了篇論文,這篇論文投稿期刊後在審查時被拒絕,但隨後又投稿至另一家期刊而被接受,結果ChatGPT被列為作者,這種趨勢如今變得愈來愈普遍 。
GPT-3是一種大型語言模型,依提示利用預訓練數據生成內容,目前已經接受了近570 GB文字的訓練,主要由各種來源的網路內容所組成,包括網頁、新聞文章、書籍,甚至是2021年前的維基百科。因此,若以自然語言輸入提示,它會利用訓練資料來識別以提供最合適的回應,可以用來完成句子、撰寫論文、做基礎數學,甚至編寫程式。
在本文中,我們將討論GPT-3和相關工具對研究的影響、潛在的問題及學術出版社可以採取哪些措施來保護他們的利益。
GPT-3自2020年左右問世,已用於開發一系列新應用程式,例如聊天機器人、翻譯工具和搜尋引擎等,最受關注的功能是它能夠生成類似人類寫的文章,GPT-3的深度學習演算法能生成草稿並協助建構你尚未完成的作品。Microsoft 計劃將該模型整合至其產品如MS Word、Powerpoint和Outlook,其他科技巨頭如Google和Amazon,也在AI領域取得進展,Google將推出對話式AI服務Bard,而Amazon網路服務正與Hugging Face公司合作創建具成本效益的AI應用程式。
ChatGPT是GPT-3的同級模型,正在徹底改變我們與機器互動的方式,透過簡單語言的提示和問題即可完成,改變一般從選單、按鈕和命令的控制,這些發展肯定會改變寫作流程,分辨是人類還是AI寫的文章將變得具有挑戰性,在學術界將引發複雜的問題,GPT-3可以列為作者嗎?版權在其中扮演何種角色?其中所牽涉到的道德規範為何?
從好的方面來說,非英語系研究者將更容易克服語言障礙,他們將能夠發表高品質的研究論文,而不必擔心文法或句法問題,而AI輔助寫作可以幫助研究人員節省時間,更能專注於統整想法、建構論點及進行更深入的分析,也可命令AI工具將論文以特定格式化輸出,通常每篇論文進行格式化要耗費14小時。 簡而言之,這些功能使研究人員能夠更快完成論文並與世界分享。這也引領一系列全新應用程式的創建:從開發電子表格公式、設計Python代碼到編寫SQL,還可以使用工具來幫助進行文獻檢索和閱讀過程。
GPT-3的產出已造成許多的問題,理所當然從抄襲剽竊到缺乏可靠性的偏見都有,一份2021年對Microprocessors and Microsystems的調查顯示,這份期刊發表了近500篇有問題的文章,包括不完整的引用文獻、科學上不正確的陳述和荒謬的內容,調查認為作者可能使用GPT和反向翻譯軟體來掩蓋抄襲並擴充他們的手稿內容。
另一個問題是GPT-3的產出可能存在偏差,該模型經過非系統性的網絡資料訓練,很容易接收到既有的刻板印象和信仰,比如種族、政治意識形態、宗教或性別等,過去就曾出現一些嚴重偏見的實例,導致具攻擊性的生成內容,若將其應用於研究,可能會因歧視性語言和不合理的同質化而污染了科學。且該模型是根據2021年的資料進行訓練的,除非您在提示中提供正確的訊息,否則可能會提供過時、無意義或不真實的內容。
歸根究柢,網路上包含我們的思想、數據和事實,但不包括前後推論、邏輯和來龍去脈,因此GPT-3無法得知何者真實或正確,以及事情為何如此。避免此問題的一種方法是使用思維鏈提示技術,包括提供範例和說明,將問題拆解以引導出正確答案。還有其他倫理和道德考量,當發表論文成為評斷研究人員能力、獲得終生職和升等與否的指標時,使用AI寫論文是否正確?如果作者使用AI工具撰寫論文,論文表現是否該歸功於AI工具而非作者本人?
首先,重要的是要認知到:
※ 大部分學術界都採用「不發表就滅亡」(publish-or-perish)的模式
※ 論文工廠和掠奪性期刊不會消失
※ 英語在學術界和科學界占主導地位
GPT-3和其他AI模型正在不斷發展,並為學術界帶來巨大潛能,然而,與寫作相關的AI技術並不新鮮,如Google Docs、MS Word 和移動鍵盤已經提供了單字和片語建議、拼字檢查和文法校正。GPT-3的寫作工具現在更進一步,不只是提供可選擇的單字列表,而是讓AI能夠以概率的方式預測和完成整個句子和段落。
同時,學術出版社需要保護其期刊的誠信,使其免受操控、假訊息、剽竊和偏見的影響,以下是出版社可以採取的一些步驟,以確保他們在面對GPT-3帶來的變化時繼續取得成功。
1. 使用AI工具進行品質控制:整合AI工具至內部審查流程中,作為品質控制的第一道防線,以確定論文是否符合期刊的範疇、檢測內容是否有複製和剽竊疑慮、格式和文法是否錯誤並評估實驗設計的適當性。它應該幫助編輯和同儕審查者處理大量投稿,減少他們的工作量,並專注於相關論文審閱。
2. 建立清晰的架構:制定AI使用政策,說明可接受的研究方法、作者必須遵守的道德標準及不遵守的後果,如果出版社計劃在工作流程中使用AI工具,必須清楚地表明如何降低流程中出現偏見的風險。
3. 監控現有論文:借助研究誠信專家、AI偵測和AI圖像檢測工具確保出版的文章沒有圖像複製抄襲、無意義的內容或曲解的片語,不符合期刊標準則撤回論文。
4. 教育論文作者:研究論文的撰寫和投稿是乏味冗長的過程,通常研究人員會需要這方面的協助,可以建置部落格或YouTube補足研究者投稿知識的落差,提高研究者對論文工廠、掠奪性期刊及使用AI工具造成倫理和道德影響的認識。此外,可利用COPE和CSE等組織建置的資源,分享有關出版倫理的議題,以確保投稿的流程符合出版社的標準。
5. 提供附加服務:由於大多數論文都是用英文發表,非英語系研究者被迫寫英文以獲得學術界認可,被許多人視為一種負擔,讓新想法見解的交流變得困難,出版社可利用AI的翻譯工具如DeepL,捕捉語言最細微的差別,並保留在翻譯中,將使出版社能收到更多投稿,出版更快速並確保非英語論文能保有原意。
6. 鼓勵開放取用:鼓勵作者將其預印本存在ArXiv等典藏庫或在Zenodozp 分享,有助於提高透明度和開放性,對於付費牆的論文,出版社應該有專門的內部團隊來驗證原始資料、尋求讀者回饋並監控網絡評論以確定其正確性和可信度。
7. 檢查投稿論文的誠信度:所有論文都透過GPT檢測器,有助於識別作者是否利用AI完成其核心理論,並利用Dimensions、Scopus和Web of Science等資料庫來檢測是否有虛假或偽造的引用,AI生成的論文經常引用不存在或與主題無關的論文。
隨著AI工具的快速發展,AI工具在科學研究和傳播中所扮演的角色愈來愈重要,影響的好壞尚無定論。一方面,它能夠將研究和知識大眾化,但另一方面,它可能會加速惡化資訊超載的問題,使更多人利用教育體系通常獎勵量化成就的缺點而佔盡便宜。學術出版社和其他利益相關者需要仔細評估AI工具的影響,並採取必要措施確保其使用不會導致欺騙或不道德的研究行為。