

概述
Open Café最近刊登了一篇文章引用了Walt Crawford的研究,他是一位因對OA的分析而在學術圖書館和OA社群中享有盛譽的圖書館員,他指出鑽石OA佔OA的比例約為33%,但listserv創辦人Rick Anderson認為Crawford的研究只統計了DOAJ列出的期刊上發表的文章,因此大大低估了支付APC的OA文章數,因為DOAJ並沒有列出hybrid期刊,而hybrid期刊有對OA收取APC費用,且是真正發表了大量OA文章的地方。Delta Think認為他們實際上可以確實掌握或說至少對hybrid OA有一些合理的估計,所以想依其所掌握資料,計算出所佔比例並測試現有AI工具針對同樣問題會產出怎樣的結果。
測試方法
Delta Think所分析的資料涵蓋2018年至2023年計五年(與Open Café貼文一致) ,另選擇「一次性」提示方式(不要求模型改進其第一次答案)來測試人工智慧處理自然而簡單的問題的能力,所詢問問題為” 鑽石開放取用佔開放取用比例是多少?列出過去5年的文章數量和比例。”
結果如下表:
AI工具 |
ChatGPT |
DeepSeek |
||||||
版本 |
4o |
4-turbo |
V3 |
|||||
測試 |
多次結果 |
多次結果 |
第一次結果 |
第二次結果 |
||||
測量項目 |
比例 |
文章數 |
比例 |
文章數 |
比例 |
文章數 |
比例 |
文章數 |
2017 |
44% |
356k |
- |
- |
- |
- |
- |
- |
2018 |
22-25% |
350k |
10% |
150k |
8.0% |
300k |
||
2019 |
22-24% |
356k |
10% |
170k |
8.5% |
320k |
||
2020 |
- |
- |
21-23% |
360k |
10-12% |
200k |
9.0% |
340k |
2021 |
- |
- |
20-22% |
365k |
12-13% |
230k |
9.5% |
360k |
2022 |
- |
- |
20% |
370k |
13-15% |
260k |
10% |
380k |
5年平均 |
||||||||
AIs |
44% |
|
22% |
|
11.5% |
|
9% |
|
Walt Crawford |
33% |
|||||||
Delta Think |
13% |
重點說明
1. Delta Think所掌握資料顯示鑽石OA佔OA比例是13%,但不同學科會有不同結果,如物理學科則佔了將近47%。
2. AI技術不斷發展,有不同版本(不同模型)可供選擇,在ChatGPT中看到了這種情況,同一AI工具不同版本給出了不同的結果;ChatGPT 4-turbo具有reason功能,啟用後,它會顯示其方法(推理),似乎可回應更詳細的結果。
3.如果多次提出相同的問題,特定模型可能會給出不同的答案;ChatGPT看起來很穩定,但DeepSeek卻有不同的結果。
4.從比例來看,ChatGPT和DeepSeek之間存在很大差異,而兩次DeepSeek嘗試之間的差異較小。DeepSeek表現非常出色,與Delta Think的分析結果接近,但兩次顯示的文章數量有很大差異,第二次嘗試回傳的文章數量與ChatGPT4-turbo相近,但比例卻相差大約2.5倍。
5.回覆的字數各不相同,ChatGPT-4o具有單一段落、單一數字的簡潔性,其他則混雜了項目符號、散文和表格。
結論
1.在使用和評估GenAI模型時,正確設定期望非常重要。他們更像是缺乏經驗的實習生,而不是經驗豐富的研究人員,需要完善提示、進行多次嘗試,並對結果進行人工判斷。
2.DeepSeek的結果出乎意料地好,雖比Delta Think估算的低了幾個百分點,但相近;ChatGPT的估值被大大高估了,或許反映了它使用了原始清單服務貼文中指出的有問題的來源。模型選擇的附加材料有助於解釋資料背後的概念和驅動因素,Delta Think的樣本和模型引用的樣本之間的差異解釋了資料中的一些差異,但無法解釋一些巨大的差異,例如文章數相近,但比例卻不同,反之亦然。
3.也許目前的GenAI模型並不是非常適合這種以數值為中心的研究。然而,他們似乎正朝著正確的方向前進。
相關資訊請見:
What proportion of OA is Diamond OA? Can AI help us find out?