• English
  • 網站地圖
  • 回CONCERT
  • 回STPI
Bg

向你的研究人員介紹文字探勘(Text Mining)

2017.01.17

文字探勘(Text Mining)讓研究人能夠分析巨量資料並獲取答案,相較以往,更能有效迅速地開發新思想與觀念,最近Publishing Research Consortium的一份調查顯示研究人員並無察覺到文字探勘技術的重要性,3/4的回覆者從沒應用過這個技術,其中有2/3甚至在調查前根本沒聽過文字探勘這個名詞。

圖書館員在提升文字探勘的意識和使用扮演關鍵性角色,以下為五個協助研究人員認識文字探勘的方法。

1. 文字探勘是一種可以協助研究人員完成下個研究計畫的有力工具,文字探勘利用電腦化的工具,從原始資料中去自動檢索、摘錄和分析大量的文字,同樣地,資料探勘亦利用相同的技術去分析資料庫和統計資訊,統稱TDM(Text & Data Mining)。

2. 文字探勘不只是一種檢索過程,它運用自然語言處理(NLP),即機器學習(Machine Learning)來協助瞭解大量資訊中的連結和模式,分析所有潛在資源以洞悉資源間的新關聯。

3. 文字探勘還在實驗階段,需要專業的工具及部份的程式設計知識,尤其對科學、技術和醫學的內容而言,文字探勘還在初始階段,典型的文字探勘工具是針對一般性的網路內容如新聞或社交媒體PO文,這種型態的內容非常不同於專業學術文章,有其獨特行話和縮寫字,因此作為專業學科的研究者,將會需要特別訂作的工具。

4. 文字探勘需要巨量文章和圖書章節的大量下載,應用程式界面(Application Programming Interfaces, APIs)讓文字探勘更容易去下載巨量內容,且快速回覆結果,減少整體的下載時間。

5. 立即存取學術性內容進行文字探勘,可使用Crossref TDM service和Crossref Metadata API來存取經過Crossref DOIs識別超過4.000個參與出版社的全文內容,Elsevier也支援研究者非商業目的之文字探勘,所有的期刊和圖書章節都轉換成XML,一種透過API的機讀格式。

閱讀全文- Introducing your researchers to text mining: 5 first steps