如何用 R 快速了解科研領域?
來自專欄玉樹芝蘭53 人贊了文章
用好 R 環境下的 BiblioShiny 軟體包 ,可以讓你在友好的圖形化界面,快速掃描科研領域。
場景
作為一個初學者,你可能很希望快速了解一個新的科研領域。
誠然,影響因子和排名等指標,可以告訴你這個領域裡哪個期刊比較好。但是,作為研究者,你如果只了解到這一層次,還是過於粗淺。
我自己的好奇心,往往會指向某個研究領域的3個問題:
- 哪些作者比較厲害?
- 哪些文獻比較重要?
- 哪些主題更值得研究?
這幾個問題,你可以採用不同的文獻計量工具來解答。有的很容易完成,有的大概需要一些基礎知識和技能。
我最近關注到了一款工具,可以非常便捷地幫你一站式解答上述三個問題。
工具
這款工具的名稱,叫做 BiblioShiny 。它是一款 R 環境下的軟體包。
其實它的底層,你可能聽說過,就是大名鼎鼎的 Bibliometrix 。
我是去年聽同事宋麗萍教授提到它後,開始關注的。很快嘗試後,覺得 Bibliometrix 這款基於 R 軟體包功能果然很強大。不過,那時覺得 Bibliometrix 的用戶界面還不夠友好。
Bibliometrix 的各項操作,都需要程序指令完成。雖然對於文科生來說,門檻並不算太高。但是光看命令手冊,可能還是會令不少人喪失嘗試的衝動。
最近我突然發現, Bibliometrix 的作者們在原先功能的基礎上,添加了 Shiny 作為交互可視化用戶界面,於是軟體易用性大幅提升。
你只需要動動滑鼠,就可以輕鬆完成許多文獻計量分析功能。
例如點一下菜單裡面的「Collaboration Network」按鈕,BiblioShiny 就立刻為你繪製作者合作網路圖。
統計文章年均被引趨勢?也是點一下按鈕的事兒:
軟體安裝方法很簡單。
首先下載最新版的 R 和 Rstudio。安裝的詳細步驟流程,請你參考我的《如何用Python和R對故事情節做情緒分析?》一文介紹。
安裝好後,在 Rstudio 中執行以下3行命令:
install.packages(「bibliometrix」, dependencies=TRUE)library(bibliometrix)biblioshiny()
當你看到瀏覽器彈出如下窗口,就說明軟體環境已經齊備了。
有了工具,下面我們就需要數據了。
數據
我是做信息科學的。出於近便原則,本文的樣例分析對象,是信息科學領域的一份權威期刊:Management Information Systems Quarterly (下文簡稱 MIS Quarterly)。
注意你在分析的時候,並不需要局限在某一本或者幾本期刊。完全可以使用關鍵詞搜索相關文獻。
MIS Quarterly 的文獻數據,我是從 Web of Science 下載的。
我對結果進行了精鍊,只選擇了其中的 Articles 類型。
一共 743 篇文章,導出選擇的格式,為 BibTex 。
因為 Web of Science 每次導出記錄數量,不能超過500,因此前後下載了2個 BibTex 格式文件。
我把它們打包成了一個 zip 文件(Archive.zip
)。這個文件,我為你放在了這個位置(http://t.cn/EPIs99X)。你可以直接下載使用。
如果你希望自己從 Web of Science 下載文獻記錄,可以參考我的研究生吳查科和同學合作的這份視頻教程(http://t.cn/EPIsjtk)。教程是關於 VosViewer 的。但其中4分鐘以後,就有 Web of Science 文獻記錄檢索和導出的完整介紹與展示。
在 Biblioshiny 中,選擇 Load ,把 file format 設定為 bibtex,選擇壓縮文件,即Archive.zip
,開始上傳。
導入完畢後,展示結果列表如下:
軟體有了,數據也有了。
下面我給你展示一下,如何解答前面提到的那3個問題,以快速熟悉科研領域。
作者
第一個問題是:
哪些作者比較厲害?
我們先來看看發文數量。能在 MIS Quarterly 這樣的頂刊(而且還是季刊)發文,是有相當高的門檻的。因此這裡的發文數量能夠反映作者的科研能力。
點擊進入 Descriptive Analysis 標籤頁面。
選擇 Tables 。
左側 Result 類型,可以在下拉列表選擇。我們選擇「Most Productive Authors」(最高產作者)。
分析結果如下:
(插一句,我發現自己的 Facebook 好友也出現在榜單里,立刻有了一種沒來由的自豪感。)
排名首位的這位老兄,讓我看得肅然起敬——他居然發表了 23 篇 MIS Quarterly !我沒看錯吧?好像全部文獻記錄條數也只有700多篇。
懷著好奇心,我在 Google 搜索了一下。
Viswanath Venkatesh is a distinguished professor and Billingsley Chair in Information Systems at the Walton College of Business, University of Arkansas.
Venkatesh 是阿肯色大學教授。我在他的主頁,查了一下發表記錄,再次震驚了!
他哪裡是在投稿?分明是灌水的節奏!
作為季刊,2013年,全部4期上面各有一篇他的文章!
但是,科研論文的數量固然重要,質量也是要保證的嘛。
這種頻率發文,質量能保證嗎?
帶著這個疑問,我們來考察一下第二個問題。
文獻
還記得嗎?我們的第二個問題就是:
哪些文獻比較重要?
這個問題,其實不是那麼容易解答。
下載次數多的論文,是不是很重要?
在社交媒體上流傳最廣的論文,是不是很重要?
目前,學界基本能夠達成共識的判斷標準,還是看論文被引用的情況。
Biblioshiny 可以輕易幫助我們分析論文的 Historiograph ,以便讓我們了解哪些論文在學科發展歷史上,具有重要的地位。
方法是選擇「Intellectual Structure」菜單之下的「Historiograph」。
用默認的參數,我們可以看到數據集中這20篇文獻,重要性較高。
點擊 Table 標籤頁,我們看看列表展示的具體信息。
注意這裡展示了2項統計指標,一個是 GCS
,也就是 Web of Science 中,文獻被引統計總數;另一項是 LCS
,即當前數據集里,文獻被引次數。
假設一篇文獻 GCS
很高,但是 LCS
不高,很可能意味著在其他領域影響力更大。不過因為我們只找了一份期刊,因此這個因素不宜過度解讀。
我們注意到,其中有一篇文獻,兩項指標都是驚人的。
這篇大作, LCS
為44(注意是被 MIS Quarterly 的其他文章引用),GCS
居然達到了6634。
這篇文獻,簡直就是一覽眾山小啊!
想必你也很關心——誰寫的?
往左側的名稱信息里一瞥,我們隨即看到了非常熟悉的名字。
沒錯,還是 Venkatesh 教授!
看來,這種頻率發文,質量也依然是有保障的。
這……是不是叫做天才?
主題
鎖定了領域的高水平作者和重要文獻後,我們來嘗試回答的第三個問題是:
哪些主題更值得研究?
首先我們得搞清楚主題都有哪些。
我們選擇做個詞雲(Word Cloud),這可以通過點擊描述分析(Descriptive Analysis)來完成。
默認繪圖結果如下:
注意這裡的辭彙,來自於 Keywords-Plus(即系統利用標題、摘要等分析結果)。
我們更換一下左側的 Field 選項,變成 Author Keywords (即作者自己列出的關鍵詞):
確實,分析結果有了差別。
我們還可以繼續嘗試,只從標題文字做詞云:
對比上面幾張圖,你有什麼發現?
我反正是看得眼花繚亂。
不過沒關係,我們可以讓 Biblioshiny 幫我們把主題歸類一下。
點擊 Conceptual Structure 菜單,選擇其中的「Correspondence Analysis」。
我們關注其中的辭彙地圖(word map):
看到這裡,你大概可以把 MIS Quarterly 的研究關注點聚焦在三個類別上。並且可以知道每個類別是如何被關鍵詞描述的。
但是,即便你知道了這些大致的研究主題分類,也依然難以抉擇,自己今後的研究方向,應該向哪裡聚焦。
因為,這隻代表了歷史和現狀。你不能看著後視鏡開車。
這時候,你可以使用 Biblioshiny 輔助決策。方法是點擊「主題地圖」(Thematic Map)選項。
主題地圖中,橫軸代表中心度,縱軸代表密度。據此繪製出4個象限。
- 第一象限(右上角):motor-themes,既重要,又已有良好發展(well-developed);
- 第二象限(左上角):very specialized/niche themes,已有良好發展,但是對於當前領域不重要;
- 第三象限(左下角):emerging or disappearing themes,邊緣主題,也沒有好的發展,可能剛剛湧現,也許即將消失;
- 第四象限(右下角):basic themes,對領域很重要,但是未獲得良好發展。一般是指基礎概念。
有了這些背景知識,再回看這張圖,就很有意思了。
請你思考一下,哪些主題更值得你投入資源和時間去深度參與呢?
小結
本文我們利用了 R 環境下的 BiblioShiny 軟體包,點擊幾下滑鼠,探索了以下3個問題:
- 哪些作者比較厲害?
- 哪些文獻比較重要?
- 哪些主題更值得研究?
當然,你會發現其實我們使用的,只是默認參數。針對你研究領域的特徵,以及文獻數量的多寡,參數的設置其實都是可以調整優化的。
而且你還會注意到,我們所展示的,只是 Biblioshiny 眾多實用分析功能里的一小部分。
希望本文給了你一個可以起步的最小行動範例。在此基礎上,如果感興趣,你可以繼續學習和充分挖掘 BiblioShiny 與 Bibliometrix 的功能,幫助自己更高效便捷地熟悉某一新科研領域。
延伸閱讀
有了興趣,該如何繼續學習呢?
首先,推薦給你這份 Bibliometrix 的官方圖文教程(http://t.cn/EPM7jKF)。
如果你喜歡看教學視頻,可以點擊這個鏈接查看。
喜歡請點贊和打賞。還可以微信關注和置頂我的公眾號「玉樹芝蘭」(nkwangshuyi)。
我這裡還有一本免費在線書,講解了科研新手入門的一些默會知識,其中也包括了不少文獻分析的內容。如果你感興趣,不妨點擊鏈接(http://t.cn/EPMzLjW)閱讀。
推薦閱讀: