如何用 R 快速了解科研領域?

如何用 R 快速了解科研領域?

來自專欄玉樹芝蘭53 人贊了文章

用好 R 環境下的 BiblioShiny 軟體包 ,可以讓你在友好的圖形化界面,快速掃描科研領域。

場景

作為一個初學者,你可能很希望快速了解一個新的科研領域。

誠然,影響因子和排名等指標,可以告訴你這個領域裡哪個期刊比較好。但是,作為研究者,你如果只了解到這一層次,還是過於粗淺。

我自己的好奇心,往往會指向某個研究領域的3個問題:

  • 哪些作者比較厲害?
  • 哪些文獻比較重要?
  • 哪些主題更值得研究?

這幾個問題,你可以採用不同的文獻計量工具來解答。有的很容易完成,有的大概需要一些基礎知識和技能。

我最近關注到了一款工具,可以非常便捷地幫你一站式解答上述三個問題。

工具

這款工具的名稱,叫做 BiblioShiny 。它是一款 R 環境下的軟體包。

其實它的底層,你可能聽說過,就是大名鼎鼎的 Bibliometrix 。

我是去年聽同事宋麗萍教授提到它後,開始關注的。很快嘗試後,覺得 Bibliometrix 這款基於 R 軟體包功能果然很強大。不過,那時覺得 Bibliometrix 的用戶界面還不夠友好。

Bibliometrix 的各項操作,都需要程序指令完成。雖然對於文科生來說,門檻並不算太高。但是光看命令手冊,可能還是會令不少人喪失嘗試的衝動

最近我突然發現, Bibliometrix 的作者們在原先功能的基礎上,添加了 Shiny 作為交互可視化用戶界面,於是軟體易用性大幅提升。

你只需要動動滑鼠,就可以輕鬆完成許多文獻計量分析功能。

例如點一下菜單裡面的「Collaboration Network」按鈕,BiblioShiny 就立刻為你繪製作者合作網路圖。

統計文章年均被引趨勢?也是點一下按鈕的事兒:

軟體安裝方法很簡單。

首先下載最新版的 R 和 Rstudio。安裝的詳細步驟流程,請你參考我的《如何用Python和R對故事情節做情緒分析?》一文介紹。

安裝好後,在 Rstudio 中執行以下3行命令:

install.packages(「bibliometrix」, dependencies=TRUE)library(bibliometrix)biblioshiny()

當你看到瀏覽器彈出如下窗口,就說明軟體環境已經齊備了。

有了工具,下面我們就需要數據了。

數據

我是做信息科學的。出於近便原則,本文的樣例分析對象,是信息科學領域的一份權威期刊:Management Information Systems Quarterly (下文簡稱 MIS Quarterly)。

注意你在分析的時候,並不需要局限在某一本或者幾本期刊。完全可以使用關鍵詞搜索相關文獻。

MIS Quarterly 的文獻數據,我是從 Web of Science 下載的。

我對結果進行了精鍊,只選擇了其中的 Articles 類型。

一共 743 篇文章,導出選擇的格式,為 BibTex 。

因為 Web of Science 每次導出記錄數量,不能超過500,因此前後下載了2個 BibTex 格式文件。

我把它們打包成了一個 zip 文件(Archive.zip)。這個文件,我為你放在了這個位置(t.cn/EPIs99X)。你可以直接下載使用。

如果你希望自己從 Web of Science 下載文獻記錄,可以參考我的研究生吳查科和同學合作的這份視頻教程(t.cn/EPIsjtk)。教程是關於 VosViewer 的。但其中4分鐘以後,就有 Web of Science 文獻記錄檢索和導出的完整介紹與展示。

在 Biblioshiny 中,選擇 Load ,把 file format 設定為 bibtex,選擇壓縮文件,即Archive.zip,開始上傳。

導入完畢後,展示結果列表如下:

軟體有了,數據也有了。

下面我給你展示一下,如何解答前面提到的那3個問題,以快速熟悉科研領域。

作者

第一個問題是:

哪些作者比較厲害?

我們先來看看發文數量。能在 MIS Quarterly 這樣的頂刊(而且還是季刊)發文,是有相當高的門檻的。因此這裡的發文數量能夠反映作者的科研能力。

點擊進入 Descriptive Analysis 標籤頁面。

選擇 Tables 。

左側 Result 類型,可以在下拉列表選擇。我們選擇「Most Productive Authors」(最高產作者)。

分析結果如下:

(插一句,我發現自己的 Facebook 好友也出現在榜單里,立刻有了一種沒來由的自豪感。)

排名首位的這位老兄,讓我看得肅然起敬——他居然發表了 23 篇 MIS Quarterly !我沒看錯吧?好像全部文獻記錄條數也只有700多篇。

懷著好奇心,我在 Google 搜索了一下。

Viswanath Venkatesh is a distinguished professor and Billingsley Chair in Information Systems at the Walton College of Business, University of Arkansas.

Venkatesh 是阿肯色大學教授。我在他的主頁,查了一下發表記錄,再次震驚了!

他哪裡是在投稿?分明是灌水的節奏!

作為季刊,2013年,全部4期上面各有一篇他的文章!

但是,科研論文的數量固然重要,質量也是要保證的嘛。

這種頻率發文,質量能保證嗎?

帶著這個疑問,我們來考察一下第二個問題。

文獻

還記得嗎?我們的第二個問題就是:

哪些文獻比較重要?

這個問題,其實不是那麼容易解答。

下載次數多的論文,是不是很重要?

在社交媒體上流傳最廣的論文,是不是很重要?

目前,學界基本能夠達成共識的判斷標準,還是看論文被引用的情況

Biblioshiny 可以輕易幫助我們分析論文的 Historiograph ,以便讓我們了解哪些論文在學科發展歷史上,具有重要的地位。

方法是選擇「Intellectual Structure」菜單之下的「Historiograph」。

用默認的參數,我們可以看到數據集中這20篇文獻,重要性較高。

點擊 Table 標籤頁,我們看看列表展示的具體信息。

注意這裡展示了2項統計指標,一個是 GCS ,也就是 Web of Science 中,文獻被引統計總數;另一項是 LCS ,即當前數據集里,文獻被引次數。

假設一篇文獻 GCS 很高,但是 LCS 不高,很可能意味著在其他領域影響力更大。不過因為我們只找了一份期刊,因此這個因素不宜過度解讀。

我們注意到,其中有一篇文獻,兩項指標都是驚人的。

這篇大作, LCS 為44(注意是被 MIS Quarterly 的其他文章引用),GCS 居然達到了6634。

這篇文獻,簡直就是一覽眾山小啊!

想必你也很關心——誰寫的?

往左側的名稱信息里一瞥,我們隨即看到了非常熟悉的名字。

沒錯,還是 Venkatesh 教授!

看來,這種頻率發文,質量也依然是有保障的。

這……是不是叫做天才?

主題

鎖定了領域的高水平作者和重要文獻後,我們來嘗試回答的第三個問題是:

哪些主題更值得研究?

首先我們得搞清楚主題都有哪些。

我們選擇做個詞雲(Word Cloud),這可以通過點擊描述分析(Descriptive Analysis)來完成。

默認繪圖結果如下:

注意這裡的辭彙,來自於 Keywords-Plus(即系統利用標題、摘要等分析結果)。

我們更換一下左側的 Field 選項,變成 Author Keywords (即作者自己列出的關鍵詞):

確實,分析結果有了差別。

我們還可以繼續嘗試,只從標題文字做詞云:

對比上面幾張圖,你有什麼發現?

我反正是看得眼花繚亂。

不過沒關係,我們可以讓 Biblioshiny 幫我們把主題歸類一下。

點擊 Conceptual Structure 菜單,選擇其中的「Correspondence Analysis」。

我們關注其中的辭彙地圖(word map):

看到這裡,你大概可以把 MIS Quarterly 的研究關注點聚焦在三個類別上。並且可以知道每個類別是如何被關鍵詞描述的。

但是,即便你知道了這些大致的研究主題分類,也依然難以抉擇,自己今後的研究方向,應該向哪裡聚焦。

因為,這隻代表了歷史和現狀。你不能看著後視鏡開車

這時候,你可以使用 Biblioshiny 輔助決策。方法是點擊「主題地圖」(Thematic Map)選項。

主題地圖中,橫軸代表中心度,縱軸代表密度。據此繪製出4個象限。

  • 第一象限(右上角):motor-themes,既重要,又已有良好發展(well-developed);
  • 第二象限(左上角):very specialized/niche themes,已有良好發展,但是對於當前領域不重要;
  • 第三象限(左下角):emerging or disappearing themes,邊緣主題,也沒有好的發展,可能剛剛湧現,也許即將消失;
  • 第四象限(右下角):basic themes,對領域很重要,但是未獲得良好發展。一般是指基礎概念。

有了這些背景知識,再回看這張圖,就很有意思了。

請你思考一下,哪些主題更值得你投入資源和時間去深度參與呢?

小結

本文我們利用了 R 環境下的 BiblioShiny 軟體包,點擊幾下滑鼠,探索了以下3個問題:

  • 哪些作者比較厲害?
  • 哪些文獻比較重要?
  • 哪些主題更值得研究?

當然,你會發現其實我們使用的,只是默認參數。針對你研究領域的特徵,以及文獻數量的多寡,參數的設置其實都是可以調整優化的。

而且你還會注意到,我們所展示的,只是 Biblioshiny 眾多實用分析功能里的一小部分。

希望本文給了你一個可以起步的最小行動範例。在此基礎上,如果感興趣,你可以繼續學習和充分挖掘 BiblioShiny 與 Bibliometrix 的功能,幫助自己更高效便捷地熟悉某一新科研領域。

延伸閱讀

有了興趣,該如何繼續學習呢?

首先,推薦給你這份 Bibliometrix 的官方圖文教程(t.cn/EPM7jKF)。

如果你喜歡看教學視頻,可以點擊這個鏈接查看。

喜歡請點贊和打賞。還可以微信關注和置頂我的公眾號「玉樹芝蘭」(nkwangshuyi)。

我這裡還有一本免費在線書,講解了科研新手入門的一些默會知識,其中也包括了不少文獻分析的內容。如果你感興趣,不妨點擊鏈接(t.cn/EPMzLjW)閱讀。


推薦閱讀:

TAG:學術研究 | 學術界 | 科研 |