十年後，你的文章還會被引用嗎——評谷歌遴選的圖情經典論文

04-28

摘要
谷歌遴選的圖情經典論文具有哪些特徵，清華大學楊超、李思敏與黃萃一一為你解讀。

楊超李思敏黃萃 / 清華大學

註：圖片中的10篇論文是由谷歌學術按照被引次數篩選的圖書情報學領域TOP10論文

不知你是否想得起自己十年前發表的文章？如果自己都遺忘了，別人是否會記得呢？學術界確實有一些文章，隨著時間的發展，不但不會沉寂，反而逐漸成為經典。今年6月，Google Scholar從2006年發表的論文中，按照被引用頻次，評選出各領域的經典論文。我們從中摘錄了社會科學（Social Science）領域下圖書館與信息科學(Library & Information Science)學科的10篇被引次數最高的論文，希望對讀者有所啟發。

從主題角度來看，有四篇文章（文章3、5、6、8）的研究都與h因子（h-index）有關；兩篇文章（文章4、9）涉及開放存取（open access）研究；排名第一的文章1主要研究協作標籤（collaborative tagging systems）的使用；其他三篇文章分別講述文獻計量軟體citespace的具體應用（文章2）、網路信息的作者識別（authorship identification）問題（文章7）期刊影響因子（Impact Factor）的新計算方法。

從文獻所在期刊角度來看，發表在科學計量權威雜誌Scientometrics上的文章多達5篇，佔據了一半；Journal of the American Society for Information Science and Technology （現更名為Journal of the Association for Information Science and Technology，簡稱均為JASIST）有2篇；其他期刊各一篇。值得注意的是，文章「Ten-year cross-disciplinary comparison of the growth of open access and how it increases research citation impact」來自開放存取資料庫arXiv，而文章本身也講open access，可稱得上論據充足。

進一步的，我們對文章參考文獻進行了分析，被引頻次較高的期刊分別為Nature、Scientometrics、PNAS、JASIST、Information Processing & Management，有趣的是，在期刊共被引網路（期刊引用構成的網路）中，Scientometrics作為被引較高的期刊，其中介中心性較高，這表明，它是聯繫不同期刊的橋樑。

通過分析文章所引用的學者，發現被引頻次較高的作者為Hirsch JE、Ball P、Braun T、Batista PD、Garfiel DE、Moed HF等，這些作者的研究多涉及open access和文獻計量指標，如Hirsch JE設計了h-index指標。

這些文章為何能夠歷久彌新，十年之後仍獲較大關注呢？這主要在於它們的「工具性」，即其研究內容為其他研究提供了基礎工具、規划了解決方案的框架。例如，排名第一的「Usage patterns of collaborative tagging systems」，該文主要介紹協作標籤（Collaborative tagging）在知識共享過程中的應用和特徵。文章不但詳細介紹了協作標籤系統的結構及其動態特徵，而且提出了協作標籤動態模型，為後來研究打下了基礎。再例如，排名第二的「CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature」，本身就是一個對軟體citespace使用的經典案例，其他研究者可依據該案例指導自己的可視化分析流程。

最後，我們將十篇文章的摘要翻譯附於文末，以供感興趣的讀者查看。

附錄——圖情高被引論文摘要選譯

1. Usage Pattern of Collaborative Tagging Systems

協作標籤使得用戶可以用標註關鍵字的形式將元數據添加到共享內容之中。最近，協作標籤在網路上越來越流行，它允許用戶標記書籤，照片和其他網站內容。本文分析了協作標籤系統的結構及其動態特徵。本文還提出了一個協作標籤動態模型，該模型可以預測標籤穩定模式，並將它們與共享知識聯繫起來。

2. CiteSpace II Detecting and visualizing emerging trends andtransient patterns in scientific literature

本文介紹了如何在科學文獻中識別和可視化新興主題發展趨勢和動態發展模式，並描述了相關研究的最新發展。本研究為知識領域可視化作出了重要的理論和方法貢獻。一個特徵被概念化和可視化了，以表徵「研究前沿」和「知識基礎」之間的時變二元性。研究前沿被定義為一組新出現的概念和潛在研究問題。研究前沿的知識基礎被定義為科學文獻的引用和共引軌跡，即由被引用科學文獻構成的演化網路。

3. Theory and practise of the g-index

g-index是對h-index的改進，用以測度一個論文集合的引用表現。如果這個文章集合按照被引次數降序排列，則g-index是其中最大的數字，使得前g篇文章至少被引用g^2次。本文以普賴斯獎獲得者為研究對象（職業生涯：1972-目前），計算其g-index，並將其與h-index進行比較。結果表明g-index繼承了h-index的良好特性，而且，g-index更好地考慮了頂級文章的引用分數，這可以更好地區分科學家的學術成就。

4. Citation advantage of open access articles

開放獲取（OA）是否能加快我們對研究結果的識別和傳播，是有爭議的。本文是針對2004年6月8日至2004年12月20日在PNAS上發表的OA和非OA文章的縱向文獻計量分析。本文一共分析了OA文獻212篇（佔全部文獻的14.2％），非OA文獻1,280篇（佔85.8％）。在期刊網站上直接發表的OA文章比自我歸檔或其他可公開訪問的OA文章（未在學術期刊上發表）具有更高的影響力。強有力的證據表明，即使在圖書館廣泛使用的雜誌上，OA文章也比同期刊物上發表的非OA文章更能被同行認可和引用。

5. Comparison of the Hirsch-index with standard bibliometric indicators and with peer judgment for 147 chemistry research groups

本文指出了h指數和幾個標準文獻計量指標之間的統計相關性特徵，以及h指數與同行評議結果的相關性特徵。我們利用荷蘭147所大學化學研究小組進行了大量評估研究，涵蓋了1991- 2000年期間約700名高級研究人員的工作。結果表明，h指數和常用文獻計量指標都與同行評議結果相符。但是對於擁有較少引用量的小研究團體，常用文獻計量指標似乎更適合用於評價研究產出。

6. A Hirsch-type index for journals

本文提出了一個面向期刊的h型指數（與評價作者的h-index相似），即：如果目標期刊已經發表了h篇論文，且每篇論文至少有h個被引，那麼該期刊的h指數是數值「h」。這對期刊影響因子是一個有益的補充。

7. A framework for authorship identification of online messages Writing‐style features and classification techniques

隨著互聯網技術和應用的迅速普及，不當甚至非法的網路信息濫用已成為社會的關注點。在線消息的「匿名」性質使身份追蹤成為一個難題。我們開發了一個用於識別網路信息作者身份的識別框架，以解決身份追蹤問題。在這個框架中，我們識別並提取四種寫作風格特徵（辭彙，句法，結構和內容），並使用歸納學習演算法構建基於特徵的分類模型來識別在線消息的作者。以英文和中文在線新聞組消息為數據源的實驗結果表明，本文提出的方法能夠識別在線消息的作者，準確度為70％至95％。

8. Is it possible to compare researchers with different scientific interests

一名科研人員的h指數是指他至多有h篇論文分別被引用了至少h次，該指數常被用來評價個體學者的科研產出。這個指標在很多方面都具有魯棒性，但也受研究領域影響。本文提出了一個改善的指數h_I=h??N_a?=h^2?(N_a^((T) ) )，其中N_a^((T) )是所考慮的h篇論文中作者的總數。一個研究者如果具有指數h_I，那麼表明他擁有h_I篇論文分別被引用了至少h_I次（間接展示了他/她獨自發表論文的能力）。我們獲得了四個巴西科學團體的h和h_I排名。與h指數相反，h_I指數圖塌陷成一條單一的曲線，允許對不同領域的學者進行比較。

9. Ten-year cross-disciplinary comparison of the growth of open access and how it increases research citation impact

Lawrence2001年發現，在計算機科學領域，網路上可公開訪問的文章（OA文章）比那些非OA文章獲得了更多的被引量。我們在物理學領域發現了同樣的情況。為了進一步檢驗該特性的跨學科一般性，我們使用10個學科（生物，心理學，社會學，衛生，政治學，經濟學，教育，法律，商業，管理）在12年間（1992-2003）發表的1,307,038篇文章進行了驗證。在同一期刊中，OA和非OA文章比較，OA文章同樣被更多引用，被引優勢依據學科和年度的不同，在36％-172％間浮動。我們未能從這些數據中發現明顯的因果關係，但是根據我們以前在物理學領域的發現，OA文章的被引優勢不太可能是因為作者的選擇偏好。

10. Journal status

一個演員的社會地位通常由兩個因素決定：該演員（A）從其他演員（Bs）獲得的認可的數量，以及演員Bs的知名度。這兩個因素反映了演員具有人氣（popularity）和被專家欣賞之間的區別。ISI影響因子（ISIIF）被定義為：雜誌在兩年內收到的平均被引次數。因此IF是一個評價流行性的指標，而未考慮引用者的威望。本文展示了如何使用「加權PageRank」演算法對期刊進行全面的度量（考慮流行性和威望）。我們比較了這兩種方法（IF和加權PageRank）下的期刊排名，並對兩個分析結果的異同點進行了分析。此外，我們還引入了Y因子（它是IF和加權PageRank的簡單組合），並發現由此產生的期刊排名與人們心中的期刊排名認知基本一致。