AI領域,中國人/華人有多牛?

人工智慧這把火已經燒到了國家戰略層面,連美國總統和政府機構也卷了進來。上周四,奧巴馬主持白宮前沿峰會,展望美國在未來50年的發展。峰會中,白宮發布報告《國家人工智慧研究與發展策略規劃》。相關情況,大家可以參考《連線》雜誌的總統專訪(Barack Obama on Artificial Intelligence, Autonomous Cars, and the Future of Humanity) 。

這兩天,自媒體沒少炒作這個報告;我自己呢,倒是特別地對這個報告中的兩張趨勢圖感興趣。報告中說,從2013年到2015年,SCI收錄的論文里,提到「深度學習」的文章增長了約六倍,同時強調,「按文章數計算,美國已不再是世界第一了。」

美國不是世界第一?誰是世界第一呢?來看報告中的兩張趨勢圖:

上圖是每年SCI收錄的文章里,提到「深度學習」或「深度神經網路」的文章數量變化趨勢,同時按國家做了區分。數據本身是從Web of Science核心資料庫里查詢得到的。

第二張圖和第一張圖其他條件一樣,只是增加了一個「文章必須至少被引用一次」的附加條件。也就是說,第二張圖統計的文章數,是被引用過的「有效文章數」,相對來說更合理一些。

兩張圖裡,中國都在2014年和2015年超過了美國(以及其他所有第二梯隊的國家),居於領跑者的位置。

問題來了,在AI研究領域,中國人真有這麼強嗎?

從這些年的直覺看,中國人/華人在人工智慧領域裡的大牛比比皆是,吳恩達、孫劍、楊強、黃廣斌、馬毅、張大鵬 ……隨口可以說出一大串,我自己在Google的研究團隊,微軟研究院等地親眼看到的,也到處是中國人、華人的面孔。但這只是直觀感受。整體來看,中國人/華人所做的科研貢獻到底有多重要,對人工智慧的推動作用到底有多大?白宮報告里的統計是不是科學、合理?

其實,對美國國家戰略規劃里的統計,我自己是有幾個疑問的,主要包括:

  • 直接搜索關鍵字「深度學習」、「深度神經網路」,真的能涵蓋這些年人工智慧領域的所有科學研究進展?像機器人、智能控制、機器視覺、無人駕駛等領域裡,沒有提及深度學習的文章眼見還有不少。嚴格按關鍵詞匹配會漏掉多少相關文章?是否影響統計結果?

  • 「文章至少被引用一次」,比較科學,但好像還遠遠不夠。這種統計,真的不需要考慮SCI的影響因子嗎?不考慮的話,會混進多少較差期刊上發表的比較水的論文?這些數據會不會被國內研究機構靠SCI引用數來評職稱的風氣污染?

  • 在全球化時代,按國家統計,會不會有明顯偏差?白宮報告沒有提到被統計的文章是如何歸入不同國家的。如果按作者發表文章時的所在機構,那大量在國外機構訪問的中國學者會不會被算成外國人?中國人和外國人合寫的文章該如何統計?如果按期刊所屬國家和地區,那不同國家間的期刊水平(影響因子)差異是不是會讓統計結果帶有偏見?

基於此,我也想自己去做個統計。

統計前,給自己設了幾條原則:

  • 從期刊的SCI影響因子出發,只統計影響因子高的頂尖期刊。

  • 從Web of Science主題詞出發,涵蓋人工智慧相關的所有科研領域,而不僅是深度學習方面的文章。

  • 文章要求至少被引用一次。

  • 關注對象是華人,而不是用國家分類的辦法去比較中國和外國——這個是我自己的選擇,因為今天的學術界,國家間的合作和交流已不可忽視。類似吳恩達這樣的外籍華人,其實也在為中國的人工智慧發展做貢獻,百度首席科學家嘛(有人說吳恩達是越南裔,我沒找到出處,只知道他父母是香港人;也許有機會時,當面問問Andrew?)。與其限定國家,不如從整體上看一看,地球上的華人科學家、研究者群體,到底有多厲害。

  • 關注時間範圍是2006到2016年,跨度10年左右——因為許多人說,這一波人工智慧大潮是從2006後的幾年時間裡,才開始真正興起的。

我的統計結果

先說說我的統計結果,一會兒會在附錄一中講講我用的統計方法。

來看下2006到2016年間華人作者的平均貢獻:

在2006到2016年的時間段里,近兩萬篇最頂級的人工智慧文章中,由華人貢獻的文章數和被引用數,分別佔全部數字的29.2%和31.8%。近十年,華人用五分之一左右的作者人數,平均貢獻了三成的頂級AI研究文章和被引用數。統計角度,這已經是超出平均水平的科研貢獻了。

但平均數並不能看出華人科學家、研究者在最近幾年的發力程度。來看2006到2015年間,華人貢獻的文章數和被引用數的變化趨勢:

2006到2015年間,華人作者參與的頂級AI論文,佔全部頂級AI論文數量的比例,從23.2%逐年遞增到42.8%。而華人作者參與的頂級AI論文被引用次數,佔全部頂級AI論文被引用次數的比例從25.5%逐年遞增到55.8%(2016 年數據較少,未用於趨勢比較)。

也就是說,即便只統計頂級出版物里的頂級文章,中國人/華人在人工智慧領域的貢獻,在發展趨勢上也和白宮報告中揭示的規律如出一轍——無論從哪個角度來說,中國人/華人正在人工智慧領域裡發揮舉足輕重的作用,而且,從2014年,2015年開始,中國人/華人已經處於人工智慧研究的領先地位,佔據了人工智慧科研世界的半壁江山!

個案分析

會有人覺得這個統計很不可思議嗎?這個結果會出乎很多人意料嗎?我們還可以拿一個更具體的例子,來深入分析一下。

在頂級人工智慧期刊里,我來舉個大名鼎鼎的例子吧:IEEE模式分析與機器智能彙刊(IEEE Transactions on Pattern Analysis and Machine Intelligence,簡稱PAMI),2015年影響因子6.077,高到沒朋友,想往這裡投稿的同學可能都知道被接受和發表的難度有多恐怖。

我從《IEEE模式分析與機器智能彙刊》里按引用數選出2006到2016年間的前500篇論文,下面是這500篇論文的引用數分布情況:

其實很恐怖的,前500篇文章最高引用數2715,最低引用數41——真頂級期刊!普通期刊難以望其項背呀。

那麼,這500篇最頂級的人工智慧論文里,華人科學家、研究者的貢獻如何呢?先說幾個數字:500篇頂級文章的作者一共1220人,其中華人科學家、研究者316人,佔25.9%。所有作者單獨累加計算的被引用數總和是231361次,其中,華人科學家、研究者被引用數總和是63846 次,佔27.6%。如果單看2014年(當年華人的文章數、引用數均較高)的數據,華人科學家、研究者被引用數佔51.8%,超過了半數。

如果只看《IEEE模式分析與機器智能彙刊》在2006到2016年間,引用數最多的10位華人作者和10位非華人作者的具體情況,也是一個很有趣的表格:

《IEEE模式分析與機器智能彙刊》的華人前10位大牛,與非華人前10位大牛,在每個人的總引用數上幾乎不相上下。的確,最頂尖的人工智慧科學家裡,中國人/華人的貢獻絲毫不亞於其他科學家。

另外,如果對人工智慧特別是模式識別的研究領域不熟悉,那麼,記住表中這20位頂尖科學家的名字吧。有興趣的話,大家可以去搜一搜他們的簡歷,看看他們都在哪裡工作,在哪裡做研究,他們的學生、同事都是誰,相信會有很多發現。

原因?

為什麼中國人/華人在人工智慧領域這麼強?因為數學好?因為興趣使然?因為思維習慣?因為勤奮?因為教育?大家可能都有自己的答案。

本文不想展開討論,列舉數據和事實,才是本文的目的。

附錄一:統計方法介紹

簡單介紹一下我是怎麼得到上面那些比例和趨勢數據的。

周末,我先去Web of Science資料庫里,找到Computer Science / Artificial Intelligence的主題類目,根據2015年SCI影響因子從高到低排序,取前50個出版物,這50個人工智慧領域頂級期刊的詳細列表見附錄二。

(因為篩選條件設置,主要是類目和影響因子的設置問題,頂級會議的會議錄沒有作為出版物列入這份列表。當然,頂級會議文章被頂級期刊收錄的情況並不罕見。另外,每年文章數相對穩定的期刊用來做趨勢統計要更容易一些,白宮報告的統計對象也是期刊文章。頂級會議文章通常需要另行統計,也許下次吧。)

然後,對每份頂級期刊,基於文章的被引用數對2006到2016年的所有文章進行排序。這個時間段里,期刊的平均發表文章數在500左右,我以500為上界,取每份期刊中,被引用數最多的文章,至多500篇,每篇文章至少被引用一次。由此得到2006到2016年間的頂級人工智慧相關論文共計19855篇。

接下來,基於這些文章的作者列表和被引用數目,統計華人科學家、研究者與全部文章作者之間的比例和趨勢關係。

如何識別華人作者?好像沒有特別好的方法。我的方法是根據英文姓名判斷,如果英文姓名主要由漢語拼音、韋氏拼音或粵語拼音組成(當然還要考慮姓氏、名字二者在英文表述上的區別,以及其他一些經驗規則),那麼就假定這個作者是華裔。根據小樣本集驗證,這個判別方法的檢准率大約在96%以上,檢全率大約在90%左右。也就是說,會有一定數量的遺漏,也會有少量誤識,但基本可以反映整體情況與趨勢。

如何解決合作者問題?我是分別統計,並且不加權重的。第一作者和其他作者共享文章計數和引用計數。為第一作者增加權重是否影響整體統計結果?也許,但不會影響總體趨勢數據,因為並沒有證據表明,華人更多地出任第一作者,還是非華人更多地出任第一作者。至於每個作者的文章數和引用計數,是採用簡單累加,還是採用比例累加(如兩人合作,每人的貢獻算0.5還是1),我做了全數據集的對比試驗,幾乎完全不影響整體結果。

附錄二:按SCI影響因子排序的前50人工智慧期刊列表

出版物名稱,影響因子

  1. IEEE TRANSACTIONS ON FUZZY SYSTEMS, 6.701

  2. International Journal of Neural Systems, 6.085

  3. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 6.077

  4. IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 5.908

  5. INTEGRATED COMPUTER-AIDED ENGINEERING, 4.981

  6. IEEE Transactions on Cybernetics, 4.943

  7. IEEE Transactions on Neural Networks and Learning Systems, 4.854

  8. MEDICAL IMAGE ANALYSIS, 4.565

  9. Information Fusion, 4.353

  10. INTERNATIONAL JOURNAL OF COMPUTER VISION, 4.27

  11. IEEE TRANSACTIONS ON IMAGE PROCESSING, 3.735

  12. IEEE Computational Intelligence Magazine, 3.647

  13. EVOLUTIONARY COMPUTATION, 3.6

  14. IEEE INTELLIGENT SYSTEMS, 3.532

  15. PATTERN RECOGNITION, 3.399

  16. ARTIFICIAL INTELLIGENCE, 3.333

  17. KNOWLEDGE-BASED SYSTEMS, 3.325

  18. NEURAL NETWORKS, 3.216

  19. EXPERT SYSTEMS WITH APPLICATIONS, 2.981

  20. Swarm and Evolutionary Computation, 2.963

  21. APPLIED SOFT COMPUTING, 2.857

  22. DATA MINING AND KNOWLEDGE DISCOVERY, 2.714

  23. INTERNATIONAL JOURNAL OF APPROXIMATE REASONING, 2.696

  24. SIAM Journal on Imaging Sciences, 2.687

  25. DECISION SUPPORT SYSTEMS, 2.604

  26. Swarm Intelligence, 2.577

  27. Fuzzy Optimization and Decision Making, 2.569

  28. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2.476

  29. JOURNAL OF MACHINE LEARNING RESEARCH, 2.45

  30. ACM Transactions on Intelligent Systems and Technology, 2.414

  31. NEUROCOMPUTING, 2.392

  32. ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2.368

  33. CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS, 2.217

  34. ARTIFICIAL INTELLIGENCE IN MEDICINE, 2.142

  35. COMPUTER VISION AND IMAGE UNDERSTANDING, 2.134

  36. JOURNAL OF AUTOMATED REASONING, 2.113

  37. INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS, 2.05

  38. COMPUTATIONAL LINGUISTICS, 2.017

  39. ADVANCED ENGINEERING INFORMATICS, 2

  40. JOURNAL OF INTELLIGENT MANUFACTURING, 1.995

  41. Cognitive Computation, 1.933

  42. IEEE Transactions on Affective Computing, 1.873

  43. JOURNAL OF CHEMOMETRICS, 1.873

  44. MECHATRONICS, 1.871

  45. IEEE Transactions on Human-Machine Systems, 1.8

  46. Semantic Web, 1.786

  47. IMAGE AND VISION COMPUTING, 1.766

  48. Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery, 1.759

  49. NEURAL PROCESSING LETTERS, 1.747
  50. ARTIFICIAL INTELLIGENCE REVIEW, 1.731

推薦閱讀:

如何評價國內的智能鋼琴和陪練糾錯軟體,會改變現有鋼琴教學嗎?
人工智慧即將取代我們?面對AI,我們該怎麼保持競爭力?
CS231n課程筆記翻譯:反向傳播筆記
墨爾本的master of IT和澳國立的AI如何選擇?
想了解一些人工智慧與機器學習的資訊信息和行業動態,有什麼比較好的專業期刊和專著書籍可推薦的?

TAG:人工智能 | 国家战略 | 人才 |