AI領域,中國人/華人有多牛?
人工智慧這把火已經燒到了國家戰略層面,連美國總統和政府機構也卷了進來。上周四,奧巴馬主持白宮前沿峰會,展望美國在未來50年的發展。峰會中,白宮發布報告《國家人工智慧研究與發展策略規劃》。相關情況,大家可以參考《連線》雜誌的總統專訪(Barack Obama on Artificial Intelligence, Autonomous Cars, and the Future of Humanity) 。
這兩天,自媒體沒少炒作這個報告;我自己呢,倒是特別地對這個報告中的兩張趨勢圖感興趣。報告中說,從2013年到2015年,SCI收錄的論文里,提到「深度學習」的文章增長了約六倍,同時強調,「按文章數計算,美國已不再是世界第一了。」
美國不是世界第一?誰是世界第一呢?來看報告中的兩張趨勢圖:
上圖是每年SCI收錄的文章里,提到「深度學習」或「深度神經網路」的文章數量變化趨勢,同時按國家做了區分。數據本身是從Web of Science核心資料庫里查詢得到的。
第二張圖和第一張圖其他條件一樣,只是增加了一個「文章必須至少被引用一次」的附加條件。也就是說,第二張圖統計的文章數,是被引用過的「有效文章數」,相對來說更合理一些。
兩張圖裡,中國都在2014年和2015年超過了美國(以及其他所有第二梯隊的國家),居於領跑者的位置。
問題來了,在AI研究領域,中國人真有這麼強嗎?
從這些年的直覺看,中國人/華人在人工智慧領域裡的大牛比比皆是,吳恩達、孫劍、楊強、黃廣斌、馬毅、張大鵬 ……隨口可以說出一大串,我自己在Google的研究團隊,微軟研究院等地親眼看到的,也到處是中國人、華人的面孔。但這只是直觀感受。整體來看,中國人/華人所做的科研貢獻到底有多重要,對人工智慧的推動作用到底有多大?白宮報告里的統計是不是科學、合理?
其實,對美國國家戰略規劃里的統計,我自己是有幾個疑問的,主要包括:
- 直接搜索關鍵字「深度學習」、「深度神經網路」,真的能涵蓋這些年人工智慧領域的所有科學研究進展?像機器人、智能控制、機器視覺、無人駕駛等領域裡,沒有提及深度學習的文章眼見還有不少。嚴格按關鍵詞匹配會漏掉多少相關文章?是否影響統計結果?
- 「文章至少被引用一次」,比較科學,但好像還遠遠不夠。這種統計,真的不需要考慮SCI的影響因子嗎?不考慮的話,會混進多少較差期刊上發表的比較水的論文?這些數據會不會被國內研究機構靠SCI引用數來評職稱的風氣污染?
- 在全球化時代,按國家統計,會不會有明顯偏差?白宮報告沒有提到被統計的文章是如何歸入不同國家的。如果按作者發表文章時的所在機構,那大量在國外機構訪問的中國學者會不會被算成外國人?中國人和外國人合寫的文章該如何統計?如果按期刊所屬國家和地區,那不同國家間的期刊水平(影響因子)差異是不是會讓統計結果帶有偏見?
基於此,我也想自己去做個統計。
統計前,給自己設了幾條原則:
- 從期刊的SCI影響因子出發,只統計影響因子高的頂尖期刊。
- 從Web of Science主題詞出發,涵蓋人工智慧相關的所有科研領域,而不僅是深度學習方面的文章。
- 文章要求至少被引用一次。
- 關注對象是華人,而不是用國家分類的辦法去比較中國和外國——這個是我自己的選擇,因為今天的學術界,國家間的合作和交流已不可忽視。類似吳恩達這樣的外籍華人,其實也在為中國的人工智慧發展做貢獻,百度首席科學家嘛(有人說吳恩達是越南裔,我沒找到出處,只知道他父母是香港人;也許有機會時,當面問問Andrew?)。與其限定國家,不如從整體上看一看,地球上的華人科學家、研究者群體,到底有多厲害。
- 關注時間範圍是2006到2016年,跨度10年左右——因為許多人說,這一波人工智慧大潮是從2006後的幾年時間裡,才開始真正興起的。
我的統計結果
先說說我的統計結果,一會兒會在附錄一中講講我用的統計方法。
來看下2006到2016年間華人作者的平均貢獻:
在2006到2016年的時間段里,近兩萬篇最頂級的人工智慧文章中,由華人貢獻的文章數和被引用數,分別佔全部數字的29.2%和31.8%。近十年,華人用五分之一左右的作者人數,平均貢獻了三成的頂級AI研究文章和被引用數。統計角度,這已經是超出平均水平的科研貢獻了。
但平均數並不能看出華人科學家、研究者在最近幾年的發力程度。來看2006到2015年間,華人貢獻的文章數和被引用數的變化趨勢:
2006到2015年間,華人作者參與的頂級AI論文,佔全部頂級AI論文數量的比例,從23.2%逐年遞增到42.8%。而華人作者參與的頂級AI論文被引用次數,佔全部頂級AI論文被引用次數的比例從25.5%逐年遞增到55.8%(2016 年數據較少,未用於趨勢比較)。
也就是說,即便只統計頂級出版物里的頂級文章,中國人/華人在人工智慧領域的貢獻,在發展趨勢上也和白宮報告中揭示的規律如出一轍——無論從哪個角度來說,中國人/華人正在人工智慧領域裡發揮舉足輕重的作用,而且,從2014年,2015年開始,中國人/華人已經處於人工智慧研究的領先地位,佔據了人工智慧科研世界的半壁江山!
個案分析
會有人覺得這個統計很不可思議嗎?這個結果會出乎很多人意料嗎?我們還可以拿一個更具體的例子,來深入分析一下。
在頂級人工智慧期刊里,我來舉個大名鼎鼎的例子吧:IEEE模式分析與機器智能彙刊(IEEE Transactions on Pattern Analysis and Machine Intelligence,簡稱PAMI),2015年影響因子6.077,高到沒朋友,想往這裡投稿的同學可能都知道被接受和發表的難度有多恐怖。
我從《IEEE模式分析與機器智能彙刊》里按引用數選出2006到2016年間的前500篇論文,下面是這500篇論文的引用數分布情況:
其實很恐怖的,前500篇文章最高引用數2715,最低引用數41——真頂級期刊!普通期刊難以望其項背呀。
那麼,這500篇最頂級的人工智慧論文里,華人科學家、研究者的貢獻如何呢?先說幾個數字:500篇頂級文章的作者一共1220人,其中華人科學家、研究者316人,佔25.9%。所有作者單獨累加計算的被引用數總和是231361次,其中,華人科學家、研究者被引用數總和是63846 次,佔27.6%。如果單看2014年(當年華人的文章數、引用數均較高)的數據,華人科學家、研究者被引用數佔51.8%,超過了半數。
如果只看《IEEE模式分析與機器智能彙刊》在2006到2016年間,引用數最多的10位華人作者和10位非華人作者的具體情況,也是一個很有趣的表格:
《IEEE模式分析與機器智能彙刊》的華人前10位大牛,與非華人前10位大牛,在每個人的總引用數上幾乎不相上下。的確,最頂尖的人工智慧科學家裡,中國人/華人的貢獻絲毫不亞於其他科學家。
另外,如果對人工智慧特別是模式識別的研究領域不熟悉,那麼,記住表中這20位頂尖科學家的名字吧。有興趣的話,大家可以去搜一搜他們的簡歷,看看他們都在哪裡工作,在哪裡做研究,他們的學生、同事都是誰,相信會有很多發現。
原因?
為什麼中國人/華人在人工智慧領域這麼強?因為數學好?因為興趣使然?因為思維習慣?因為勤奮?因為教育?大家可能都有自己的答案。
本文不想展開討論,列舉數據和事實,才是本文的目的。
附錄一:統計方法介紹
簡單介紹一下我是怎麼得到上面那些比例和趨勢數據的。
周末,我先去Web of Science資料庫里,找到Computer Science / Artificial Intelligence的主題類目,根據2015年SCI影響因子從高到低排序,取前50個出版物,這50個人工智慧領域頂級期刊的詳細列表見附錄二。
(因為篩選條件設置,主要是類目和影響因子的設置問題,頂級會議的會議錄沒有作為出版物列入這份列表。當然,頂級會議文章被頂級期刊收錄的情況並不罕見。另外,每年文章數相對穩定的期刊用來做趨勢統計要更容易一些,白宮報告的統計對象也是期刊文章。頂級會議文章通常需要另行統計,也許下次吧。)
然後,對每份頂級期刊,基於文章的被引用數對2006到2016年的所有文章進行排序。這個時間段里,期刊的平均發表文章數在500左右,我以500為上界,取每份期刊中,被引用數最多的文章,至多500篇,每篇文章至少被引用一次。由此得到2006到2016年間的頂級人工智慧相關論文共計19855篇。
接下來,基於這些文章的作者列表和被引用數目,統計華人科學家、研究者與全部文章作者之間的比例和趨勢關係。
如何識別華人作者?好像沒有特別好的方法。我的方法是根據英文姓名判斷,如果英文姓名主要由漢語拼音、韋氏拼音或粵語拼音組成(當然還要考慮姓氏、名字二者在英文表述上的區別,以及其他一些經驗規則),那麼就假定這個作者是華裔。根據小樣本集驗證,這個判別方法的檢准率大約在96%以上,檢全率大約在90%左右。也就是說,會有一定數量的遺漏,也會有少量誤識,但基本可以反映整體情況與趨勢。
如何解決合作者問題?我是分別統計,並且不加權重的。第一作者和其他作者共享文章計數和引用計數。為第一作者增加權重是否影響整體統計結果?也許,但不會影響總體趨勢數據,因為並沒有證據表明,華人更多地出任第一作者,還是非華人更多地出任第一作者。至於每個作者的文章數和引用計數,是採用簡單累加,還是採用比例累加(如兩人合作,每人的貢獻算0.5還是1),我做了全數據集的對比試驗,幾乎完全不影響整體結果。
附錄二:按SCI影響因子排序的前50人工智慧期刊列表
出版物名稱,影響因子
- IEEE TRANSACTIONS ON FUZZY SYSTEMS, 6.701
- International Journal of Neural Systems, 6.085
- IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 6.077
- IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 5.908
- INTEGRATED COMPUTER-AIDED ENGINEERING, 4.981
- IEEE Transactions on Cybernetics, 4.943
- IEEE Transactions on Neural Networks and Learning Systems, 4.854
- MEDICAL IMAGE ANALYSIS, 4.565
- Information Fusion, 4.353
- INTERNATIONAL JOURNAL OF COMPUTER VISION, 4.27
- IEEE TRANSACTIONS ON IMAGE PROCESSING, 3.735
- IEEE Computational Intelligence Magazine, 3.647
- EVOLUTIONARY COMPUTATION, 3.6
- IEEE INTELLIGENT SYSTEMS, 3.532
- PATTERN RECOGNITION, 3.399
- ARTIFICIAL INTELLIGENCE, 3.333
- KNOWLEDGE-BASED SYSTEMS, 3.325
- NEURAL NETWORKS, 3.216
- EXPERT SYSTEMS WITH APPLICATIONS, 2.981
- Swarm and Evolutionary Computation, 2.963
- APPLIED SOFT COMPUTING, 2.857
- DATA MINING AND KNOWLEDGE DISCOVERY, 2.714
- INTERNATIONAL JOURNAL OF APPROXIMATE REASONING, 2.696
- SIAM Journal on Imaging Sciences, 2.687
- DECISION SUPPORT SYSTEMS, 2.604
- Swarm Intelligence, 2.577
- Fuzzy Optimization and Decision Making, 2.569
- IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2.476
- JOURNAL OF MACHINE LEARNING RESEARCH, 2.45
- ACM Transactions on Intelligent Systems and Technology, 2.414
- NEUROCOMPUTING, 2.392
- ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2.368
- CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS, 2.217
- ARTIFICIAL INTELLIGENCE IN MEDICINE, 2.142
- COMPUTER VISION AND IMAGE UNDERSTANDING, 2.134
- JOURNAL OF AUTOMATED REASONING, 2.113
- INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS, 2.05
- COMPUTATIONAL LINGUISTICS, 2.017
- ADVANCED ENGINEERING INFORMATICS, 2
- JOURNAL OF INTELLIGENT MANUFACTURING, 1.995
- Cognitive Computation, 1.933
- IEEE Transactions on Affective Computing, 1.873
- JOURNAL OF CHEMOMETRICS, 1.873
- MECHATRONICS, 1.871
- IEEE Transactions on Human-Machine Systems, 1.8
- Semantic Web, 1.786
- IMAGE AND VISION COMPUTING, 1.766
- Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery, 1.759
- NEURAL PROCESSING LETTERS, 1.747
- ARTIFICIAL INTELLIGENCE REVIEW, 1.731
推薦閱讀:
※如何評價國內的智能鋼琴和陪練糾錯軟體,會改變現有鋼琴教學嗎?
※人工智慧即將取代我們?面對AI,我們該怎麼保持競爭力?
※CS231n課程筆記翻譯:反向傳播筆記
※墨爾本的master of IT和澳國立的AI如何選擇?
※想了解一些人工智慧與機器學習的資訊信息和行業動態,有什麼比較好的專業期刊和專著書籍可推薦的?