標籤:

KDD 2017華人獲獎情況

北京時間8月15日,在經過兩天的Tutorial和Workshops後,KDD 2017於今天下午正式開幕。

開場,KDD 2017大會主席Stan Matwin向我們展示了一組數據:本次KDD共有來自51個國家1656名註冊參會人員,是美國之外註冊人數最多的一屆,參會人數最多的五個國家依次是:美國、中國、加拿大、印度和日本。這次會議共收到有效投稿論文1143篇,頒發學生獎學金15.3萬美元,均創下歷史新高。KDD 2017獲得了54.4萬美金的贊助支持,金額達到有史以來的第二高。

論文詳細收錄名單如下:kdd.org/kdd2017/accepte

隨後,KDD 2017大會主席Stan Matwin與區域主席Evangelos Milios,被哈利法克斯市政府授予哈利法克斯大使獎。

大會副主席Faisal Farooq在發表致辭時,感謝了組委會的48位成員及158位辛勤付出的志願者。

ACM SIGKDD主席裴健博士介紹了SIGKDD組織,目前SIGKDD共有1862位來自全球64個國家的活躍會員,擁有超過200萬美元的經費。裴健博士在會上呼籲大家積極加入SIGKDD,成為其中的一員。

會上公布了KDD 2017的一系列數據:

  • 今年的KDD研究類論文的審核總數為748篇,收錄130篇,包括64篇oral,66篇poster,錄用率分別佔8.6%及8.8%。
  • 而應用類論文共審核390篇,收錄86篇,包括36篇oral,50篇poster,錄用率分別佔9.2%和12.6%。
  • 論文提交數最多的國家是美國(佔50%)與中國(佔13%)。

  • 論文中最受歡迎的話題是:時間與時序數據(temporal and time-series data),圖演算法(graph algorithms)。
  • Invited talk的關注領域:用數據科學理解行為,機器學習應用,智能系統和數據科學,管理與基準。

在隨後的議程上,KDD 2017公布了最佳論文&最佳學生論文獎,最佳應用論文獎,以及最佳博士論文獎(見後文詳細介紹)。

接下來進行了KDD Cup的頒獎。本次KDD Cup由阿里天池承辦,名叫Convolution的團隊包攬了兩個比賽第一名,成員來自美團點評、微軟中國和北京航空航天大學。關於這次比賽的結果,歡迎關注雷鋒網(公眾號:雷鋒網)的後續報道。

隨後KDD對今年授予的三大核心獎項進行頒獎。2016年雷鋒網 AI 科技評論就針對當年的這三個獎項及獲獎者進行逐一介紹,詳情可參考《KDD2016各大獎項獲獎名單解密》。

在熱烈的掌聲中,十年最佳論文獎/時間檢驗論文獎獲得者 Thorsten Joachims 博士,傑出服務獎獲得者、香港科技大學教授楊強博士,KDD創新獎獲得者、西蒙弗雷澤大學教授裴健博士,依次上台領獎。雷鋒網此前已對這三個獎項及得獎者做了詳細介紹。

最後,裴健博士以《Pattern Mining Introspection and Prospective》(模式挖掘的回顧與展望)為主題做了大會報告,他以「啤酒與尿布」這一廣為人知的案例說起,分享了他對於模式挖掘的最新研究成果和經驗。

KDD的三大論文獎項包括,最佳論文&最佳學生論文獎(Best Paper & Best Student Paper Award)和最佳應用論文獎(Applied Data Science Best Paper Award),博士論文獎(Doctoral Dissertation Award)。

最佳論文&最佳學生論文獎

論文:Accelerating Innovation Through Analogy Mining

作者:Tom Hope,Joel Chan,Aniket Kittur,Dafna Shahaf

摘要:大型概念資源庫(如美國專利資料庫)可以向人們提供類似問題的解決方案的靈感,從而加速創新和發現。然而在這些龐大而凌亂的資源庫中發現有用的信息,對於人類或自動化技術來說仍是一個挑戰。傳統的解決方法有,具有高度關係結構(如謂詞演算表徵)但非常稀疏,且成本很高的人工創建的資料庫。更為簡單的機器學習/信息檢索相似性度量可以擴展到大型的自然語言數據集,但很難解釋結構相似性,而這又是類比的核心。這篇論文探討了學習更簡單的結構表徵的可行性和價值,特別是「問題模式」,它規定了產品的目的,以及實現該目的的機制。論文中的方法結合眾包和CNN,提取產品描述中的目的和機制向量表示。論文表明,這些學習到的向量能比傳統的信息檢索方法,以更高精度和更快速度找到類比。在一個思想實驗中,模型檢索的類比能力提升了產生創意的可能性。研究結果表明,學習和利用較弱的結構表徵,是大規模計算類比的有效方法。

Runner up論文:

Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data

作者:David Hallac, Sagar Vare, Stephen Boyd, Jure Leskovec

最佳應用論文獎

論文:HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network

作者:Yanfang Ye,Shifu Hou,Yangqiu Song

摘要:隨著Android惡意軟體的增長及其對用戶的影響,Android惡意軟體檢測已成為網路安全日益重要的課題。Android惡意軟體也越來越複雜,需要新防禦技術從而保護用戶免受威脅。這篇論文中,為了檢測Android惡意軟體,我們不再僅僅使用API調用,而是進一步分析它們之間的不同關係,並創建更高層次的語義,這就讓攻擊者更難逃避被檢測。我們將Android應用,相關的API,及其與結構化異構信息網路(HIN)的豐富關係作為代表。然後我們使用基於元路徑的方法來表徵應用程序和API的語義相關性。我們使用每個元路徑來制定Android應用的相似性度量,並使用多內核學習聚合不同的相似之處。然後通過學習演算法自動加權每個元路徑進行預測。據我們所知,這是使用結構化HIN進行Android惡意軟體檢測的最佳方法。對來自Comodo Cloud Security Center的實體樣本收集進行綜合實驗,我們比較了各種惡意軟體檢測方法。實驗結果表明,我們開發的HinDroid系統,勝過其他Android惡意軟體檢測技術。HinDroid已經被併入Comodo Mobile Security產品的掃描工具。

Runner up論文:

DeepSD: Generating High Resolution Climate Change Projections through Single Image Super-Resolution

作者:Thomas Vandal, Evan Kodra, Sangram Ganguly, Andrew Michaelis, Ramakrishna Nemani, Auroop R Ganguly

博士論文獎

最佳論文:Local Modeling of Attributed Graphs: Algorithms and Applications

作者:Bryan Perozzi

摘要:對於在原始連接信息之外、有關聯節點屬性的圖,在現實中遇到它們正變得常態化。社交網路就是個例子:既包含交友關係,又有興趣和人口統計信息等用戶屬性。一個存在於蛋白質之間的交互網路,可能不僅有交互關係,還包含了蛋白質的基因表達層。這些信息就能用一個圖來描述——其中用節點表示對象,用邊緣表示它們之間的關係,與節點關聯的特徵向量表示屬性。這種圖數據通常被稱作是屬性圖。這份論文聚焦於為屬性圖開發可擴展的演算法與模型。這些數據可被看作是既離散(邊緣)、又連續(嵌入節點之間的距離),我會從這兩個角度探討這個問題。

具體地,我展示了一個網上學習演算法,利用最新的深度學習技術生成豐富的圖嵌入。我通過這一新方法對多重社會關係進行編碼,其結果對網路中的多標籤分類和回歸都非常有價值。

對於離散圖所呈現出的反常社群,我展示了用來處理它們的本地演算法。對於導致社群誕生的圖屬性(比如某社交網路中的用戶共同興趣),這些演算法找出了它們的子集。該論文中,所有方法的可擴展性通過有限的圖初始參數來保證,比如 ego networks 和truncated random walks,它們以每個頂點為中心對本地信息進行利用。另外,對圖變數的範圍進行限制,使得我的方法能進行簡單的並行處理。這需要通過大數據處理商品工具來實現,比如MapReduce 和 Spark 。本研究的應用前景很廣闊:包括數據挖掘、信息檢索、用戶畫像、人口統計推理、線上廣告以及詐騙識別。

Runner up論文:

User Behavior Modeling with Large-Scale Graph Analysis(作者:Alex Beutel)

Mining Large Multi-Aspect Data: Algorithms and Applications(作者:Evangelos Papalexakis)

Honorable Mention論文:

Computational Lens on Big Social and Information Network (作者:Yuxiao Dong)

轉載自雷鋒網


推薦閱讀:

經過第一盤棋,李世石戰勝 AlphaGo 的可能性更大了還是更渺茫了?
如何看待公司里演算法崗位做數據挖掘大多都是抽特徵跑跑現成模型,而不是造框架造輪子?
Bagging與Adaboos演算法原理及推導(詳細版)
最簡單的 GAN 解釋 (生成對抗網路)
量化研究每周精選-20170822

TAG:机器学习 |