2017 CCF ADL會議總結
前段時間和導師還有實驗室的同學去參加了一個會。總結如下:
這次會議使得自己接觸了很多社交網路和數據挖掘方面很前沿的一些研究,增長了見識,拓展了視野。親眼目睹了本領域權威的學者,敬佩他們嚴謹的工作態度和出色的能力,這些優秀品質值得我去好好學習。還獲得了一些公開數據集的獲取途徑。對我來說,這次信息量很大,收穫頗豐。
這次的會議內容和現在的研究很相關。更加明確了自己的論文中有原來存在不足的地方,以及原來能預計的將來的可能的工作。通過這次會議得到了一些對未來工作的啟發,以及論文可能的改進的方向。
一、 Philip S Yu:Broad Learning via Fusion of Social Network Information
異構信息網路中結點的不同屬性如果能被很好的融合起來的話,或許就能將融合後的網路當作同構信息網路進行處理,這樣的處理過程將給異構信息網路的分析帶來極大的便利。
了解到的關於廣度學習的新知識:
1.對同一個實體上的不同類型進行處理的方式有:multi-view,multi-model、multi-source Learning;
2.對不同但相似的實體上的信息的處理: transfer learning;
3.對通過複雜網路關係相關的不同類型實體的信息進行處理:異質信息網路(Heterogeneous Information Network,HIN)融合。
其中遷移學習在現實中具有很實用的意義,並且可以解決冷啟動問題。例如阿里的OneID。廣度學習應用:POI 預測;跨社交網路平台的知識融合;地點預測。
受到的啟發有:在做網路表示學習的時候,將結點不同類型的屬性進行融合後按照原網路的拓撲結構結構形成一個新的同構信息網路,然後在這個同構信息網路上應用同構信息網路的表示學習演算法進行表示學習。異構信息網路廣度學習和深度學習結合起來效果應該非常好。
二、 唐傑:Social Network Mining
報告中提到信息時代分為三個階段。信息時代 1.0 :網路由頁面和頁面間的鏈接構成的。隨後越來越多的傳統行業加入,於是產生了大數據;同時還產生了雲計算。信息時代 2.0:用戶加入網路,例如「今日頭條」。信息時代 3.0:用戶開始在網路上,用戶之間形成了交互,這就形成了信息空間和用戶空間,通過兩個空間信息的融合將產生智能。唐傑的報告中提到網路表示學習都可以歸納為矩陣分解的形式。例如DeepWalk、LINE、PTE、Node2vec都可以歸納為一個矩陣分解的形式。
應用:學堂在線伴讀機器人小木、紅包流向、用戶畫像、科技情報大數據挖掘與服務平台、Social Influence(王者榮耀)。
三、宋國傑:社交網路影響最大化
以前對社交網路影響最大化不太了解。這次算是了解了一下影響最大化。影響最大化模型:離散時間模型、連續時間模型、競爭擴散模型或者其他諸如流行病傳播模型、投票模型等。其中在離散時間模型大類中 Threshold Model 和 Cascade Mode 兩個模型最為基本。報告重點講解了 Lazy Evaluation 演算法和 MIA Heuristic 演算法
應用:市場策略(應該給哪些人發券)、監控設備。報告提出,驅動這方面進一步研究的關鍵之處是如何在具體的場景中找到好的應用點。
四、趙鑫:面向社交媒體平台的商業知識挖掘
報告針對社交媒體平台進行商業知識的挖掘。研究內容分為三個部分:用戶意圖分析、用戶畫像構建、用戶需求推薦。
基於社交平台的大量數據,並且數據具有豐富的商業價值。挖掘這些數據的商業價值具有很高的可行性。突破站內推薦的局限性。
五、James A. Evans:Team Structure and Scientific Advance
剛開始講了一個Foldit 的遊戲,讓酶的活性提高了18倍多。他們研究了 1954 年到 2014 年間 5000 萬多份論文、專利和軟體產品,以此從中分析團隊合作特點。他們發現小的團隊在定性工作中表現更佳,大的團隊則在定量工作上更具優勢。
由於是英文,並且是社會學的東西。沒聽大懂,不過社會學和社交網路密切相關,並且報告中的相關研究跟計算機聯繫很緊密。感覺上符合常識。
六、Wei Wang:Modeling Dynamic Networks
動態網路是以後相關研究發展的必然趨勢。也就是考慮到社交網路上時間這一維度。報告中結合了時間和空間來對社交網路進行研究,能很好的預測網路的發展。為了構建各種各樣的動態網路分析的通用框架,將網路結構描述成一個時間的功能函數:時間因式分解網路模型。考慮到時間和空間上的一致性,對網路表示學習進行增量更新。動態網路表示學習也是下一步網路表示學習的方向。
應用:鏈接預測、異常檢測、動態網路表示學習(NetWalk)、智能平台、HIV風險行為檢測、基於位置的社交網路、地理影響分析、
七、胡祥恩:語義表示和分析(SRA)以及潛在的應用
從認知心理學講解語義表示和分析。自然語言的交互首先是創建語義空間:構建語料庫,然後編碼進語義空間,最後應用。語料庫是必須針對特定領域的,可從種子和權重方法來實現。
應用:Intelligent Tutoring Systems
八、石川:異質信息網路建模與分析
異質信息網路包含大量的語義和綜合信息,但是結構複雜、語義難挖掘。異質網路有望解決知識圖譜中的相關問題。相似性搜索:HeteSim.推薦:SemRec.基於元路徑(挑戰:權重和組合)。惡意軟體檢測:HinDriod(apps和apis之間的關係被當作特徵作為一個HIN,APPS之間的相似性可以通過多種元路徑計算出來).
異構信息網路中元路徑的選取:需要結合領域知識,元路徑具有豐富的語義。對於知識圖譜,可以打上部分標籤後,自動學習到。元路徑可用來解決冷啟動問題。
九、崔鵬:網路嵌入:在向量空間中啟用網路分析和推理
數據和計算能力指數級增長,但是由於鏈接的存在,計算的複雜度是指數的指數。網路表示學習1.0:重構原始網路;網路表示學習2.0:支持網路推理。要支持網路推理的話需要網路表示學習能反映網路結構和保留網路特性。網路特性:相似性、社區特性、傳播特性(對稱的、不對稱的)。
報告還講了他們最近的工作: Hyer-network Embedding(更複雜的結構)和Dynamic network Embedding(更挑戰的特性)。Hyer-network Embedding的邊是不可分解的,怎麼保留邊的不可分解的關係?怎麼保留稀疏的hyper-networks的結構?解決方案:N-tuplewise similarity requires
non-linear model。Dynamic network:動態更新SVD,包括實驗過程的誤差處理方法。
十、沈華偉:在線社交媒體中的信息傳播預測
主要講了影響力最大化研究和傳播預測。影響力最大化:現有演算法有 Greedy 演算法、Heuristic 演算法等,但是它們面臨著可擴展性-準確性的困境。沈華偉他們的解決方法就是在蒙特卡洛模擬中重用相同的集合,並提出了 StaticGreedy 演算法。傳播預測:現有方法:feature-based methods 和 temporal analysis。但是這些方法忽視了人群動態是一個反映集體參與的過程。於是他們提出一種 process-based 方法。他認為群體動態是一個 arrival process 能夠捕獲一個信息如何積累關注,基於特徵的方法將會被合併到特徵學習方法中。
應用:引用動態預測。
十一、劉知遠:語言表示學習與計算社會科學
主要講了計算社會科學有關的語言表示學習。前表示學習時代:基於符號的表示,也就是one-hot模型,但是它不能表示不同詞之間的關係。分散式表示學習時代:對象均被表示為稠密、實值、低維向量;向量之間的距離則能夠表示不同詞之間的關係。例如word2vec,能習得辭彙間隱含關係、發現辭彙語義層級、建立跨語言辭彙表示、建立視覺-文本聯合表示、檢測辭彙語義變遷。
然後講了語言分散式在大腦中的體現。然後講了基於辭彙表示的人類偏見研究、基於神經網路模型的抑鬱檢測。劉知遠認為計算社會科學面臨的挑戰是:信息多源異構,難以建立語義關聯。隨後介紹了融合HowNet義原標註的詞義表示。
異構信息網路涉及到自然語言方面處理的東西可以從這裡得到參考。
十二、楊洋:社交網路中的群體用戶行為分析與表示學習
社交網路中的群體用戶行為分析:
先是介紹了社交網路中的群體用戶行為分析:移民者的都市夢——感知移民群體的行為模式。得出的結論是:抵達都市後的前兩周很關鍵。積極擴展人脈、發展多樣性的關係與移民者能否留在都市的關聯性很強。
然後講了一個電信領域的案例:電信詐騙檢測——識別詐騙用戶及其詐騙策略。他們發現詐騙分子在打出電話的頻率比普通用戶要高 200 倍之多,詐騙分子打出電話對象之間的關係極弱,在時間分布上發現詐騙分子打電話的時間分布與上班族類似。
最後講了一個金融學案例:AI風控——根據用戶通話模式判斷逾期還款.
表示學習:
Dynamic Network Embedding by Modeling Triadic
Closure Process:涉及到閉合三角形、開放三角形。模型使用了對數相似近似、負抽樣、隨機梯度下降。應用:手機網路、貸款網路、學術網路、服務網路。Representation Learning for Scale-free
Networks:社交網路往往擁有無尺度特性——結點度數服從冪律分布。將重構無尺度網路的問題等價轉化為球填充問題。十三、韓家煒:大規模語料庫的多維分析
將大數據轉化為actionable
knowledge:
Structuring:將無結構文本轉換成結構的、類型的、內部鏈接的實體/關係;
networking:利用大量的、結構的鏈接;
挖掘大量的結構和網路。
Roadmap:
從文本數據中挖掘出隱含的結構;
將文本轉化為網路和 TextCube;
從網路和 TextCube 中挖掘出 Actionable
Knowledge 。隨後韓家煒介紹了近期的幾項從無結構文本中挖掘結構的工作。首先他介紹了短語挖掘的工作,即把原始的語料庫翻譯成高質量的短語和分段的語料庫。其次是讓短語有意義,他介紹了實體/關係的解析工作。隨後,他介紹了 MetaPAD 工作,即元模式驅動的來自大量文本語料庫的屬性發現。最後他還介紹了多方面分類挖掘(Multifaceted Taxonomy Mining)。
他們的工作主要是將無結構數據的轉化成結構的數據。
註:部分參考《AI科技評論》。
下圖是韓家煒教授的親筆簽名(●???●)
推薦閱讀:
※用戶畫像——搜狗用戶挖掘:文本分類
※《Python數據科學實戰》 特徵工程
※閑話國內大數據發展簡史&產業化落地
※決策樹實戰:Titanic 生還預測
※關於conda的使用
TAG:數據挖掘 |