TDA 拯救世界?病毒式傳播的拓撲數據分析

我們私下有一個小微信群,當時就幾個熟悉的朋友在交流,想想總得有個名字吧,就隨性叫作「拓撲學拯救世界」。是的,這篇專欄文章一開始有點標題黨,但TDA在病毒式傳播上的應用的的確確是貨真價實的。

應用場景

看過「釜山行」的朋友都對喪屍病毒的傳播印象深刻,貌似只要某個地點有感染源,和它「聯通」的所有區域的人畜在一定的時間窗口下都會被完全感染。在沒有抗體的前提下,唯一能夠緩解傳播的方法很自然的就是切斷儘可能多的聯通渠道;在火車這樣一個相當簡單的線性空間里,其實理論上還是很好解決的,男女老幼沒變成喪屍的都知道:把車門關上就好了——也有那群青少年少根經,忘了關門的,結果,嘿嘿(當然,之後為增加戲劇性,劇情設置了下車和換車的環節,整個問題就變得有趣多了)。

其實隨著全球人口流動性的持續增加,以及互聯網移動技術的更新滲透,對於病毒式傳播的問題,不用去考博士學位,不用去看喪屍片,作為普羅大眾,我們的日常生活都是有很感性直觀的體會的。從場景的類型上,大概可以分兩大類(第三類等於是一個混合的hybrid了):

社會性傳播(Social Contagion)

  • 信息擴散:這個做媒體和搞病毒式營銷的最喜歡了,一個新的創意,產品廣告,視屏如何最有效快速的覆蓋最多的受眾。
  • 意見和集體信念的傳播:政治選舉,宗教(邪教)傳播,社會動亂的擴散,恐怖襲擊都屬於這一類。大家也可以自由發揮聯想啊,在這片神奇的土壤上,有多少人考維穩,傳銷之類的過活。。。

病理性傳播(Epidemic Contagion)

  • 傳染學:流行性感冒都少提了,公共健康的許多政策和實施,尤其是SARS之後。
  • 病毒傳播的防治:免疫學,電腦病毒和防毒軟體;還有隔離檢疫的盛行和反恐襲讓坐飛機變成多麼痛苦的一件事情。

複雜型傳播(Complex Contagion)

  • 多種傳染源和途徑的混合交錯影響:其實恐怖襲擊就屬於這一類,ISIS可是資深從業人士,對於一個恐襲的規劃和多層面的滲透:媒體,地理空間上的布點和力度,都導致對它的效果研究和對抗都需要是多維度和多層面的

和 TDA 有毛關係?

其實舉「釜山行」的例子之後稍微帶出來的火車作為傳播空間的點,就是想伏筆來回答這個問題:傳播媒介的幾何拓撲結構 matters!也許是出於電影專註在凸顯人性的刻畫上的設置需要,以火車作為最簡單的線性空間,讓我們能很容易的去接受和習慣喪屍病毒的傳播過程,而不需要花時間去鋪墊或逼迫觀眾像看「生化危機」那樣假設喪屍的分布就是到處都有,完全沒有邏輯的隨時都可能跑出來一個。

但事實上,傳播媒介的空間結構對於傳播的擴散和防治都是相當重要的,甚至不小於研究抗體/開發防毒軟體本身的意義。舉個簡單的例子:當我們在一個比火車這樣的空間稍微更複雜一點點的地方——一個環形,那麼面對喪屍的攻擊時,我們知道這個空間的結構:即它是一個環形,我們就不會為只確認關上一扇門而放心安頓下來,因為我們知道它可能從另外一個弧傳播過來,所以還要把另外一個門關上;當我們知道有可能還有另外一個通道,將我們所在的空間構建成一個「日」字或者「8」字型的拓撲結構時,我們就首先要確認我們是不是在「日」字的中間那一橫上,以及我們關上的門是否把所有方向上的傳播可能都切斷了(因為它可能來自4個方向)!

細話

基於這樣的思考,牛津的一個團隊做了一個用TDA去分析在隨機分布傳染源的情況下,病毒傳染的時間(激活時間)與傳播媒介的拓撲結構的關係,論文發在『自然』上,叫做:「TDA對於病毒式網路傳播過程的分析之應用」。

激活時間與網路傳播媒介的關係這個概念可以用下面這一系列簡單的圖示演繹出來:

基於激活時間的閥值模型

t = 0:

t = 1:

t = 2:

t = 3:

所以,當傳播媒介是上面這樣一個網路結構的時候,從1到6是需要經歷3個時間單位的。所以6的AT(激活時間)=3。當我們面臨的媒介網路結構更複雜更接近於現實的時候,它的高維度和模型的運算複雜度就有得想了。而 TDA 的處理方法,如之前的介紹,可以輕易的捕捉到高維度的圈圈和洞洞,變成條形碼或者持續性分布的散點圖(如下面的第二幅圖:其實就是把每條條形碼上的橫線的起點(出生時間)作為x軸,終點(死亡時間)作為y軸,旋轉倒置一下,用點來表達罷了),把最持續存在的那些點(離對角線最遠的那些點)對應到數據集的空間上,即可刻畫出傳播媒介的結構。

例如下面這樣的環形的媒介結構,在不允許跳遠式傳播的前提下(即第一幅圖的第III類情況),激活的時間原則上遵行傳播媒介的環形結構:它的圈圈被持續性散點圖的菱形紅點標示出來了(第二幅圖),因此較於其它有跳躍式傳播的傳播媒介(雖然也是環形,但允許隨機概率的從一個點傳播到對面的另一個點),對應的激活時間也是更延長一些:第三幅圖凸起的部分。

激活時間的閥值分布和傳播媒介的拓撲結構

接著,論文將 TDA 的方法論應用到實際的情況上:倫敦的市區交通網路。得到的結論是雖然有地鐵這樣的跳躍式傳播渠道(紅色的線條),病毒式傳播的過程還是更多的遵循了路面的網路結構——比較粗的幾個藍色線條代表了流通帶寬較大的路徑。

因此,激活時間從小到大用從冷色系的藍色到暖色系的紅色來渲染,得到的分布圖對應了這樣的路面交通網路:

關於「湃勢科技」

湃勢科技成立於2015年夏天,致力於推動數據的全息分析和價值提取。公司目前主推基於數據聯動演算法的產品「靈動圖表」,以及基於拓撲數據分析(TDA)演算法的產品「數聚圖譜」。詳情可點擊進入下面的鏈接:

lynctone.com/about


推薦閱讀:

風口從移動互聯網轉向人工智慧 人機交互變革的下一個陣地會是客廳嗎
事物之間相關關係與因果關係有著怎樣的聯繫?
R與Python比較之我見
萬億級數據洪峰下的分散式消息引擎
除了仰望星空,數據還為你開啟了俯瞰大地的「上帝視角」

TAG:丧尸电影 | 数据分析 | 大数据 |