知識圖譜目前亟待的問題有哪些?

我自己是國內某廠做搜索的,目前廠里對知識圖譜投入挺大的,想了解一下知識圖譜現在的研究進展,以及哪些大牛們在主攻這塊。

目前了解的有MSRA的一個組。


作為谷歌知識圖譜的一個開發工程師,說一點自己的看法。最難也最需要抓緊解決的是 如何將來自不同數據源的相同實體聚類。比如電影數據源里有劉德華,音樂數據源里也有劉德華,這兩其實是一個人,從不同數據源構建圖譜的時候,必須有自動化的演算法將各處的劉德華聚類。這方面谷歌走過彎路,但現在已經走上正路了。大家可以慢慢的感受到谷歌搜索引擎正在變為谷歌知識引擎。Google now很重要的一個基石就是谷歌知識圖譜。

知識圖譜中還有很多其他挑戰,比如文字到實體的映射,但這些都有較成熟的演算法。

看到其他人說的存儲方面的挑戰,這在谷歌里真的不是什麼挑戰,sstable 和 bigtable輕鬆愉快。之上跑起 MapReduce, flume不要太爽


知識圖譜是谷歌對其所推出的大規模知識庫產品的稱呼。在此之前,已經有關於知識庫的大量研究,其中有很多代表性工作,也相應提出了很多挑戰性問題。

我認為知識圖譜的主要挑戰問題包括:1. 知識的自動獲取;2. 多源知識的自動融合;3.面向知識的表示學習; 4. 知識推理與應用。

關於知識圖譜最近寫了一篇短文,可以參考:http://book.thunlp.org/knowledge_graph/ 。終於算把這個坑填好了。:)


這個坑略大啊。。

從知識庫的構建開始:通常是從web上的非結構化數據中識別實體、挖掘關係,也就是knowledge extraction了。然後這中間涉及到另一個非常大的坑disambiguation,包括重名和別名,包括實體的消歧、關係的消歧、類別的消歧。當然獲取知識的時候也可以藉助一些已有的結構化數據,比如wordnet之類的一些ontology。。YAGO就是這麼來的

庫建好了,就得考慮怎麼存了,這個問題比較偏DB和graph,比如直接搞個relational DB來把一個個的三元組存起來,比如搞個graph DB來存,比如搞個RDF engine來存,這方面關注得比較少。

好了,現在庫建好了,存了存好了,問題就來了,號稱「給計算機裝上了大腦」 的knowledge base到底有什麼用呢??你搜個劉翔,它可以給你一堆劉翔的介紹。。這就是最簡單的實體檢索。。but這個太廢了。。值不回巨頭們的鈔票啊。。。

於是有人說了。。我們可以把它用到搜索引擎上啊。。你搜一個劉翔。。我除了給你一個劉翔的百科主頁,我還可以告訴你教練孫海平。。父母XXX。。前妻葛天。。做得好的話還能給你推薦個褲襠藏手榴彈的電視劇有木有!!這就是利用知識庫來做recommendation

另外有人覺得這玩意兒可以拿來搞query understanding啊。。用來幫著消歧啊有木有!!比如有人搜apple的時候,google和度娘是不知道你想搜水果還是搜喬布斯的。。but當你搜 "microsoft apple"或者"喬大爺 apple"的時候它就興奮的發現它派上用場了,它知道巨硬跟apple都是公司啊你肯定想找手機啊於是廣告就來了啊錢就嘩嘩了啊

最後,也就是要隆重推出的,也是在本屌有限的知識背景下自認為很有前途很有情懷,當然也很難的,question answering over knowledge base. 說白了就是知識庫上的自然語言查詢。比如你輸一句 "劉翔的前妻的褲襠藏手榴彈的電視劇的名字是什麼呀~~", 它能告訴你。。它叫XXX。。這個本質是一個NLP的問題,即如何將一個自然語言查詢轉換個kb上的結構化查詢,這一步是無數指著kb撈錢的人們夢寐以求的。。你想啊有了這技術搜索引擎得多厲害啊。。你問啥告訴你啥。。微軟小冰得多厲害啊。。你問啥告訴你啥。。智能機器人得多厲害啊。。你問啥告訴你啥。。。

當然還有很多很多其他。。個人了解有限。。也有很多不甚關注的東東。。想到再補充吧


YAGO的作者在vldb 2014上的tutorial講的很好也很新,推薦其ppthttp://resources.mpi-inf.mpg.de/yago-naga/vldb2014-tutorial/vldb2014-slides.pdf


我認為是多源數據的融合最難解決。比如從蝦米音樂網挖出「劉德華」,從愛奇藝等影視也挖出「劉德華」,識別出他們代表的是同一個實體,然後融合。菜鳥的觀點,不喜勿噴,歡迎大家一起學習討論


大致說幾個吧

第一個就是在從網上獲取知識後,怎樣確保獲取知識的準確性,找出不準確的知識然後去掉

第二個就是區別同名的不同實體。比如打乒乓球的劉國梁與文學家劉國梁

第三個就是根據現有的知識推斷更多的實體間的關係,比如周杰倫的爸爸周耀中與周杰倫的妻子昆凌的關係就是公公。


最終的落腳點還是要有基於行業的本體構建,如農業、軍工,如果缺乏本體構建的基礎,後面的運算是個大問題。


個人覺得有以下幾個方面:

1. 知識圖譜的構建方面- 如何從開放的信息中抽取知識圖譜所需的實體,以及實體之間的關係。圍繞這方面研究主要是entity 和relation extraction 。雖然NLP領域也對這個問題研究了很多年,但是在開放信息源中的效果並不是很理想。典型的研究就是CMU 的Tom Michel 組的NELL。

2. 知識圖譜的存儲方面。如何存儲海量的知識,如何能夠有效的更新

3. 知識圖譜的檢索方面。如何給一個自然語言的問題,能夠有效的檢索相關的答案。

4. 知識圖譜的有效推理。小明的老婆的父親--&>小明的岳父

這些問題想想都很困難啊。


看了這麼多,感覺實例匹配還是很有前途的


推理是個麻煩~~~


海量知識的存儲;不確定性推理


推薦閱讀:

美國機器學習方向的 master 找工作前景如何?
如何理解在二維空間內線性不可分的數據,可以在五維空間內線性可分?
如何看待公司里演算法崗位做數據挖掘大多都是抽特徵跑跑現成模型,而不是造框架造輪子?
python實現梯度下降代碼問題?
為什麼深度神經網路要使用權值來連接神經元?

TAG:數據挖掘 | 機器學習 | 知識圖譜 |