Google Knowledge Graph 會不會對問答網站造成衝擊?

http://www.36kr.com/p/109843.html


Google 在搜索上的目標是能夠真正理解用戶query的含義,並且能夠提供更直接更準確相關的內容和答案。要想達到這個目標,必須一方面理解用戶搜索語義,一方面更好的理解和組織內容信息。以往的搜索都是依靠關鍵字來更好的匹配query和網路文檔,Knowledge Graph 的目標是更優於關鍵詞匹配這個處理方式,將query對應到一個entity, 也就是一個實體(概念,人物,事物),用entity 來進行搜索。所以標題提到的Knowledge Graph 「以關鍵字為中心" 其實是不準確的。

比如用戶搜索的是 [jaguar], 這時候用戶想要的有可能是 jaguar the car, 也有可能是 jaguar the animal,如果僅僅匹配關鍵詞(keywords), 搜索結果會是一系列摻雜各種能夠匹配到這個詞的網頁文檔。但如果搜索引擎能夠理解用戶查找的是哪一個概念,就能夠對結果進行更好的篩選和組織。這是Knowledge Search 優於 keyword search 的重點。

當然,用戶query往往沒有那麼簡單,不只是一個單一的entity,而是更複雜的,比如說一系列的人物事物。這周 launch 的 List Answers 是Knowledge Graph 在更好的理解用戶query 和組織內容答案上的增強。http://www.google.com/insidesearch/features/search/knowledge.html


知識圖譜是一種對知識結構化的嘗試。難度在於如何為具體的「知識概念」建立對應的知識結構,這個結構因「知識概念」本身的不同而千差萬別。比如「居里夫人」這個概念的知識結構,就是一種關於「人物」的知識結構,人物知識的結構化一般包括生平,成就,言論,作品等。搜索引擎根據資料庫中對「人物」類別的結構模型,從目標頁面里的關鍵信息來判斷該頁面內容是屬於人物類結構中的哪項,再按照某種權重對頁面進行結構化歸類。

這個產品的確實現了搜索引擎的一個進步,就是降低了用戶篩選和分析搜索結果的成本,使用戶能得到關聯性、結構化更高的搜索結果,並排除了很多冗餘信息。可以想像,很多像「人物」這類能進行標準結構化的「知識」類別,都會逐漸被圖譜化。這是google向wiki的優勢領域(高度結構化信息)靠攏的一種嘗試。

但依然有大量的知識是無法進行標準結構化的,也就無法用通用的演算法來解決。比如知乎上的大量問題,「如何學好英語?」,「如何理解某部作品」 等等,這些問題的背後都隱藏著一個知識圖譜,絕不是一個簡單的回答就能盡美的,甚至不是某個人的回答就能完善的,而這些問題的知識圖譜也不是標準化的,而是千差萬別的。搜索引擎永遠都無法深入到這些知識的領域裡。只能由人來完成的任務終歸也只能交給人,而不是軟體和處理器。對於這類知識進行結構化是「知乎」這種用戶雲計算模型的優勢,而提升知識的結構化水平也是知乎這類產品未來進化的一個重要方向。

如何打造一個知乎的「知識圖譜」?答案在知乎的信息協作機制中找。理解知乎現在的知識是怎麼通過用戶協作產生的,就知道怎麼利用這種機制來打造一個「知識圖譜」產品。


個人認為不會

首先,Google為什麼要推出這個產品,根本原因是因為演算法無法明確用戶的最終目的。所以只能把更多的信息陳列出來,讓用戶自己挑選。從根本上還是以關鍵詞出發的解決模式,我並不看好這個解決方案,因為按照這個思路走下去,需要陳列的信息會越來越多,本來就已經信息爆炸了,還要做加法。反正信息多了,壓死人不賠錢。

其實只要是以關鍵詞和演算法為出發點的模式,就很難繞過這一道語義分析的坎,我們可以感覺一些Google這些年來的搜索結果質量一直基本維持在一個數量級上,每一次的更新,其實只是把已經解決的問題,解決的更好。而沒有解決的問題基本還是解決不了。比如說這個問題本身"谷歌推出以關鍵字為中心的知識圖譜功能,這樣的功能會不會對類似知乎、Quora的問答網站造成衝擊?"類似這樣的問題,以前在Google里不會有結果,現在還是不會有結果。

那谷歌為什麼還要堅持呢,可能是由於基因吧,《浪潮之巔》里關於公司的基於有一段很經典的論述。一個公司是因為什麼發跡的,最終就會因為這一點被困住手腳。


這個問題真是有意思,google是搜索引擎,負責搜尋內容。quora是社區,負責生產內容,這就是像是渠道商和生產商的關係,怎麼會對彼此造成威脅呢?knowledge graph的推出只會讓彼此的合作更加高效而已。

knowledge graph的推出,讓我想起了一個很久遠的笑話,當時張藝謀的《英雄》剛上映的時,引爆了互聯網上的兩大搜索引擎,GOOGLE和百度,有趣的是,網民們用百度搜索「英雄」,出來的是張藝謀的電影訊息。而用GOOGLE搜索「英雄」出現的居然是「海格力斯」等一類的東西。這在當時還鬧了個不大不小的笑話。

互聯網在不斷的進化,從1.0到2.0到3.0,始終秉承著一個原則,就是減少人與機器之間的隔閡,關鍵字是一道坎,語義分析又是一道坎,恰如我上面的那個例子中一樣,語義分析需要參考的因素太多,難度也極大,而且更關鍵的是就是你1000個人中間999個人都想了解《英雄》這部電影,但是剩下的那個想了解歷史的人,就應該付出額外多的搜索成本嗎?如果把這個比率放大,那又是多少人?為什麼不能把這個權利交換給用戶本身去抉擇?

此外,在我看來,knowledge graph還有個開創性的意義,他降低了深度檢索的門檻和成本,我相信有很多人根本就不知道搜索引擎還有一大堆附帶著各種符號的搜索方式,就算知道,也會對那些@#¥%的語義符號望而卻步,當我們需要對一些偏冷門或者page rank不高的信息進行檢索的時候,只有來回不停更換關鍵字和翻頁~翻頁~翻頁~,你讓我去學習下搜索技術?天啊~饒了我吧~我還要加班呢!

knowledge graph無疑是個極具創意的玩意兒,在大分類欄目下,我想要的不過是puma的生物資料,請把你的運動品牌拿開~謝謝!

所以,不管是對於搜索狂人還是搜索菜鳥,knowledge graph對他們來說都是一項很親切的工具,特別是隨著演算法排名越來越優化,檢索的效率只會越來越高。

順便吐槽一句,如果某天百度抄襲了knowledge graph,競價排名會單獨算個目錄嗎?XD


以關鍵字為中心的知識圖譜(Knowledge Graph)功能的搜索相比於傳統搜索改善的是結果的"系統性"和"完整性"。

知識圖譜功能的推出,關鍵字不再是關鍵字,而是將關鍵轉變成一個具體的事物,可以是一個概念或者一個理論一個地點一個人物等等。 可以不再把」apple「當成一個關鍵字,而是當成一種水果或者某個公司。水果或者公司本身就會有相對固定的屬性,比如公司的創始人,年收入等等。每個事物的的信息背後都會有固定的schema,知識圖譜所做的就是通過技術的手段整按照schema指引系統的為某個事物去整理信息....

回到問題本身.. 在知乎或者quora,用戶更多的是來來獲得"碎片"信息的,這些碎片信息可能會給你帶來靈感..如果想了解某個"事物"更好的辦法也許是維基百科...

寫到這突然意識到,zhihu的領域可以借鑒知識圖譜, 藉助知識圖譜的想法去整理知友提供的碎片信息....


我覺得知乎和知識圖譜不是同一個目標。知識圖譜是將於關鍵字相關的東西,也就是吳琦所說的關鍵字的一些屬性給展示出來。這中間關於的人的思考會很少,因為屬性的相關性已經擺在那裡了,可以通過各種分析演算法給取出來。而知乎更加註重的人思考之後的內容,這些東西是很難通過某種演算法來拿到的。

知識圖譜影響最大的應該是那種百科類型的網站了。


不會,只是將帶有關鍵字的內容更加集中起來,但我想這樣是不是會加重用戶的心理成本,畢竟在海量的信息里找尋自己的需要的內容可不是一件大家樂意的事情,內容是囊括了,但不精準了。


贊Veronica丁 和 李季

上面更關注的是關於search的內容,關鍵點就在於理解用戶的輸入,通過用戶有限的輸入幾個或者幾十個字裡面獲取到用戶所要表達的確切含義由於近義和每個人的思維理解的原因是不太可能完成的目標,所以就需要通過更多的方式獲取到用戶的關鍵點、問題場景:不管是社交網站、歷史記錄、社會熱點等等都是方向,這方面最起碼還有跡可循;

但是關於用戶search與內容的對接方面就會涉及到知識的結構化方式,我接觸到的知識來看對知識的結構化大部分都是給知識定義屬性;但即使是商品等有明確分類的內容定義出來一套完整的屬性也是比較困難的,不然個性化推薦的準確率應該會更高。當然商品相對知識的已經更容易分類了。

寫的很矛盾,對知識的結構化用到了附加屬性、分類、場景化 一直都沒有找到一個很滿意的結構化方法,希望有這方面研究的興趣的人可以探討一下


嘗試用技術來影響知識能力提升的都是腦子轉不過彎的人。你會把谷歌當作提升知識能力的工具嗎?

演算法,是技術人的單維度想像。


推薦閱讀:

如何看待知乎的非原創?

TAG:知乎 | Quora | 谷歌Google | GoogleKnowledgeGraph |