知乎在構建話題層(Ontology)方向上是如何考慮的?
topic,知識分類這些都是保證Ontology的一致性,這個搞不好的話,知識間的聯繫,問答的相關性和質量都無法保證,系統的智能推薦/推送質量肯定也不高。這個說大了也涉及語義網方面的考慮,了解此方面的同學能不能聊聊?
因為對話題層的實現感興趣, 最近就在"知乎"上簡單做了一些"話題實驗".感覺結果讓人非常不樂觀. 實驗雖小,但因為"話題層"和我自己的企業有關,也有一些理論上的設計支撐,所以對於"知乎人"應該有一定參考價值.
實驗方式包括(1)一些話題和人的跟蹤: 主要在思維和投資領域的話題,主要跟蹤實驗了「張亮」。他算名人了,別怪我曝光。
(2)一些話題(人文和專業)的拋出 (邀請名人/乎友 回答, 放養式等待回答)(3) 撰寫答案總結,考察反應實驗結論:
(1) 不同知識領域的話題層建構難度有很大差別. 像技術/經濟學 等近代學科稍微輕鬆, 像社會學/心理學 這些學科難度加大, 像生活理念/世界觀/信仰 類 相當困難.(這一類問題比我們直接感覺到的要多得多)文字層面的問答這一載體形式,連語境都很難傳達,更不要提 假設, 概念共識之類. 而從"知識論"來看,這些是基石.
(2) 以內容為主線,以人為標籤的組織思想應該是靠譜的. 但人對內容的干擾非常大,特別是在 上面所說的 「困難的知識領域」. 這種干擾可能會基本摧毀內容這一主線. 在"問題解決領域"有 良構問題 和劣構問題 之分.前者屬於簡單問題,如"一刀兩斷",後者屬於複雜問題,如"剪不斷,理還亂".思考下 wiki和Quora,我感覺還是 良構問題居多.(3) 「混亂是一種效能」,(源自《新數字秩序的革命》沒看過的不要斷章取義)這種效能要發揮他的實用價值,必須面對一個信息顆粒度較大的載體。比如一本書,一部電影。這一點 amazon 和 豆瓣 都證明了給我們。這個原理也可以側面說明結論(1)中的尷尬原因。許多知識領域的共識很少,信息顆粒度很小。而自提問題的顆粒度並不能得到保證,忽大忽小。即使一個確定的問題,用戶的理解上也是忽大忽小。這很要命。具體實例涉及一些人和問題,就不說了。如要了解更多,可以私信我。今天無聊,正好考慮一下這個問題,首先覺得話題層是很必要的東西,對於話題的擴展和知識的積累具有很強大的作用,不過難點在於兩個,如何在網路環境下高效的實現,如何建立數據——需要編輯的力量
從實現的角度想了一下,也看了半天Quora的話題Ontology的表現,發現用樹型來描述這個結構是不正確的,因為話題節點允許有多個父類話題。能否用樹來模擬,嘗試半天覺得貌似邏輯上會把自己繞死;還有關於邏輯操作上,由於多繼承關係的存在,很有可能會有Cycle的出現,這個應該是在添加子話題和父類話題是禁止的。描述這個話題Ontology比較合適的結構應該是有向圖,並且圖中不能出現強聯通,也就是Cycle——今天看了才想起來這個原來叫做強聯通。而為了避免資料庫的頻繁讀操作,直接從SQL這類資料庫中讀取Topic關係數據不太現實,所以,肯定需要單獨做Cache。
於是,Cache warmup期間,開始構建這個有向圖結構,基本保持&
問題可以假設為,圖G為不含強聯通的有向圖,當加入邊E時圖變為G『,這時候如果G』不含強聯通,那就允許用戶操作,反之不允許。這個時候,貌似只需要從邊E的任何一個頂點v在圖G『上進行深度優先搜索即可判斷出是否構成強聯通,最差情況複雜度應該是O(M+N),也就是話題數量+話題關係(邊)數量。
都是瞎想,貌似可行,大家可以一起討論討論
PS: @黃璜 提供的Quora上的相關問題:http://www.quora.com/Are-Quora-topic-hierarchies-a-directed-acyclic-graph這居然是11年的問題,我真是會挖墳。
正如@刁士涵 所說,知乎對於問答質量和智能推送的需求沒有這麼高,特別是又經過了3年以後的現在,知乎並沒有將自己定位為一個知識庫,而是傾向於更大眾化的媒體。既然是大眾化的,對於描述的精度和尺度( 也可以說是@竇凱提到的顆粒度 )便不能有太高要求。
此外,對於話題和內容完全是open而並未局限於某個知識領域的平台,建一個全局Ontology至少就目前來看是不可能的。當然在信息結構化上,採用多種方式混合還是可行的,比如最近越來越熱門的Wolfram|Alpha,便是結合了本體以及許多其他技術實現的。通過認真學習刻苦讀書,使我眉目晴朗,精神煥發,深刻認識到一個人的思想認識和對生活的態度,決定了他將來是否可擁有的財富,注重實踐行動,踐行收穫了融會貫通的成長,一切得益於寫作思考與行動,真正懂得了愛學習,與不愛學習的區別,我從一個不會漢語拼音的農村婦女寫作愛好者,到刻苦努力學會上電腦學會打字寫文章,以寫作的方式與自我的靈魂溝通,融入大自然,做到我手寫我心,在寫作中鍛煉自己,成就自己,展望美好的未來。
推薦閱讀: