知乎話題的組織結構如何改進?

數學話題下出現大量來自數據挖掘的題,包括 「國內有多少活躍的個人博客?」 這樣與數學關係牽強的。查了一下,原來 數據挖掘&<統計學&<數學

更坑爹的是這個:http://www.zhihu.com/topic/%E7%9F%B3%E6%B2%B9/organize

石油&<礦石燃料&<能源&<環境保護&<人類未來&<人類&<靈長目&<哺乳動物&<動物&<生物

這兩個例子中,每一級的父子關係都挺合理的,但是長鏈條就荒謬了。


知乎近期會對話題的結構、使用方法做較大的調整。

有一些機制還在開發過程中。稍後改進上線時,我會寫一篇答案詳細解釋具體改動。新的規則上線後,會有更多工具開放給用戶。

站上現在確實存在很多不太恰當的話題關係。對於大家問題和回答中提到的一些不合理之處,我們已經找到了解決方法,但在現有機制下暫時還無法處理。

對於長鏈的父子關係帶來的不合理,我們內部現在的處理方法是臨時性取消部分相關度較低的關係並記錄,在新機制上線後會重新添加這些話題父子關係。這樣在目前可以基本保證話題頁面不會出現過多相關性不高的內容。

建議大家也可以暫時採用相同的做法。如大家提到的幾處中

1. 數據挖掘 與 統計學

2. 能源 與 環境保護

3. 環境保護 與 人類未來

4. 人類 與 靈長目 (這一條相關度是足夠的,但「人類」的含義過於豐富,很多討論不應該進入「靈長目」話題中)

以上父子關係我稍後會解除。

有任何關於話題使用的疑問、建議都歡迎在評論中討論或直接私信我。

=-= 小心劇透 之 分割線 =-=

--

2013 年8 月更新:

知乎話題結構的梳理和產品改進工作已經階段上線,請參考

知乎上的話題父子關係有何作用?

什麼是合理的話題結構?

如何給問題合理地添加話題?


所謂話題,其實是指我們在用一個符號代表一個符號群。

但是符號有如下幾個性質

1.不同語境下意義不同

2.邊際很模糊,很多符號只有中心含義,而無邊緣含義

樹狀結構試圖以某種角度,發現符號之間的從屬結構,就是所謂切入角度,比如,學問就分自然科學和社會科學,但也許有人也會把學問拆成專業和常識(這樣拆也成),總之這種拆分的角度是多種多樣的,而且更嚴重的是,你在對下一層級進行拆解時,也許就沒法用這個拆分角度了,所以其實最終這個事情變成你在大腦中還原了平時約定俗成的分類習慣,看似嚴謹的樹其實不嚴謹。

樹狀結構的缺點是,對於某個符號,他跟另一個符號的關聯關係就只有從屬關係了(其實還可以有相似關係,同義關係,某一語境下的同義關係等複雜關係),試想數據挖掘和統計學這倆如何判斷從屬關係...人人網和NYSE如何判斷從屬關係...

之前在公司做商品品類分類時發現的這個問題(淘寶品類很複雜且很扁平,儘管如此仍然有部分圖狀)。對於物品來說尚且如此,對於含義更複雜的知識類這個問題更嚴重。

我覺得比較好的方法是用集合角度看話題,話題之間會有相交,也會有包含

然後問題和話題的關係是從屬關係(是非兩種狀態就夠。)

於是這會是一幅各種圈圈劃地為牢成的圖譜,而非網狀和樹狀的知識拆解。

#--------------------------------------------------------------------#

回歸到目的本身,我覺得這種信息管理和組織的方式,目標還是為了讓用戶更舒服的檢索信息,系統化思維有用,但不是最常用的思維方式,而且每個人有每個人的拆解方式,通過相關的跳轉,看似不嚴謹,但實際用戶更易接受。


我覺得還是參考wikipedia的目錄結構吧

http://en.wikipedia.org/wiki/Wikipedia:Categorization

Category tree organization

Partial view of Wikipedias category system. Note how the arrows point downwards.

Categories are organized as overlapping 「trees」, formed by creating links between inter-related categories. Any category may contain (or 「branch into」) subcategories, and it is possible for a category to be a subcategory of more than one 「parent」 category. (A is said to be a parent category of B when B is a subcategory of A).

There is one top-level category, Category:Contents. All other categories are found below this. Hence every category apart from this top one must be a subcategory of at least one other category.

There are two main kinds of category:

  1. Topic categories are named after a topic (usually sharing a name with the Wikipedia article on that topic). For example, Category:France contains articles relating to the topic France.
  2. Set categories are named after a class (usually in the plural). For example, Category:Cities in France contains articles whose subjects are cities in France.

Sometimes, for convenience, the two types can be combined, to create a set-and-topic category (such as Category:Voivodeships of Poland, which contains articles about particular voivodeships as well as articles relating to voivodeships in general).

Subcategorization

Many subcategories have two or more parent categories. For example, Category:British writers should be in both Category:Writers by nationalityand Category:British people by occupation. When making one category a subcategory of another, ensure that the members of the first really can be expected (with possibly a few exceptions) to belong to the second also. Category chains formed by parent-child relationships should never form closed loops. If two categories are closely related but are not in a subset relation, then links between them can be included in the text of the category pages.If logical membership of one category implies logical membership of a second, then the first category should be made a subcategory (directly or indirectly) of the second. For example, Cities in France is a subcategory of Populated places in France, which in turn is a subcategory of Geography of France.

Diffusing large categories

A category may be diffused using several coexisting schemes; for example, Category:Albums is broken down by artist, by date, by genre etc.Metacategories may be created as ways of organizing schemes of subcategories. For example, the subcategories called "Artistname albums" are not placed directly into Category:Albums, but into the metacategory Category:Albums by artist, which itself appears in Category:Albums.Although there is no limit on the size of categories, a large category will often be broken down ("diffused") into smaller, more specific subcategories. For example, Category:Rivers of Europe is broken down by country into the subcategories Rivers of Albania, Rivers of Andorra, etc.

It is possible for a category to be only partially diffused – some members are placed in subcategories, while others remain in the main category.

Information about how a category is diffused may be given on the category page. Categories which are intended to be fully broken down into subcategories can be marked with the {{catdiffuse}} template, which indicates that any pages which editors might add to the main category should be moved to the appropriate subcategories when sufficient information is available. (If the proper subcategory for an article does not exist yet, either create the subcategory or leave the article in the parent category for the time being.)

To suggest that a category is so large that it ought to be diffused into subcategories, you can add the {{verylarge}} template to the category page.

Non-diffusing subcategories

It is useful to identify non-diffusing subcategories with a note on the category page. The {{All included}} and {{Distinguished subcategory}} templates can be used.Not all subcategories serve the "diffusion" function described above; some are simply subsets which have some special characteristic of interest, such as Best Actor Academy Award winners as a subcategory of Film actors, Toll bridges in New York City as a subcategory of Bridges in New York City, and Musical films as a subcategory of Musicals. These are called non-diffusing subcategories. They sometimes provide an exception to the general rule that pages are not placed in both a category and its subcategory: there is no need to take pages out of the parent category purely because of their membership of a non-diffusing subcategory. (Of course, if the pages also belong to other subcategories that do cause diffusion, then they will not appear in the parent category directly.)

Subcategories defined by ethnicity and sexuality are often non-diffusing subcategories. See also the gender, race and sexuality categorization guideline.


如果不跳出話題結構看這個問題,無解。

跳出看一看。

為什麼會有話題?

quora也有話題。按我的理解,話題是為了將問題分類,以方便不同興趣的用戶對不同類別的問題關注,從而實現高信噪比的信息推送。

基於類似的考慮,圖書館對圖書也採取分類管理,以方便讀者查詢。國內應該多採用中圖法分類,詳細介紹網上搜搜,或參考:http://kkb.hhu.edu.cn/ztfl/zhongtufenlei.htm

現在知乎的話題結構改進方向有點像中圖法的思路,建立一個龐大的類樹形結構(說它是類樹形結構,是因為它可以還有跳轉)。

但這顯然對於知乎來講是條死胡同(個人看法,歡迎板磚),原因如下:

1、中圖法是個體系,有專人維護,而知乎做不到。仔細看看你手中的圖書,很多圖書在出版信息頁面已經給出了中圖分類數據,甚至有上架建議。圖書採購到館後,還會有專人去確認、分類。圖書歸還後,還會有專人去根據書號按位置碼放。知乎呢,我不清楚知乎的話題架構是如何分類的,即使是非常科學的,也無法保證用戶在提問時,按知乎的要求正確歸類。因為用戶不會因為一個提問,專門把知乎話題分類學學及格了。知乎也不可能招聘一批人,專門干這事。志願者?沒人願意長期干這個事吧,尤其是以後用戶越來越多,信息也越來越多。

2、即使是中圖法,對於知乎上面的信息結構也有無法克服的問題。知乎上面的很多問題,很難去簡單歸為某類話題。一個時事問題,可能最終眾人卻認可一個有關歷史的分析;一個IT技術問題,最終涉及工業設計、流程管理、美學等。更何況,每個人有每個人的認識,怎麼歸類?強行歸類?無異自殺。這種開放性、不確定性,其實正是知乎的魅力之一。

塵歸塵,土歸土。回到原點:怎樣利用類似於話題的東西,提升用戶分享與獲取信息的信噪比?

我的觀點是:既然管不好,限不了,索性放開了吧。

領域已經合進了話題,話題再變成標籤算了。像以前一樣,每個人可以選擇、創造話題(標籤?),知乎的後台做什麼結構、索引、排序......,對用戶透明就行了。用戶不關心這些,用戶關心的是你推給我的信息是不是都有價值;我提出的問題是不是能夠得到更多關注;我獲取想要的信息是不是方便......。

我希望知乎做的是,利用演算法(姑且這樣稱呼),加上用戶樂意付出的簡單動作,實現信息的有效過濾。而且,這種做法,可以隨知乎長大而強壯,不必推倒重來。

我知道這是一件很不簡單的事,但很有意義,值得去努力。

補充:

看了狼大人在問題http://www.zhihu.com/question/20415205中的回答,作了一些評論,與這個回答有一定關係,摘補在這裡:

話題在知乎中的地位我還沒有完全想明白。初步的想法是:

1、話題首先應該是個人知識管理中,知識點的標籤,是私人性質的。只有成為私人性質的,發起人才會更合理標註。

2、當用戶在使用知乎過程,他的行為會使他自身具有了若干標籤屬性。知乎可以根據這些標籤屬性,為這個人形成一個「用戶大標籤」(抱歉,沒想到合適的詞。就如同某些婚戀網站會為註冊會員事先測評,形成一個個人婚戀方面的資料庫,以提高配對成功率)。

3、當同類話題下問題(或關注人,等)達到一定級別,知乎後台可以進行一些關係化處理。這種關係化簡單如合併,比如「網路銀行」與「網銀」,簡單的關係化處理可以完全依靠機器;複雜的處理可以通過對重點、高質量用戶的行為分析來實現;最後,可以依靠部分人工校驗。

4、最終,「用戶大標籤」與問題標籤(答案也可以有標籤)匹配,實現知乎個性化高信噪比知識推送。

*****************摘抄結束*********************************

關係化的處理是難點。這個問題本質就是討論關係化處理,但局限在組織方式上了。如果只寄希望於從組織方式上找到一個方案解決,我認為是不靠譜的。

還要增加人工方面因素,但如何利用用戶人工操作,還真沒想明白。


個人觀點:話題的「組織結構」不重要,重要的是讓對一個問題感興趣的人看到這個問題的可能性儘可能大。

「組織結構」最大的問題,一是概念本身的不確定性,二是從屬關係的隨意性。

概念不確定:比如「人類」這個概念就很模糊,是生物學意義上的人類?社會學意義上的?還是其他什麼學科意義上的?其外延在哪裡?每個人都有不同解釋。

從屬關係的隨意性就更頭疼,從不同的的角度出發,其所謂「父話題」和「子話題」都不同。

所以,此問題無解。

從此引申是不是可以變換思路,放棄顯式標籤,而採用隱式標籤的方法呢?記得2002年看過微軟研究院的一個報告,就是搜索引擎的反饋機制,通過讓用戶對搜索結果反饋(點擊「相關」和「不相關」)的辦法,通過機器學習,在很短的時間內精確地找到用戶所要的信息。知乎能不能這樣做呢?給每個問題不加顯式標籤,而根據對話題本身詞句以及關注的人群等的動態分析,判斷是否該推薦給一個用戶?這種先進的核心演算法的開發,將可以成為知乎的主要技術優勢和他人難以仿製的壁壘。


學習了,不過這個話題結構太複雜了,一般人不需要了解那麼清楚,只需要正常使用就行了。


您錯了,恰恰是因為是網狀結構才出現了您舉例中那個坑爹的一串。

生物-&>動物-&>哺乳動物-&>靈長目-&>人類

生物-&>動物-&>溫血動物-&>哺乳動物-&>靈長目-&>人類

這樣有迴路的圖根本不可能是樹。

而且一個話題可能有多個父級話題,大家就可以發揮聯想,使勁聯繫了。


支持黃濤,還更有待強化立體網路圖!

順便吐槽:

知乎 又有回答 又有 評論 糾結了。

老帖子被回答的概率很低。因為提問者都可能不回來了。


最近在研究用戶原創內容平台信息架構這塊,就想到知乎的話題創建和分類,以下說幾點個人感受:1、知乎的用戶是分內容創造者(擅長解答的領域)和需求者(想要學習的領域),這兩個身份是並存的,可隨機切換。2、用戶的提問場景本身就自帶了一些相關的話題,這些靠關鍵詞判斷準確率真的不高,目前能想到的是人工判斷+累積,逐漸完善只能匹配;3、匹配當前場景相關話題應該基於提問用戶(需求者)需要+回答用戶(創造者)綜合考慮(因平台而異);4、匹配相關話題主要有內容、用戶、群組這幾個維度,所以需要給每個維度以同一標準創建標籤,匹配的時候從技術上識別相關就比較容易了;5、每個用戶因自帶標籤,所以打開同一篇問題,匹配的相關因該也有所區別(這點個人覺得其實非常不好,因為每個人因該有擴大認知的需求,而不應該只給他看到她關心的)…目前處於入門階段,但是在思考的過程中,發現這是個非常繁雜龐大立體的知識體系,但是一想到用戶會因此更便捷的找到當前問題的解答方案、擅長該問題的小夥伴和討論該問題的群組,就覺得非常有意義。PS.本人所在的平台是三四線城市老百姓的本地交流和互助平台,涉及到的內容比知乎複雜得多(用戶文化程度、當地風俗、方言等決定內容特性:廣而淺)


現在的話題結構確實有些問題。

也常見關注的話題下出來一些關係不大的問題,原因一般都是多級子話題造成的。

我有點建議。

一是限制某話題顯示的子話題層級,比如兩級或三級子話題下的問題不顯示,這樣一般能避免很多現存的問題。

二是打破現有的父子話題結構,改為關聯性。因為現在的話題可能顯示很多層子話題下的問題,卻不能顯示父話題的內容。其實很多時候父話題的問題比很多層子話題下的問題更值得關注,也更能吸引用戶。所以建議將父子話題關係及不能形成循環的規則去除,拋棄偽樹形結構,採用徹底的網狀結構。我相信體驗會更好。

也許有人會說,話題之間還是會存在包含與被包含的關係。沒錯,我不否認,但這不是必需的。包含與被包含的關係也是相關關係,而且可能相關性比較強。用相關性也可以很好的體現包含與被包含的關係。

至於具體的演算法,我沒有完整的想法。大概用矢量餘弦定理就可以定義吧?


於是 好好的一個RTS話題 就成了 MMORPG 話題

知乎的組織結構急需改革


在技術暫時不能很好的解決該問題的時候,是否可以考慮人工干預,如請「話題」裡面的優秀的回答者來管理話題?


推薦閱讀:

有沒有帶狗狗的情侶頭像?或者其他好的情頭。?
準備單身一輩子,領養個孩子需要準備些什麼?
24歲的你,覺得正常的收入該是多少,是否心中還殘存著自己的興趣夢想,卻做著一份不好不壞的工作?
如果看待知乎的「戰艦少女」話題被投訴刪除的情況?

TAG:知乎建議反饋 | 知乎話題 |