為什麼 Quora 要嚴格限定用英文問答問題?
Quora類問答網站,後台一定有一個全文搜索引擎以支持問題檢索,而全文檢索首先需要將問題和答案分為單詞,就是專業術語分詞,這對於英文較為簡單,只需以空格進行劃分就可以了(當然處理組合詞n-gram也有一些麻煩)。但是對於中文、韓文、日文等就不同了,字與字之間沒有空格,中文分詞就需要有中文詞庫,同時還要有統計信息根據概率確定單詞劃分。據傳Quora開始使用的是開源全文檢索工具Sphinx,後來覺得不滿意自己進行了重寫,Sphinx不支持中文分詞,需要在編譯時加入中文詞庫如MMSeg才行,顯然Quora還沒有加入中文分詞功能,這樣如果放開中文提問和回答,搜索質量將是用戶難以接受的,因此只能暫時不考慮中文了,而且Quora中加入中文的過程估計也會很長,因為需要向他們自己的全文檢索引擎中加入中文分詞功能,這似乎對知乎有利。
Quora Language Announcement
我們發現您來自中國,或您使用的是中文瀏覽器。請注意,現階段Quora只支援英文,所有問題與回復都必須只用英文。只有當問題與回復的內容,必須直接參照外文時,才允許使用非英文文字。請到這裡瀏覽此規定的細節:Need Quora questions be written in English?(http://www.quora.com/Need-Quora-questions-be-written-in-English)。謝謝您的配合。
家祭無忘告乃翁
已下是一位Qurora上的,來自Babson College的叫做Balaji Viswanathan的Quora 2012 top writer回復我的。
當時我們在一個叫做China: Why don"t I see people from China active on Quora?的問題上討論。
B:Ultimately Quora should have multiple subdomains like Wikipedia does. But, you never want to mix languages in a single place. That is the recipe for confusion and trouble.
我:How about facebook? Would it be better if we address translation behind.B:Translation is still not a perfect thing especially when it involves pages and pages of text as in Quora.
B:In Facebook, you don"t interact much outside your friends circle and posts are quite small. There is a fair degree of homogeneity in people"s friend cricles. Although occasionally I get my friends posting in Thai, Chinese, Ukranian, Russian, Marati, Tamil, Swedish and Spanish, they are overall less compared to my friends posting in English. So, I could tolerate and sometimes even play with their stuff.
B:However, in Quora you are interacting with people all over the world in a single place regardless of whether they are your friends or not. If you have everyone talk in different languages, it would be absolute chaos.
B:Facebook is like your home. It is ok for each one to have their own language at home. Quora is like a big conference. If you have all the speakers speak in their own languages, the system breaks down. The solution is to have multiple parallel conferences.
為什麼facebook最初只允許學生註冊?
創業重點是做減法
以後可以允許其他語言,但不是現在想像一下你收到5個回答,一打開4個韓語1個西班牙語那種心情
因為它希望全世界都用英文,這樣只要懂英文就可以看全世界的回答了,但是不做限制,各國語言數據都有,但是你不懂我,我不懂你,還不如用百度和知乎了
三年過去了,還是不能用中文。這並非什麼技術問題,中國一大票網站哪個不能同時處理中英文,更不要說知乎了。quora就是不想而已。不要扯什麼中文與字母文字了,其他字母文字也沒見quora支持。所以說不肯做中文,是怕槍打出頭鳥,害怕一旦做了中文就像谷歌一樣被中國牆了,那就呵呵了,這種原因有人信?
就好像5線譜一樣。你把吉他的6線譜給其他樂器的人看,和5線譜給所有其他樂器的人看的差別。
目前信息集成領域,特別是數據質量方向,對中文的控制還有很大的欠缺,就像樓主所說,拉丁語系大部分都是以單詞形式,用空格進行分開每個單詞。而中文則沒有分隔符,都是連在一起,對中文信息的提取有很大障礙,值得我們研究!
推薦閱讀:
※為什麼Quora上全是印度的噴子?
※如何評價近年來中國在 Youtube、Quora 等國外網站上面被誇大甚至神話的趨勢?
※Quora 一句話回答和吐槽回答多麼?
※為什麼很多人明明寫出的英語完全沒法看,知識儲備極為匱乏,還要去Quora上回答問題?
※Quora 有哪些大神?
TAG:Quora |