如何評價季逸超、Peak Labs 和 Magi 搜索引擎?
季逸超
Peak Labs
Magi - Peak Labs
謝邀。
我是做知識圖譜和搜索的PhD,我之前一半的基金來自CMU機器學習系的never ending language learning(NELL)組,NELL的目標就是在非結構的文本,網頁上用自動的方法來構建知識圖譜;另一半的基金來自Google的Knowledge group。哪個組就是做Google自己的知識圖譜的構建和在Google產品線上的應用,以及開源的知識圖譜Freebase的應用。 在讀PhD之前,我在Baidu做過大概一年的命名實體識別,目的就是自動識別出用戶搜索詞條裡面的命名實體。
所以我應該是懂中文+懂搜索+懂知識圖譜+有工業界經驗的一部分人之一。
不過之前我對 @季逸超 和他們的產品都不了解,也是看到這個問題後才去試驗了一下demo。由於是同行,我會盡量避免,但是可能還是會不自覺的有一定的偏見。大家見諒。
-------------評價開始----------------------------------------------------------
正面評價:
@季逸超 團隊的工程能力非常強,少數幾個人在一年裡可以搭起來可用的demo,水準不輸於我見過的任何一個優秀的工程師。有這樣高效的團隊,相信往後會越來越順利。
知識圖譜的構建和應用也會是文本相關的各種任務上下一個增長點。Google花了很大力氣在做,M$也是,學術界對這方面的關注和投入也在持續增長。我相信往後的幾年,即使是這塊沒能出現類似Uber, Airbnb這樣的顛覆型產品,起碼能把我們日常使用到的各種工具,例如搜索,siri等,的效果提升到一個新的級別。
最後,Maji找准了國內這塊市場的空白,抓到了很好的切入點,原先團隊的積累也讓Magi在資本市場上一帆風順,最後這個問題和36氪的PR(宣傳)也做得很好。例如和PR成功案例,watson,的聯繫,以及各種超出科研基金申請報告中描繪的科幻遠景。這些都是每一個有志創業的年輕人需要思考和學習的。
總之,我覺得magi能成功,以後如果沒有被Baidu抄了去,就會被Baidu買了去。我猜會傾向於買了去,畢竟Baidu自己從頭開始做,要花的人力成本也不低了。國內也很難找到對應的人才。
同時也有很多懷疑:
疑惑1:
是demo里的那些長query(搜索詞條)。長query得理解是非常非常難的問題。更不提理解中文的這種毫無固定格式的問句了。demo中出對幾個複雜長query出一些好結果很簡單,真正應用做的好么?去試了插件的demo後,我覺得做不好。從demo的效果反推的技術來說,離真的做好demo中提到的那類長query,我個人感覺不是量的差距,是質的差距。
為什麼?類比的話,Watson無數工程師,不差錢的IBM毫無業績要求的完全當做一個PR項目來做,目的就是為了Jeopardy。才能對英語這種,有W和H的顯示問句意圖表達的語言,且是Jeopardy固定格式的問題,能夠做到比較好的效果。這個過程大概花了5年。除了有很多QA領域的專家以外,還有很多工程師的hard code提效果。
而Watson至今離真正商用遙遙無期。我甚至不覺得watson可以真的商用。(我個人對QA的感覺是往後這個東西會真的商用,做到滿足大多數日常問答需求。但這個過程可能要5年起步。而且這件事情可能發生在Google,可能在Apple的Siri,也可能是MSR先有paper,但是如果是IBM,我會很吃驚。)
如果Magi能夠做到demo中顯示的長query的分析效果,甚至不需要做其他的任何事情,就可以有大概讓兩位創始人一起高科技人才引進的Eb1A類綠卡這種級別的論文,然後也可以被Google,IBM或者Baidu二話不說的收購。
所以我覺得要麼是Magi的團隊是不世出的天才,一年時間,沒有用戶訓練數據,幾個人,還是中文,可以做到demo里長query的效果,要麼這個就是為了PR目的的誇大。
疑惑2:
Magi所謂的自動從非結構化信息中抽取知識圖譜。Magi主頁上寫的是:
Magi 日益增長的結構化資料庫中目前擁有950個大類3300個子類的2100萬個對象, 囊括從電子遊戲到天體物理、從AV女優到美國總統的方方面面信息, 並抽象出了超過1億6000萬條事實的知識網路
這個效果非常驚人。
非常驚人。
非常驚人。
(重複表示強調)
驚人到什麼程度呢?如果這是真的,這950個大類,3399個子類,2100萬個對象都是真的可用級別的話,那麼:
1,創始人把這個寫出來可以拿任何一個相關領域頂會的Best Paper,會成為Information Extraction領域的新的明星。
類比:Open Information Extraction和我們學校的NELL是比較有名的自動從非結構化信息抽取知識圖譜的工作。前者是University of Washington at Seattle的,後者是CMU的。兩個組光做這兩個系統,都做了超過5年。CMU的直接是機器學習系的系主任領頭,抓取和分析程序幾年來沒有停止過,但是還是做不到Magi的1/10的級別,雜訊也特別多,尚未達到可用級別。數量和質量都不如直接用Wikipedia的dump。而Wikipedia的對象大概有多少呢?500萬左右。
2,Google或者MS會直接願意買,別的什麼都不要,就只是這個系統。
類比:Freebase Freebase (需翻牆...) 是知識圖譜里最好用的。2010年Google花了大價錢買了下來。花了多少錢沒有公布,但是Freebase之前已經拿了$57M的融資,Google花的錢應該是這個的兩倍起,那就是一億美金往上。
Google買了下來之後花了很多人力去提升Freebase的質量和數量,還有社區的貢獻,自動和非自動的方法都上了。4年之後,Freebase的量級是多少呢?3700萬個對象,5億的事實,77個大類
和幾百個小類(具體沒有數了)。
而這3700萬個對象裡面,可用的部分,即信息全面,有名稱,文本描述的有多少呢?
還是500萬。這是Google和我們組合作發布的網頁實體標註里用到的對象集的大小。
而且,這些統計都是英語。
所以如果Magi主頁上宣傳的是真的,那麼幾個人,一年時間,通過在已有的Wiki,百科之類的地方之外,在中文這個比英文更難得語言上,做出了超過Google花了$57M以上收購,並作為下一個核心增長點耕耘了4年的Freebase的效果。
同時,甚至可以說Magi憑藉幾個人的力量,解決了中文分詞剩下5%的問題里的一大半,從此中文分詞甚至可以說是一個solved problem。眾所周知現在分詞95%的情況下已經可以做到非常好了,剩下的5%是罕見詞的問題。而這裡面絕大部分是命名實體,也就是所謂的對象。而2100萬的命名實體是什麼概念呢?一般中文分詞能夠切分出來的詞的數量,大概在幾十萬的量級。在這幾十萬的基礎上,一下子加了2100萬的命名實體,想必從此之後:
- 任何一家中文信息處理公司都基本不用再為分詞擔心,
- 所有在線廣告可以直接通過這2100萬的命名實體效果提升一個量級,
- 所有中文輸入法不會再出現需要一個個選單字的問題,不需要再選擇download神馬行業詞庫,只靠這2100萬,似乎就夠了。
如果這些都是真的話:
跪求公布數據... 跪求深度合作... 跪求不要賣給不開源的黑心大企業。
同時真心為我的懷疑道歉,並求Magi給面試機會......
為了人類文明的進步,前進!前進!前進!
---------------------評價完畢, 技術討論開始----------------------------------------------
我們系的幾個做搜索和信息抽取的同學,以及MIT的做NLP的同學今天討論的時候,認為如果靠Wikipedia,Dbpedia,百度百科,加上從特定行業的網站上做一下table之類的信息抽取,再用開源軟體來搭,那麼大概一個我們這樣做演算法的PhD,加一個後端工程師,做出Magi目前的效果半年左右似乎可以。
如果要demo,那就再要一個會前端的人,1-2個月做一下。
我猜測MaGi大概也是類似的團隊配置,如果只有2-3個人的話。
下面大概YY一下,如果要我一年內做出Magi的demo插件的效果,應該怎麼做。
聲明:我下文會提到非常多的開源實現,由於我只是YY,所以並不需要擔心使用授權的問題。
我之所以會用到那麼多開源是由於人力和時間限制(2-3人,一年),不大量使用已有工具從輪子開始根本不可行。
至於實際Magi用了哪些,不在通過我得到的信息可以討論的範疇。
背景知識:
知識圖譜是一種對人類知識的進行存儲和表示的半結構化數據集。一般知識圖譜的信息中心是命名實體,也叫entity,object,對象,等等。然後常見的信息有:
- 對象的分類信息(ontology),例如:知乎 是一個 網站,
- 對象的屬性(attribute),例如:知乎 的女神數有 xxx萬,
- 對象之間的關係(relationship), 例如:知乎 CEO是 黃繼新,
- 對象的文本描述(description),例如:知乎「是一個好網站,但是有些人居然在上面約來約去,這樣是不合適的。尤其是只約別人不約我的話。」
例如下圖是英文最大的公開知識圖譜Freebase的一個對象:Barack Obama:
而Magi做的事情,基本上可以理解為對用戶的查詢query,在有確定置信度的情況下直接返回知識圖譜中的結果。
Input: query 「郭敬明的身高是?」
do:
1,轉為structured query 「郭敬明[entity]-&>身高[attribute]」
2,從知識圖譜中找到結果 "163cm"
3,評估結果置信度 p(郭敬明身高=163cm) &< 0.5
4, 如果置信度足夠高,輸出結果
output: 知識圖譜中的結果(163cm),或者None(轉為關鍵詞匹配結果)
-------------------------------------開始YY實現,非技術黨可以跳到最後-----------------------------------
首先,我需要一個中文的知識圖譜:
我會先從官網上下載Wikipedia和Dbpedia的中文dump,然後再去抓或者其他渠道獲取百度百科,或者互動百科。然後把他們頁面里的table抽出來,和Dbpedia或者其他的嚴格定義好的semantic資料庫信息一起,作為命名實體(entity,對象)之間的關係。同時把百度百科和Wiki的分類樹(ontology)拿出來,作為基本的類別定義。
這些對於中文可能並不夠,我還需要抓取指定的幾個網站,從裡面用給定模板抽取裡面的命名實體和關係。主要目標是分類信息(ontology),以及表格,列表上的命名實體,關係,屬性,分類信息。然後謹慎的加入Wiki或者百科的數據里。
這樣我就有了初版的知識圖譜。根據現有學術界的進展,靠社區人工編輯形成的知識圖譜(Wikipedia, Freebase),在質量,覆蓋率,精準度上都遠超任意一個公開的全自動生成的知識圖譜(NELL,OpenIE,DeepDive)。所以我會主要依靠中文Wiki和百科,然後輔助定向抓取的自動生成的結果。
這部分是最花時間,也是最關鍵的工作。數據的清洗,不同信息源結果的合併,以及自動抓取和模板分析都有很多dirty work在裡面。這也是我對Magi主頁說的Magi 日益增長的結構化資料庫中目前擁有950個大類3300個子類的2100萬個對象, 囊括從電子遊戲到天體物理、從AV女優到美國總統的方方面面信息, 並抽象出了超過1億6000萬條事實的知識網路
最吃驚的部分。我覺得如果做到百度百科和中文Wiki的數據全部清洗好,然後再加一點點固定網站上的結果就已經非常不錯了。能做到2100萬個可用的命名實體,實在是太出色了。在看到他們向學術界發布的公開數據前我表示難以置信。
一個命名實體想要可用,光有這個詞是不夠的,你還需要有:- 分類信息(ontology)
- 描述(description)
- 一些屬性(attribute)
- 和他的主要的相關對象之間的關係(relationship)
目前最大的公開知識圖譜Freebase的達到這個要求的命名實體數是500萬,還是英文。
有了這個知識圖譜後,剩下的部分都是可以靠在已有的技術上做一些工程開發和優化可以解決的了。
我還需要一個中文分詞系統:
儘管在多年前,可能是近10年前,百度的」百度更懂中文「的廣告系列給大家建立了中文分詞是一個很高大上的技術這個印象。現在經過中國科學家們的努力,中文分詞已經做的非常非常好了。對於絕大多數query,分詞不再是效果的瓶頸。
所以我會直接使用現有的工具,例如中科院的ICTCLAS,哈工大的LTP。
他們對於我的需求基本足夠。
為了更好的效果,我會外掛一些行業詞庫,然後自己再把分詞切碎的長短語通過entity詞表粘貼起來。這可以解決絕大多數問題。
至於進一步的效果提升,需要更多的人工標註預料,或者更好的統計模型,這些都很困難,而且可能在N年內都不會是整個系統的效果瓶頸,所以我會先忽略這些。
PS:其他答案里提到的Magi分詞做到了baidu的效果其實並沒有什麼,對於手工嘗試的query們,開源分詞已經可以做到和baidu不太看的出區別了。
然後,我要對這個中文知識圖譜建立索引:
建立索引的目的是為了對搜索詞條(query)快速響應。有兩種方法可以選擇:
這樣的好處是支持嚴格的結構化query查找,例如:
find 蘋果-&>首席執行官
-------結果---------
庫克
但是這樣要求query必須嚴格匹配,其實非常受限。這個問題叫做semantic search,已經被學術界研究了很多年,但是並沒有成熟應用。
而且,由於一般graph db支持的query結構過於複雜,導致速度很難上的去。而複雜的結構化query和Magi的需求並不太合適,所以我會選擇第二種。
2,搜索引擎的反向索引,例如Lucene,Indri。這樣就是把每個entity的信息作為一個文檔,所有的信息都待著xml tag放進去,然後搜索的時候按照關鍵詞來匹配,拿到結果後再重新結構化,再和query做匹配。
為了支持對名字,描述,關係,類別,屬性的匹配,我把它們各自封裝到對應的xml tag,或者field里,然後每來一個query,我會對這幾個field都做關鍵詞匹配的檢索。
有了這些數據,我就可以對query進行在知識圖譜中的搜索了:
1,先要明確的是,我不知道如何在超過一階關係的長query上在保證recall和覆蓋率的情況下做到可用級別的效果。例如:query:美國的總統的老婆
轉為structured query: 美國-&>總統-&>配偶
返回:米歇爾奧巴馬
這個問題我沒有解決方案,學術界沒有,Google沒有,百度沒有,Magi的視頻和主頁上說的有,demo插件里沒有。
截圖:
Google:
Baidu和Magi插件
可以看出這三者都沒有分析出這個query的結構信息:
- Google似乎沒分析出來,但是通過關鍵詞匹配返回了Wiki結果
- Baidu似乎沒分析出來,但是通過關鍵詞匹配找到了百度知道,以及右側的相關人物(這個我不確定怎麼做,猜測是垂直搜索+搜索日誌中的相關query)
- Maji只返回了"美國","總統",」美國加總統「這三個關鍵詞匹配的結果,丟掉了」的老婆「,把美國放在了第一位,且沒有去重。
可以看出基於目前技術在這種長query里,直接做關鍵詞匹配是比轉結構化query,再直接返回結果要更可信的。
(根據和季大帥哥討論)對於一些長query,例如
"美國總統是誰?他的老婆是誰?"
這個Magi有找到結果,猜測是用pattern,或者是轉為了某種structure,然後在知識圖裡做了推理。
截圖如下(圖中最後):
但是
」"美國總統的老婆是誰?" 就不行了。
然後
」中國首都在哪裡?它的面積是?「 這個推理不對。
」中國的首都在哪裡?它的面積是?「就可以。
這些例子反映了長query理解的難點:
- 從文本query-&>structure query的轉化非常難,一點語言的變化就會帶來新的挑戰。
- 長query往往對應著高階關係,這裡面的noise是乘數關係,每一部一點小小的失誤累加起來就會使得結果完全不靠譜
而搜索是一個對精確度要求特別高的應用,如何在保證召回說得過去的情況下(例如1%的網頁query),達到足夠高的precision?
這是學術界和工業界都沒能解決的問題,我對Magi在能看到的1-3年內能否解決持懷疑態度。
2,但是,我可以做到對直接的命名實體的查詢,以及一部分命名實體+關係的查詢。
前者是:
query:蘋果公司
返回:[蘋果公司] 是 一家消費電子公司
後者是:
query:蘋果公司首席執行官
structured:蘋果公司-&>首席執行官
返回:庫克
2.a,首先解決單個命名實體的查詢
這個是可行的,也是學術界工業界已經做到了的。
這個問題可以定義為entity linking問題,既,給定一個文本,如何找出其中的entity,然後match到知識圖譜中的對象,目前學術界最新的結果大概是50-60%的F值,具體見最新的比賽結果:
Microsoft Research
大概做法是收集足夠的別名,給定一個query後做一次精準匹配,然後把匹配到的名稱的對象拿出來,然後用上下文進行消歧。
這個任務主要有三個問題:- 消除歧義:蘋果是水果,還是電腦?
- 別名,(Alias,surface form)的處理:既如何做到「春哥」-&>李宇春的識別
- 覆蓋率:知識圖譜夠不夠大,夠不夠全。
我相信Magi以後做得好這個。目前的demo上,還不夠好。我個人感覺這應該是最先解決的問題。
例如:
消岐上:「蘋果的首席執行官是誰」 已然匹配到了水果的蘋果。為了大家的流量,我就不截圖了。
而surface form和覆蓋率已然要靠足夠大和全的知識圖譜。而目前已知的做法離自動構建超過人工編輯的知識圖譜距離很遠。
2.b, 然後是基於命名實體的結果之後的一階關係查詢
這個通過關鍵詞來hit到知識圖譜中的關係即可,對於明顯的類似兩個詞的query是做得到的。
我試了一些query,各選三個好的和不好的。
微軟創始人
蘋果公司創始人
北京面積
不好的有(包括我猜測的原因)
「李宇春 性別」 性別沒有match到對應關係
「科比在哪個隊」/「科比 球隊」 知識圖譜里沒有科比的球隊信息
「北京 郵編」 沒有郵編信息
「蘋果創始人」 沒有利用創始人這個詞對蘋果進行消岐
根據這些結果,我覺得是先做了命名實體匹配,然後用剩下的部分做一次對關係的幾種名稱的exact match之類的方法。離能夠解決自然語言多種variance,然後給出和關鍵詞匹配一樣級別的模糊查找,相距甚遠。當然這不是Magi的問題,而是整個學術界工業界都尚未解決的問題。
最後,我需要做一個UI界面來展示結果
這個需要去找一個好的前端來幫我做這個事情=。=
--------------------------------------------總結-------------------------------------------------------------
辛辛苦苦總算是答完了。在回答了如何評價之後又新加了很多我對知識圖譜和搜索現有技術的理解和猜測。通過過程中和大家的討論,以及demo的試用,我個人覺得Magi兩三個人能夠在一年內實現這些技術的應用轉化,非常了不起。但是並沒有看到「顛覆性」的技術進步。
關於magi的總結:我認為大家Magi的合理期望是什麼?
- 通過對Wiki和百科的收集和處理,建立起中文語料里第一個正經意義上的知識圖譜,
- 做好中文命名實體的識別和消岐,做到可用級別的precision recall,
- 做好一定覆蓋率的高精度的一階關係查詢「蘋果-&>CEO」
如果Magi能夠在最近的幾年做到這些合理期望,那麼Magi就一定會成功的。
我對Magi聲稱的目標表示懷疑地方是:
- 從無結構的文本中自動抽取大於中文百科的量級的對象和關係,
- 根據已有知識圖譜做自動推理,從而「一生二,二生三,三生萬物」。實際問題里一般這就是「garbage in, garbage out」,
- 對長文本query的自動理解,生成高階關係的structured query和查詢。
我對這些表示謹慎懷疑。
個人傾向是把這些當作是面向普通用戶,而不是投資人或圈內同仁,的宣傳手段。當然這無可厚非,可能大家還要好好學習
最後,
我個人相信往後的5-10年將是文本理解的一次新的革命性的發展,deep learning的新的表示方法,和知識圖譜帶來的全局知識信息,將會大大提升計算機對自然語言的理解和處理能力。
共勉。
今天正好拖延症爆發,沒還是沒有心情刷代碼。還沒有申請beta key,先根據視頻來評論一番。
Disclaimer: 我認識季哥,我也知道他在做NLP相關的開發。但我並沒有在工作中或者私下裡向任何人詢問這個產品的細節。所以今天的分析與評論,只是建立在演示視頻的基礎上的。
第一個感覺,這是一個很贊的產品。我很佩服他能用一年時間沉下來,把這個產品完成。同時這個產品的概念很新穎,與Wolfram Alpha以及Watson等到成熟的產品相比,也有不少的亮點。將知識圖譜以可視化的方法展現出來,是符合現在交互發展趨勢的。
同時,能把中文的分詞做到百度的程度,也是極好的(我不是黑,百度的中文分詞是有實力的,其他兩家大廠我覺得真心沒有peak優化的好,百度只是商業上太操蛋了)。而產品後面的統計、學習、推理能力應該也達到了很高的水平。特別是能夠對兩個連續的問題進行推理,是一項很不錯的工作。
但與Peak的認識不同。我認為,對於AI領域的產品細分,應該關注在解決問題的邏輯。Magi解決問題的邏輯和 Siri, 當下的Wolfram Alpha, Watson 等並沒有太大的區別。基本上遵循了一個Utterance Input --&> Parser / NLU --&> Knowledge Query --&> 結果展示
這樣一套邏輯。在這樣的邏輯下,將會面對的是一些硬碰硬的比拼。在這個領域,應該還存在幾個其他的解決問題的範式。如果有機會跳出去思考,可能會有一些更有意思的結果。
我也有一種預感,這個產品,in general,會有不少的競爭者。只是其他公司目前不擅長中文罷了。所以這是Peak的優勢之一。結合他之前的項目,他對人機交互方式有著極大的熱情,這是Peak的優勢之二。所以說如果這個產品能在需要人機交互的場景中更好的利用起來,必將有無限的前景。感謝大家的測試和關心,也感謝各位友人前輩能看完我這廢話連篇的文章!
1、請大家不要在這裡要碼,第一次公開測試肯定要一步一個腳印,請見諒。我們在拚命地完善,正式版本出來後,query理解能力滯後於實際積累數據覆蓋面的問題會有很大好轉,敬請期待;
2、其他評論和回答中的實現猜測都比較初級,而且在工程實踐中是超出人力或有很多漏洞的(因為我們都試過),正式版上線後我們會適當分享我們的方法和模式(也許就在這個貼),並把中間的lambda演算過程以可讀的文字描述形式輸出在結果頁,方便大家結果判斷和幫我們抓bug。
3、插件在部分瀏覽器版本下無法在 HTTPS 頁面執行,或者需要手動授權,我們會嘗試解決;
4、跪求不要慫恿我和員工開源或者發 Paper 啊,我們只是個小商業公司,我個人不能一拍腦袋就把別的員工的努力成果抖出來啊... 但今年年底或明年確實會有一些開源東西出來;
5、Magi 不是 Peak Labs 現在進行中的唯一項目哦 ;-P
我們會繼續努力,千里之行才剛剛開始~
=======================
不知道 Magi 的朋友可以看這個短短3分鐘的介紹視頻:Magi by Peak Labs,最近就開始 beta 了。本著不軟文的原則,我不放產品地址,也不呼籲大家來 apply for beta,我也保證不在今後任何推廣中提及本帖和視頻的數據、影響、反饋。我們無融資計劃,所以您也不用擔心您的點擊會給我們提高哪怕一分錢的 valuation。
Magi by Peak Labs視頻
更新——解釋下為什麼視頻是英文的:這個視頻挺早的,因為當時要給一些老外看懂我們的項目,所以就做了英文的解說,後來就沒錄中文版的了,沒有其他因素。我司之前別的產品有很多各國本地化,所以一般都是這麼錄一個國際通用語的。
Magi 一詞源於《聖經》馬太福音 (Magi 原讀作/?m?d?a?/,為區分所以產品讀作/"m?d??/或/"m?g?/)。馬太福音中, 東方三賢士 Caspar、Balthasar、Melchior 合稱 Magus (即波斯文中的 Magi),分別代表神所造萬物、普世觀念、萬主之主的法則 —— Magi 搜索引擎憑藉與之對應的知識圖譜、概率統計、神經網路三種工具 (文章後半部分有說明), 模擬人類求索的三大要素: 事實、輿論、直覺。當然,如果你也是個宅的話,一定知道動畫《Evangelion》中也有 Magi,雖然設定略有不同,但對我們的啟發很大,何況這個設定如此帶感哈哈。
看此貼的應該多是專業人士或業內朋友,所以無需我多費口舌介紹。主要發散性地解答常被問到的一個問題:Magi 和 Wolfram Alpha、IBM Watson 有什麼異同?
Alpha 和 Watson 是我個人十分佩服的產品,相較之下 Magi 才剛剛上路,成熟度有差距。我個人更是不敢妄下任何優劣結論,只以一個心懷尊敬的晚輩的角度來講講。畢竟從產品設計角度來說,異同明確:
相同之處——定位類似,都是圍繞數據和邏輯的基礎服務。
三者都是嚴肅的知識邏輯引擎服務。它們不是娛樂向的問答機器人,對於無法回答的問題,無論是 Alpha 還是 Magi 都不會回復你一個摳鼻子的表情;也不是個人助理,不會幫你設鬧鐘或唱歌講笑話;也不是 Web App 入口或框計算,不會有非統一的結果呈現,也幾乎沒有人工定向優化介入 (至少 Magi 是這樣, Alpha 有一定的人工成本),所有輸入都利用在本地的數據用統一的表達結構和自動化的邏輯處理生成能夠作為中間值的輸出,額,就是這麼拗口...
事實上,這類基礎服務是很多智能產品所必需的。如 Siri 中的科學計算就是使用 Wolfram Alpha,而 Magi 能讓這些助理和機器人更聰明更全面,對於更多非預設的通用問題能夠直接給出答案,而非 「下面是關於【有哪些茅盾文學獎得主】的網頁」。語音助手需要考慮很多垂直細分領域和人性化功能,比如 LBS 服務、加日曆設鬧鐘,而 Magi 則專註於非垂直的東西,即通用數據和邏輯 (詳見下文差異部分)。我們從一開始就是以做服務的思想規劃產品,這就是為什麼我們自己不做語音助手,甚至 Magi 的網頁、圖片搜索都不提供翻頁按鈕。Magi 本身有多少用戶我們不太在意,更有成就感的是讓 Magi 成為無處不在的台前或幕後英雄。事實上,早在公布前 Magi 就已經悄悄與一些大大小小的產品展開合作,甚至有的已經上線服務幾百萬用戶數個月了,我們將在合作方同意的前提下陸續公布出來一些
我相信以後的泛 AI / 弱 AI 領域將會很細分。有一天,當人腦對電腦的生物介面(腦機介面)足夠成熟時,這些零散的產品將一同顛覆人類的教育和認知過程,想像一下:每個人從有自我意識開始,就能藉助體內植入的晶元和長效電極,通過思考從 Magi 獲得知識和邏輯結果。那時,孩子們永遠不用背《唐詩三百首》了,因為誰都會,老師只要教學生做人和使用這些知識即可。現在,每個人都用至少12年的基礎教育來學習和重複前人的知識與經驗,而在未來,也許只需要6年就夠了!就算省下來的6年智力活躍期沒用來探索前人未入之境,談談戀愛也是極好的。又比如,學習演奏吉他時,耳朵試聽到和弦的聲音波形,上傳到 Alpha 進行傅里葉變換,得到音高成分後通過 Magi 獲得對應指法,最後直接刺激神經讓手指精確地按下琴上的品位...... 如果讓我再進一步展開想像,以後不僅知識是共享的,人腦的閑置資源也可以共享,做到「腦聯網」 (我瞎編的詞,還蠻cool呢):比如我在看動畫休閑時,我左腦的一部分就可以臨時短路掉,並「租」給需要的公司兼職寫程序。甚至,可以用腦子的一部分資源,與他人的一部分形成臨時的統一行為體:比如我閑置的設計能力可以跟A閑置的編程能力和B閑置的寫作能力生成一個組合的「人」去 Peak Labs 當產品經理。但願我能活到這 Stand Alone Complex 的一天,如果沒活到的話,死後就把我的腦子裝到衛星里,發射到太空做雲計算吧,我通過「腦補」來給大家提供各種去馬賽克服務,做到真正的「透明計算」;還能通過「腦放」來讓你的小米活塞化身 K3003, 括弧笑。
不同之處——要解決的問題不同、背後的技術方法不同。
Technically,這三者是的前端邏輯相似,但數據採集和處理方法不同:
Wolfram Alpha 是計算性引擎 (Computational Engine) + 一定的一般性知識。Alpha 對科學計算的能力十分強大,這源於它背後強大的專業數據和 Mathematica、Wolfram Language的深厚積累。但也因此,Alpha 的覆蓋面比較垂直,對更多廣泛的、接地氣的東西無從處理,畢竟數據源不同。而 Magi 是使用爬蟲的,除了少數垂直數據源接入,都是來自網路 (新聞、論壇、問答、Wiki 等等),通過我們參考生物學中負反饋調節和tRNA反密碼子而開發的文本/超文本轉結構化信息片段抽取修正模型 (Flat Text to Structuralized Chunk) 和多來源交集消歧來獲得較為可靠的知識,只需初期一定量的配置,即可做到後期 unsupervised 的增長和糾錯,可以說是一生二,二生三,三生萬物。所以與Alpha 不同,Magi 能覆蓋哪些東西,不是我們說的算,而是網路和數據說的算。我也必須承認這種模式帶來的弊端,即時效性和可靠性權衡困難:目前 Magi 大概有幾天左右的信息滯後,這是為了從多個來源收集足夠的佐證 (新聞或事件要轉載開來也是需要時間的),也讓那些大規模出現的謠言冷卻並淘汰從而避免污染主資料庫 (比如xxx死了這種日常假新聞)。雖然信息時效性尚有不足,但 Magi 的處理實時性設計指標要比 Alpha 和 Watson 高,因為 Magi 是要作為日常搜索引擎的,響應速度和並發能力要跟網頁搜索部分不相上下,疾如島風!
恩,我們未來也會為 Magi 賦予更強大的科學計算能力,但目前還是優先服務好大眾用戶。另外值得一提的是,Alpha 和 Mathematica 之父——Stephen Wolfram 的一個觀點: 「不需要造出通用AI」。事實上,上述三個產品沒有一個是真正狹義的「人工智慧」,都是取巧的辦法。另外,我對 AI 二字也是心存敬畏+懷疑的複雜態度,我們在連生物智慧都尚未搞明白的當下,「人工智慧」卻來得如此名正言順而又情理之外。自主和自動的界限到底在哪裡?總之,在一切還尚無定論前,現在的 AI 只是把客觀規律性發揮到極致從而偽裝出來的假的主觀能動性。有學界預測說2025年-2040年會出現強人工智慧?這已超出我的專業範疇,我和大家一樣拭目以待!
啊又扯遠了。。。回歸正題說說 Watson ~
Watson 現在是 IBM 商業解決方案編製,我沒體驗過,所以只能講講參加 Jeopardy 時的那個 Watson 給我帶來的思考。首先不得不感慨英文真是 NLP friendly 啊,自帶空格、5W1H、時態明確、句式規範,君復何求!用那個膾炙人口的經典問題來說:「When 60 Minutes premiered, this man was the U.S. President.」,假如我們要做一個專門回答這類問題的程序,怎麼做最方便?四個關鍵:疑問詞、量綱、三元組、填空,然後請自行領悟~ 簡單粗暴但弊端也顯而易見——對問題和數據的規範性要求較高。這就是為什麼 Magi 現在要用三種方法同時處理一個問題:Magi 將每一個輸入問題都分發到標準知識圖譜、概率統計、神經網路這三種不同的策略,各有優先順序,衝突時進行投票,最後才呈現給用戶。可以看文章上面截圖中的三個例子,其實標準知識圖譜也能響應第二個關於暴雪娛樂的問題,只是其結果是概率統計結果的子集或真子集,但它並不是無意義的,因為它肯定了統計結果。同理,(就我的經驗和理解) 神經網路和狹義的 Deep Learning 適合處理連續的感知, 而不適合獨立去處理離散的邏輯,但是除了適合它的特定問題外 (圖3),它的結果在更大的系統內也是有決策價值的。我們還從 Watson 身上學到了很重要的一點,就是容忍自然語言中的眾多歧議,比如下面截圖中這個看起來很簡單的例子。《刀劍神域》同名對象可存在多種歧議,爬蟲獲取新聞或網頁文本後,提取演算法根據上下文決定 domain 和深度。Domain 的準確性和豐富性是至關重要的,否則 Watson 就無法處理好 tricky 的 「60 Minutes」。我們開發 Magi 的大部分時間都花在了 domain 的自動派生和修正演算法上,因為它貫穿數據採集、索引、查詢三端,更是不依賴人工編輯 / UGC 的可持續發展方法。
總結來說,Alpha 的精髓在計算知識,Watson 的精髓在信息處理,Magi 的精髓在數據學習。可以說,Magi 的核心就是「用 / 信息 / 修正 / 信息提取演算法 / 的演算法」。哦對,Magi 還有一個重點就是中文!Alpha 和 Watson 都是英文的,Magi 是中文的。別笑,這個真的區別很大。還是那個道理,假如中文自帶空格+5W1H的話,我的天空星星都亮了,都亮了,亮了,了。這不是老祖宗的錯,錯的是世界、時辰、圓盤、諾瑪。
產品部分的收尾,想跟大家聊聊數據與技術開放:
1、我們會儘快開放 Magi 的各種組件 API,比如:派生關係、網頁/圖片搜索、語義處理、實體描述、數據抽取、同義詞之類的。能免費的盡量都免費,因為我們深知技術創業公司的不易,經常要自己動手豐衣足食。比如,整個互聯網都沒有個好用的開放中文圖片搜索 API,我只好自己寫。當然我們也只是家小公司,所以懇請大家不要濫用和攻擊...
2、我們也一直關心學術領域的應用。例如,Magi 的結構化數據抽取功能可配合定製規則來在特定論文文本庫中進行事實邏輯提煉,從非結構化的輸入數據中生成可查詢的知識庫 (目前 Magi 中的天體和元素的部分知識即是如此而來)。此外,已有的 entities 庫、知識圖譜、訓練好的神經網路也會適時開放給統計和研究機構。
3、Magi 遵守 robots 協議的最嚴格可能性:如果未指定 UA 為 MagiBot (不區分大小寫)的行為且未使用通配符的話,會自動遵循所有其他已指定的機器人的配置中最嚴格(可訪問路徑最少)的一個。同時,爬蟲會識別頁面中的 reference links, 儘可能將網頁上的參考鏈接加入最終結果頁面,以尊重嚴謹性和第一作者 (追溯鏈接中的參考鏈接)。
產品部分就先說這麼多吧,以後想到什麼就補充
-----------------------
最後說說我們公司吧。本著不軟文原則,不提及任何數據和資本。
Peak Labs 是一家沒有使命但有責任、沒有規則但有原則、沒有野心但有動力、沒有文化但有靈魂的,專業而不專註的公司。對我們來說,創業其實就是個玩:做點有意思、有難度、能攪屎的事兒,絕不背負任何東西。總之,我們是一家很有自知之明的迷茫小公司,可能明天就倒閉了的那種。
但因為我們不苦不累不差錢,也不奢望成功成名成公知,所以能開心、安心創業。我深知這甚是奢侈,甚是幸運,但還是想說:現在年輕人創業雖然火熱,請一定要量力而行,你又不需要為就業率負責。如果家裡並不寬裕,或有更壞的情況,那創業不是 the way to make a change, 因為它成功率太低,我們每個人都有可能明天就下崗。更多時候它不會讓你過上百分之一的人生,反而成為負擔,然後過的很不開心,這是對自己和家庭的不負責。畢竟 「家人、朋友、美食, 這些才是最重要的!」 - 陳·風暴烈酒
一年沒上微博、知乎,書寫能力退化殆盡,今揮揮洒洒字四千有餘,雖發自肺腑一氣呵成,然廢話連篇狗屁不通,故真誠地感謝一直看到這裡的朋友,謝謝!臨 Mac 涕零,不知所云…
匿了.. 跟他們的CFO劉欣暘一屆的北大附中校友.. @季逸超 比我小兩屆, 他們公司不少人都是校友, 還算比較認識..
不過我也必須扒一扒, @季逸超 根本不是你們想像的那樣無師自通自學成才.. 他和 Peter 的父母都是北大的教授、博導, 之前都是在美國的大學教書.. 他們從小在國外受最好的教育, 家庭環境也不可能沒影響.. 劉欣暘在我們一屆也比較有名, 早早數學聯賽保送北大光華, 所以這倆人的數學能力我是不質疑的..
我只是不喜歡別人捧成"天才", 可以說我狹隘, 我也絕不否認他們的努力, 只是想說事出有因, 沒那麼多天才..作為同行, 我饒有興趣的試了試這個產品(由於拿不到邀請碼, 只試了試必應的搜索插件, 以下評測結果全部基於該插件的結果得出)。百科類問題, 也是我平時工作中遇到的幾個比較棘手的問題, 在我的測試中, 則重點測試了我們的用戶的真實用到的一些query,得出一些結論:
============
簡短總結:
1、東西很棒!雖然離片子里宣稱的人工智慧和人民群眾理解的知識問答系統,還有不小差距
2、兩個人特別棒!還是大學生,花一年時間做出來這麼宏大的一個項目,雖然細節方面和百度、IBM這樣大公司幾年打造出來的系統仍有差距,但絕對掩蓋不了兩人的牛逼光環
============
1) 知識數據確實很全,而且實體識別非常準確。諸如書籍《大敗局2》,藝人「周杰倫」,疾病「乳腺癌」,都能夠比較好的識別, 我相信他們引以為傲的非結構化文本中的知識提取在這中間起了很大的作用.
2) 同樣, 對於query中的實體屬性識別也比較全準確,能夠做一些簡單的同義詞處理,比如XX的生日, XX的出生日期
3) 但是任何NLP系統,不做好準備早早脫離父母溫暖的懷抱,投身到real world data中, 都會死得很慘.... "周杰倫哪一年出生的" 聽的懂, 但 "周杰倫哪一年生的" 和 "周杰倫哪裡出生的", 就會理解錯誤, 感覺只能很簡單的進行一些 entity - attribute 的抽取。
"&<大敗局&>的作者是誰? " 能夠回答出來是吳曉波,但反問"吳曉波寫過哪些書?" 就無能為力了; 官方宣傳片里可是出現過"美國總統山都有哪4位總統? 他們分別是哪個黨派的?" 這樣高大上的例句啊....
如果Magi想做一個直接給出答案的知識搜索引擎, 那麼必然要求非常高的召回率(Recall Rate); 但是面對人民群眾潮水般的自然語言query, 作為NLP從業工人, 我真的很想哭... 這時候真的很羨慕百度阿拉丁系統(Google的也類似), 只需要在Precision足夠高的時候給答案就好了,Recall完全有百度網頁搜索撐腰。
4) 可能還存在一些bug. 比如"北京大學"和"上海交通大學「可以正確識別, 但是」北大「和」上海交大「就無能為力。如果真的是「無人工干預」 「自動生成派生」 實體,怎麼會連如此簡單的同義詞對都無法搞定?(BTW,我們當時直接利用百度百科的infobox裡面的「同義詞」這一個欄目,就把所有高校的簡稱搞定了,這還是結構化數據)
所以作為挑剔的同行,總結下來:
1)非常佩服Peak Ji 和 Peter Liu,兩位大學生能夠敢於挑戰這麼有難度的東西,一年之內做出來的東西,已經是相當可用。這東西,百度花了幾百號人做到現在,IBM Watson花了一個研究院5年時間;我作為一個同行也深知這裡面每一項,分詞、實體識別、語義分析、知識關係挖掘、結構化數據查詢、同義詞等等等,這裡面每一項NLP task,都需要投入巨大的人力和時間來優化
2)這東西的商業前景,我個人感覺肯也許不應該是一個面向最終消費者的知識問答引擎,因為群眾的奇思妙想會把你欺負的再也不能愛了…… 但是如果對某個垂直領域進行優化,也許大有可為,參考IBM如何把Watson推銷給華爾街。聽說徐小平投了你們,必定也是看好你們這個領域的價值,加油!
同行不免挑刺,而且評測方法也比較隨意,難免有失偏頗,很多想法也是想當然,兩位聽聽便罷。不過心中實在佩服兩位青年才俊,兩位加油!
利益相關:如何評價出門問問推出的 Ticwear 手錶智能操作系統? - 知乎用戶的回答今年(2015年)初,得知Google宣布放棄FreeBase,關閉其服務,把數據獻給wikidata進行維護。這件事令我很失望,因為知識圖譜是我很感興趣的領域, google都不玩了,不知道, 未來會怎樣。 我以前用1年時間學習並嘗試做過知識圖譜,語義網,圖資料庫(Neo4J)的工作,最終結果是讓自己很失望,我知道這件事現在是做不下去的,而且,我看了業界很多東西,基本都是做不下去的。而且,業界越是宣稱使用牛X技術的項目,越是短命,相反,使用簡單技術,傳統的軟體工程手段,堅持簡單邏輯的地方,才能有一定的生存空間。
今天看到這個討論,感覺挺好,「知識圖譜」這件事件我覺得還是應該有人做。
不過,對於@季逸超的答覆,我覺得,不是一個嚴謹的技術人員的風格,我真沒看到四千多字的回復裡面有什麼實際內容。特別是,下面這句話,讓我覺得作者的態度很不誠懇,能不能用客觀技術的角度交流?
「通過我們參考生物學中負反饋調節和tRNA反密碼子而開發的文本/超文本轉結構化信息片段抽取修正模型 (Flat Text to Structuralized Chunk) 和多來源交集消歧來獲得較為可靠的知識。」
三賢人電腦即將誕生,不愧是2015年。使徒要來了。
利益相關:NLP及知識圖譜從業人員。
首先吐槽:
1. 你們在哪兒買的赤木直子博士放到Magi裡面的?
2. 42才是我們永恆的answer!燒死異教徒!
3. 我真是太喜歡視頻里的這些捏他了。
不知道團隊有多少人,但是這麼短的時間開發出來一個這樣的系統還是非常非常讓人impressive的。毫無保留地相信你們不需要打廣告來融資,拿出這樣的東西分分鐘無數VC/PE上門求入股。
不過 @季逸超提到的和Watson以及Wolfram Alpha的不同之處,我倒是覺得沒有那麼準確。Common Sense/數據計算,Watson和Wolfram Alpha都在努力,我個人覺得科學計算當然是Alpha的核心競爭力,但是已經發展得很完備了。大家都對基本知識有很強的傾向,雖然看起來他們倆都沒太能處理這些,我覺得只是因為這東西的確太難了。。。Alpha也許會毀於對Mathematics的執著,Watson也許會衰敗於大公司病(僱傭太多科學家。。。或者完全相反,僱傭太多銷售人員),但是他們對數據,還都是很重視的。
我覺得Magi遠超前兩者的地方在於,它能理解中文。這是他們在一段時間內無法實現的目標,(除非IBM來收購Magi)。當然,Magi想進入英語世界,也許也不會那麼簡單。
雖然你們也許不在乎資本界的事兒,只想做一個很酷很酷的東西出來(已經做到了),但是在視頻里提到的在電商中應用這些東西絕對是一件非常有價值的事兒。
香奈兒2014春夏季新品有哪些女裝是粉色系的?這個樣例問題我用插件搜不出來啊。。。
我覺得要是馬雲來把你們買了,baba的股價興許能漲回去。
我們就不笑話某東用來處理客服問題的深度學習研究院了。
當然,也許你們真的就是那麼酷,那就去改變世界吧少年!
(不過創始人里有光華的師兄耶,不太符合設定吶)
演算法和技術上很領先。稍微討論下這個吧。
1. "蒼井空的胸有多大?胸比她大的女優有哪些?"
之前都沒見過有人在線上系統里使用帶打分的指代消解呢。不知道這個「代詞 她 指代 蒼井空 , 根據語境則轉譯為 90」是用的什麼方法。
2. 「蒼井空的出生地點在哪」/「蒼井空在哪」
識別出來「蒼井空」「在哪」,並以此展開查詢。結果里列出了「蒼井空」這個entity的一個關係「出生地點」,但是我猜在句子分析的過程中只識別entity,不識別relation?識別了實體,分析了問題想要的結果,然後看實體通過[任何關係]到目標結果類型的路徑?
我猜是這樣的,要是有什麼其他黑科技,請!告!訴!我!我很好學的。
「蒼井空出生地點在哪」就不出結果了,那個「的」看起來還蠻重要的。
3. 「蒼井空的胸有多大?胸比她大的東京女優有哪些?」/蒼井空的胸有多大?胸比她大的出生地在東京女優有哪些?
之前已經知道資料庫里有出生地,但是使用3的問法和1的結果一樣。也許兩個子問題是通過一個查詢來獲得結果的,而且側重於前一個問題?指代消解用在對話語境管理中是很大亮點,同時處理兩個互文的子問題可能野心就有點兒太大了。也可能和2提到的類似,問題識別分析過程中更注重entity識別(效果非常好),對relation的識別不太重視(消歧太難!)
在分詞、實體識別、問題的意圖識別,crawler收集網頁的廣度,信息抽取的準確度等方面,我覺得Magi都是很強的。要不是我最近才換了新工作,我絕對要投份簡歷去看看。。。
討教。
1. 結構化數據怎麼存的吶?
我陸續弄過RDF資料庫,OBDA用RDB,圖資料庫,現在感覺neo4j很酷的,推薦給你們。
當然這可能班門弄斧了,非常希望能賜教。
2. 可視化怎麼弄的啊?
毫無經驗,要是有點兒思路我就能去學習學習啦。
祝早日完成改變世界的目標。
我來普及下知識圖譜唄,給能翻牆的小夥伴們。
http://knowledgedesignpatterns.com
https://www.youtube.com/watch?v=pGtrs_SqZOU正在調lstm的我看到這條 消息表示 NLP還是很有前途的 ,繼續努力搬磚。
看了下感覺確實很牛逼,分詞 實體識別 關係抽取 同義詞 搜素引擎 每一項都是很艱巨的任務 一年能做出來很牛。
本來想體驗下的,不過裝了插件不能用 尷尬知乎不管軟文廣告了么?
我試了三個問題,有些准,有些不準。
不太理解神經網路的用法,真是標準知識圖譜、概率統計、神經網路這三種不同的策略,然後進行互相比對和投票的話,這其中的用神經網路的必要性在哪裡呢?還很好奇又是如何權重各個策略的計算結果呢?另外既然搞了中文版,啥時候也考慮下日文版吧,那樣就可以用日文搜aoisora啦:D
瀏覽器和輸入法都關注過,但是瀏覽器出來的時候不是蘋果手機沒能用上,輸入法出來的時候收費也沒試用【屌絲樣吧。。】;整體感覺做的東西都比較好玩有趣,這次的Magi也是一個看著好玩的東西,但是看介紹Magi背後的東西必須是要有一定積累和領域知識才能做到能用,十分好奇最終效果已申請betakey;很羨慕題主年輕不差錢有技術可以各種折騰,另外對神經網路對應「直覺」莫名感覺有點戳到笑點
我來幫超總反饋負例。
很贊,很佩服! 不過最新的頁面能打開,但還是要申請beta體驗碼,只能等等了。chrome和Safari插件貌似都無法安裝,其他知友也是這種情況嗎?
這個問題就是季逸超本人問的?
當初做迷人瀏覽器的時候,這兄弟自己搞了個猛獁瀏覽器,我們都覺得有些驚艷
後來來我們這面試過,同事說他就是高考前無聊搞了個瀏覽器玩玩..好像app store還小賺一把
當時老闆太忙沒見到,現在重來應該力勸老闆聊聊
最後沒來我們這,好像去uc實習了玩玩
沒用過,不評價好壞,這種功能需要靈感和新思路,還要從語法結構和辭彙積累上入手,這是個浩大的工程。
你猜我是OP還是ED
可惜フタリ既不是OP也不是ED而是悠之空的OP
緣之空也不是cuffs社的
很多搜索結果不大準確,不過我覺得還是很棒的!加油!
百度最近也開始全站https了……
這個完全不知所云了
換個名氣大的,這個語義理解錯誤 一單名字倒是沒錯hhh
第一步對了,接下來就錯啦
問它甲烷還能答對來著=A=
先贊一個,此系統如果能完善商用,是一件能造福人類的事情。
外行抖個機靈,搜蒼井空沒問題,用蒼老師搜就無結果了。這種同義詞的匹配跟用戶相關,如果不同的問題能根據用戶的不同特點來顯示不同的結果就完美了。比如一個學生搜蒼老師,可能真的就是找蒼老師,一個碼農可能就是找蒼井空了~
我07年暑假曾經在autonomy (後來被HP收購)做過intern。當時我的project就是和一個senior developer做類似的search engine,當年我們叫它IDOLsearch。等我8個星期的intern做完,我們已經能夠完成5種question:what, where, when, how, which的問答,正確率達到80%多。後來我走後公司又對這個進行improvement。
在我看來,magi並不是一個創新的project,他討巧在中文語言搜索而已。
1. 多數用谷歌吧 2. 搜狗有"知立方" 這個產品, 不妨對比一下.
推薦閱讀: