IBM 是如何訓練「沃森」人工智慧平台的?

Google 可以依賴搜索引擎和大量應用的交互來訓練自己的人工智慧系統,

但 IBM 並沒有那麼多面向消費市場的應用和產品,那沃森人工智慧系統是如何訓練出來的?


謝邀。只能做個搬運工了。

答案來自Quora裡面的YU Feng。How does IBM"s Watson work?

翻過來如下-

高度俯瞰大體如此A very high level view looks like this

1,
向Watson資料庫喂入公開的海量非結構和半結構數據,就像搜索引擎建立索引一樣。這一步是線下的,比如在Jeopardy秀之前就完成了這一步。

Huge amount of unstructured and semistructured data that is publicly
available is feed into the Watson database, just like what a search
engine does to build its index. This phase is offline, i.e. it is done
before taking the jeopardy show.

2, 電視節目直播的時候,真人選手看到問題的同時,問題以文本的形式發送(輸入)Watson。[Thanks to Marcus, see comment
for the link]At the show, the questions are sent in text form to Watson
the same time human players see them.

3, 文本形式的問題作為搜索請求,在資料庫中搜索,就像在Google里搜索一樣。只有幾百個最佳答案得以保留。

The questions in their text
form are used as a search query to search the database, like you search
it at Google. And only hundreds of the best search results are kept.

4, 搜索結果,和問題一起,被用來在資料庫中重新檢索支持證據。

The search results, together with the question, are used to retrieve support evidence from the database.

5,
每一個搜索結果,在回答問題的同時,也形成了一個假設,然後再根據重新索引的證據來評估這些假設。然後在多個維度上為這些答案評分。

Each search result, when answering its question, now forms a
hypothesis. This hypothesis is then evaluated on the retrieved evidence.
And the answer is scored on many dimensions.

6, 使用合併演算法,這些高緯度問題被排位,然後其中的某一個就贏了。

The hi-dimension scored answers are ranked using some merge algorithm, and then someone will win.

7,如果Watson對它最終得出來的答案足夠自信,他就會嘗試回答這個問題。當然,把答案轉化成一個
對happy jeopardy的問題。

這段需要看過這個節目的人才理解,一點背景資料。(

該節目的比賽以一種獨特的問答形式進行,問題設置的涵蓋面非常廣泛,涉及到歷史、文學、藝術、流行文化、科技、體育、地理、文字遊戲等等各個領域。根據以
答案形式提供的各種線索,參賽者必須以問題的形式做出簡短正確的回答。與一般問答節目相反,《危險邊緣》以答案形式提問、提問形式作答。參賽者需具備歷
史、文學、政治、科學和通俗文化等知識,還得會解析隱晦含義、反諷與謎語等,而電腦並不擅長進行這類複雜思考。)

If Watson is confident enough with its final answer, it will try to
answer that question. Of course, convert the answer into a question to
happy jeopardy.

說了這麼多,Watson是一個複雜的系統,以上描述的每一步都應用了各種演算法。再就是整個系統在並行平台上運行以便用最快速度給出答案。

That said, Watson is a complicated system that
each phase described above adopts various of algorithms. And the system
runs on a parallel platform in order to give the answer as soon as
possible.

更多信息,Google 「Deep QA」。

For further information, Google DeepQA.


謝邀,首先需要說明的是 IBM的Watson系統中提供的各種服務都是基於已有的的數據學習而來的,這個是不必質疑的。沒有足夠的數據,IBM就會花大力氣找數據。數據量不夠怎麼辦,涼拌,結果就是結果不理想。

這個可以看看目前的Watson提供的服務的數據來源,在watson的官網上(IBM Watson for Oncology)有一個導航欄Offerings,這裡面是IBMWatson智能系統已經有數據基礎的領域,有Engagement Advisor, Explorer,Discovery Advisor,Oncology,Clinical TrialMatching和Knowledge Studio。

我們一個一個的看看他們的數據來自哪裡。

首先第一個是Engagement Advisor,這個其實是個問答系統。這個問答系統可以面向很多領域,不同的領域就需要有不同領域的數據支持。一個應用場景就是,你來到銀行,找到銀行的財務顧問,然後和他討論你和你媳婦下半輩子怎麼過,退休之後怎麼既能夠有錢花,還能夠到處去玩。。。這是財務顧問需要了解你現在有哪些保險啊,有什麼具體的投資啊等等各種信息,但是呢,他怎麼可能知道這些呢,除非你告訴他。好了IBM watson說了,來,我來告訴你,然後Watson怎麼知道的呢,它和ANZ Bank進行了合作,把他的數據搞過來了進行分析。它可以自動的回答客戶提出的問題,客戶可以從銀行的機器人中獲取理財上的建議。在獲取了用戶的問答數據之後,還可以預測用戶將要什麼。[1]

2、第二個就是Explorer,他的數據全部來自企業,主要是幫助企業用戶分析企業內部的數據,以便提高信息的利用率。Watson Explorer已經幫助數百家用戶實現了數據關聯,構建出了以信息為中心的應用,並提高了決策的質量和速度。[2]

3、oncology。首先是和安德森癌症中心、紀念斯隆-凱特林癌症研究中心(Memorial Sloan Kettering,MSK)、泰國康民國際醫院等頂級的腫瘤醫院合作,向醫院部署Watson的智能系統,通過分析這些醫院中所具有的病歷,專家的治療經驗,現有的學術研究等,幫助他們制定、觀察和調整癌症患者的治療方案,這樣Watson也就有了這一領域的數據積累。[3]

4、在健康醫療領域,IBM Watson真的是不惜血本了。IBM的人工智慧Watson與美國藥品零售商CVS合作,利用預測分析和Watson的認知計算,來改善對慢性病患者的護理管理。CVS有7600多家的零售藥店,1000都加診所,以及7000萬用戶,這有海量患者行為信息、臨床數據、購葯數據和保險數據等。然後在2015年4月份受夠了Explorys,它是一家可以查看5000萬份美國患者病歷的分析公司,這些是一個比較大的數據量。IBM 花費 10 億美金,收購醫療圖像分析公司 Merge Healthcare公司,主要是收購他們的分析技術。[4]

其他的數據來源就不在這裡贅述了。從IBM Watson官網上提供的這些服務來看,每一個服務都是需要大量的數據支持的。一般的數據分析,數據的質量越好那麼結果越好,高質量的數據越多,結果越好。至於使用的分析技術,由於不公開,個人猜測主要還是主流的自然語言處理、數據挖掘和機器學習方法,或者是在此技術上針對數據的特徵進行的改進。

最後的最後,在我看來,現有的Watson還是數據是王道,數據!數據!數據!!!重要的事情說三遍!


不是Watson Team的。看過些內部的學習材料。在這就瞎叨叨兩句。

首先,Watson可以分析非結構化的數據,也就是說可以根據詞語以及上下文,分析語義。進行總結,存儲。基於此,Watson本身可以搜索分析公開的數據(搜索引擎、新聞之類的),同時我摸有很多合作夥伴分享數據給他(比如Twitter)。本身Watson有一套核心的常識庫。用於基本的判斷。這些數據構成了Watson的基本學習能力。

專業方面的知識,可以由用戶自己輸入。比如金融機構買過去,可以添加用戶信息、交易流水、合同等材料,他基於非結構化的數據分析。來統計分析用戶習慣、購買傾向,進而可以向消費者推薦相關理財產品等。

據介紹,Watson可以根據公司的材料,可以給領導者提意見。不過不知道有沒有應用。

總之,總有新概念,還是看落地情況吧。

如有Watson Team的,請指正~


謝邀,不過watson那邊我沒有熟人,而且不是我的研究方向,所以無法回答。


數據並不是越多越好,是優質數據越多越好。

Watson的輸入是有選擇的,在專業領域(比如醫療),大眾數據並沒有意義,很多資料庫是要買的,所以Google用Web公共領域的數據不能和專業資料庫相媲美。

最終是錢和時間砸出來的,IBM的人工智慧投入業界最高。Youtube有記錄片 https://www.youtube.com/watch?v=uDBZnaoJVlk


2011年2月17日,IBM的人工智慧系統沃森作為選手參加了美國最受歡迎的智力競猜電視節目《危險邊緣》,並連續擊敗了該節目歷史上最為成功的兩位選手肯?詹寧斯和布拉德?魯特,成為了《危險邊緣》節目新的冠軍。沃森從此一舉成名,並且開始涉足很多不同的領域,於是我們有了大廚沃森、醫生沃森、超級客服沃森、超級駕駛沃森。

但是現在,要命的是,「沃森」開始進入營銷領域,很多營銷人的飯碗可能搖搖欲墜了。

作為IBM (THINK Marketing) 「思考營銷」項目中的技術核心,沃森每天學習9節內容營銷相關課程。

『思考營銷』是IBM進入營銷領域的戰略性項目,一方面可以讓營銷者們從現有的營銷案例中學習思維方式,另外還會推薦第三方的某領域專家。

「思考營銷」項目負責人勞德說,該項目的初衷是對接赫芬頓郵報與亞馬遜,並嘗試打通品牌新聞工作室和「沃森」用戶內容定製系統之間的通道,每日推送大量的業界高端內容給新聞工作室。

因此,該項目最初只是個撮合型平台,於是很多現有的營銷人擔心IBM會竊取客戶的商業和創意信息,並且不能產生新的內容。針對這個疑慮IBM明年起會自主植入有效內容,並且提供配套的營銷方案,同時IBM與Newscred和其它第三方開始合作去豐富營銷內容和創意。

「思考營銷」項目的主頁乍一看可能平淡無奇,但是裡面所有的內容表述都很接地氣,會給客戶推送特定的內容」。勞德說,「沃森」會深度分析用戶瀏覽歷史,並據此高度定製用戶瀏覽界面與內容。

「我們運用雲計算技術,不斷教授『沃森』該如何了解用戶想要看什麼內容,」Lord說,「之後,我們會提供給客戶其它相關的內容,並推薦IBM或第三方所製作的營銷方案給他們」。

2016年,「沃森」曾幫助北面(The Northface)的消費者們挑選合適的外套。它根據消費者的住所和瀏覽歷史,查詢當地天氣情況,並洞悉消費意圖,最終推薦最合適的外套給消費者。據VentureBeat統計,憑藉這項技術,推薦產品的廣告點閱率達到60%。

隨著深入地學習,「沃森」日以繼夜地靈活運用相似的規律,並持續進化著它的學習曲線,潛移默化地改變用戶訪問頁面,沃森的下一個目標是懂得如何為每一位客戶量身定做創意內容,IBM已經開始著手讓沃森學習和練習解讀和生產創意視頻的能力。

由於內容營銷逐漸成為營銷的趨勢並且深受營銷人的喜愛,思考營銷項目也會據此加大投入,從理解消費者的行為入手,通過不斷變化的網頁內容,並據此形成多樣化的樣本模型和更優秀的數字視頻。

2016年9月14日,思考營銷項目上線,只用了一個月,網站的訪客數和頁面訪問量分別達到200,000和230,000,但這並不是最值得驕傲的。讓人可喜的是不斷有人帶著他們的營銷作品過來,並且認真地與IBM交好,這意味著訪問者從單純的網頁瀏覽到行為互動。

想想沃森從開始干營銷到現在,不過幾個月,就已經能夠賣衣服,做大數據推送,學創意,各位小夥伴有沒有種「山雨欲來風滿樓「的趕腳?

本答案來自一品內容官太厲害,IBM的人工智慧「沃森」玩起內容營銷來了。


他做的是從半結構的數據中抽取結構,這種訓練數據多半是人工標記的,然後再半監督,不能隨訓練,谷歌的並不了解,,,


謝邀 @孫乙。先把NYT這篇文章的鏈接貼上來,個人覺得寫得很不錯,等找個時間再翻譯/整理一下:

http://www.nytimes.com/2010/06/20/magazine/20Computer-t.html?_r=0


謝邀,這個牛逼實在吹不下去


推薦閱讀:

家庭智能機器人現在已經萬事俱備只欠喬布斯了,對嗎?
微軟的 HoloLens 會不會有全息投影 Cortana 的功能?

TAG:人工智慧 | IBM | 機器學習 | 沃森IBM | 谷歌Google |