為什麼說只預測結果不分析原因的是大數據技術,和人工智慧沒關係?

如何理解這個說法?

看到高票答案里無知的中醫粉抱團取暖,實在是很歡樂。一堆對人工智慧完全不了解的人在那裡意淫,也是頗為有趣。

以為只靠給AI灌數據,就能用機器學習學出智慧。我是真心圍觀看笑話了。

該答主還把處理中醫黑箱的問題東西放進答案里。只預測結果,不分析原因的明明是「大數據技術」,和人工智慧沒毛線關係。連大數據和人工智慧各自是什麼都搞不清楚,還給基本概念全錯的答案高票,中醫粉抱團取暖已經呈現無頭蒼蠅狀,甚是歡樂。這是一個歡樂的掛人素材,連AI自己能發現概念這種蠢話都能講得出來。

作者:大青蛙

鏈接:大家感覺中醫可以做一個中醫阿爾法狗或中醫賢二機器僧嗎? - 知乎

來源:知乎

著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。


看一個人對人工智慧和大數據了解多少,就看他是否做學科定性判斷。現階段,智能相關學科範圍非常廣,發展也非常快,凡是專業的人都不會去定性學科,因為沒意義。凡是定性學科的人幾乎都完全不了解這些東西。我個人相信院士、教授、學者、工業專家和前線工程師,都會認同這一點。

比如「只預測結果,不分析原因的明明是「大數據技術」,和人工智慧沒毛線關係。連大數據和人工智慧各自是什麼都搞不清楚,還給基本概念全錯的答案高票」。

作為一名擁有相關博士學位的人,我完全讀不懂上面這段話,反正,我沒搞清楚這位答主說的「大數據」和「人工智慧」都是什麼。

什麼是大數據,什麼又是人工智慧?

當下,大數據、人工智慧、數據挖掘、機器學習和深度學習等等這些概念,確實有自己獨到的一方面,但大部分情況,都是一種同義詞,特別是在日常討論中,互換基本沒問題。

細緻說來,我們必須明白,智能過程不是憑空捏造的,其必須有待加工的原材料;這個原材料就被稱為數據,加工數據的方法就被稱為模型。大數據偏向於關注數據,機器學習偏重關注模型。但歸根結底,數據和模型是一回事,模型是數據的刻畫,數據是模型的實現。彼此分開的數據和模型,沒有實際意義,只有聯合起來才能構成智能。所以,大數據和機器學習,研究內容重合度很大,可以說他們都寬泛地屬於人工智慧。當然,人工智慧這個詞,是機器學習這個角度的說法;從數據角度,人工智慧叫數據科學,機器學習叫數據分析。我承認,有一定的細節差別,但原理和主幹是一致的。由於這些概念太亂,說法嚴重不一,所以,現在乾脆,有一種趨勢,把所有智能相關的領域,統一都叫智能科學,不再細分這些糾葛不清的細節領域,實在沒意義。

然而,這裡必須指出智能科學本身是獨立於計算機的學科,但實際上又必須藉助計算機的高速運算來實現。所以,在實現理論的層面,出現了一些編程強相關的內容,比如大數據需要用 Hadoop、Spark,深度學習需要用 TensorFlow、Theano。這些編程工具只是諸如計算圖、卷積網路、MapReduce 等等的方法論的實例,對於小領域是很重要的事情,但不是智能科學的核心主幹。

就研究前沿來說,除了 VLDB 還是資料庫主導的會議,其他智能科學旗下的會議,在保持自身特色的前提下,都極大地趨同。

「只預測結果,不分析原因」叫黑盒模型。

所謂黑盒模型,就是一種利用擬合思想,來進行預測的模型。黑盒模型同樣也分析原因,只不過,現在,我們不理解黑盒模型的很多機制,所以不知道其如何分析原因。典型的黑盒模型,就是神經網路,也就是深度學習。深度學習只是很多機制不清楚,不代表完全不分析原因。近年來,深度學習出現了「漂白化」研究和可解釋研究,一步步邁向可解釋的領域。

關於中醫的智能化。

我可以很負責任地說,可行。甚至,很大程度上,是中醫革命的必然過程。

然而, 可行,不是立竿見影,這是一個需要很長時間來建立的理論,不是一朝一夕就能成的。這個過程需要雙面人才,既懂智能,又懂中醫。只懂智能,然後照著淺顯的中醫忽悠,最終只能淪為笑談。這個領域要見奇效,必須有人來致力耕耘,我以後留校執教,可能會希望招一個學生,進行智能醫學的研究。

感謝 @大青蛙 的回答,然而,大青蛙的多數觀點,我還是不能贊同,因為非常不專業,就像民科。但我在此,不針對答案來反駁,我只談問題,如下。

結合中醫和智能,是否存在難度?

存在,難度很大。這是一個很深刻的課題。

中醫理論的智能化是不可能的么?

這個問題要說明白比較長,結論在最後。

我沒有任何褒貶,就事論事來說:人工智慧領域,人員能力差異天壤之別。

首先,你必須明白,智能是存粹的知識經濟。我經常開玩笑,如果我創辦一家智能系統設計公司,那這家公司是近乎沒有成本的。數據和計算設備,是智能系統必須的,但這是計算機公司的成本,或者說互聯網公司的成本。單就設計智能模型來說,全部的成本就是人。不必深究,因為這只是一個比喻式的玩笑。

然而,由於智能設計本身只需要頂層設計者,所以,這個行業的就業結構是很特殊的。就我所見,人工智慧的現狀是,從業人數較少,渴望入行的極多,就我的預見,真正能從中撈一筆的人,極少。

我了解過很多剛入門智能的人,學術界的有,工業界的也有。說的不客氣一點,這些人常常有兩類不足。

第一類,新手不能利用數據本身的結構來設計模型,最終只能淪為標註的機器,新手最大的特點就是標註為王。然而,數據本身的結構才是最重要的,是內生性的;額外的標註,是外延性的。期待外延性的標註把信息注入到模型中,是有難度的;往往,標註了非常多的數據,結果有提高,但依舊不理想。正確的做法是依據數據本身的結構建模,把全部的標註數據最大限度地注入模型。

第二類,新手不是設計新模型,而是組合現有模型。可以很負責地說,每一個智能問題,都需要依據具體情況,設計一套新的模型。單純使用書上的模型,或者單純組合使用書上的模型,一定不能獲得最理想的效果。如果使用書上的模型都能有效果,那還需要人工智慧從業者幹啥,直接調用函數庫的 API 就好了呀。

總的來說,這兩類錯誤,直接導致模型的實用性和有效性變得很糟糕。不幸的是,這個新興的行業,能創造價值的永遠是頂層的高手,而現在,大部分人都處於新手的階段。指望新手進行中醫的智能化,一個這麼深刻的課題,是不切實際的。

所以,目前,中醫的智能化毫無進展,是合乎情理的事情。而現在人工智慧剛開始發展,大部分從業者剛開始入行,所以,對於很多問題的智能化顯得束手無策,也是自然的事情。但是,再過五年呢,再過十年呢?再過二十年,一切今非昔比之時,我想中醫的智能化也是順理成章的事了。

所以,我的結論是:中醫的智能化可行,但需要智能進一步發展,需要和中醫進一步結合,需要從業者整體水平的提高。

關於智能領域的名字。

我覺得這種討論毫無意義,換馬甲是信息行業的基本生存技能,這是人盡皆知的事情。就比如大數據,最開始叫網格計算,隨後開始稱為雲計算,之後,雲計算分裂為了現在的雲計算和大數據。再比如知識圖譜,曾用名語義網路、本體網路。神經網路,也叫聯結主義模型,現在改名為深度學習。計算機行業對命名完全不考究,經常開會,大家都會調侃換馬甲。五年一小換,十年一大換。東西沒怎麼變,名字換了好幾個。名字創新是營銷的動力之一。

我自己論文領域之一就是知識圖譜表示,這個東西原來叫知識圖譜嵌入,之前叫結構預測,現在又叫表示學習,也有叫知識計算。名稱太多,都是範疇上略有不同的同義詞。實際上,計算機這個行業,新事物確實層出不窮,但速度遠沒有宣稱的那麼快,只不過名字換的很頻繁而已。

PS

說實話, @大青蛙 就我個人來看,完全是和計算機無關的工作。因為你說的東西,坦白說,非常不專業。直白地說,你就是我們稱之為的民科,照著有的沒的忽悠,聽上去很無語。無所謂,我們歡迎其他行業的人過來討論。

看了你的答案,我發現你對中醫的態度很明確,不支持,俗稱中醫黑。我只想了解一件事情,那就是你最開始對中醫的反對是源自什麼事情?


呵呵,看來你們是打算讓我把事情說明白點。行吧,希望計科的人能夠看清中醫,我再當回祥林嫂。

有一些事情我想先和有關人士交代一下,@肖寒同學的回答,很多內容我是不反對的。對於我之前說中醫,我並沒有將這些話置於一個通用的語境內。對,我僅僅只是在講中醫。很多人對於中醫有幻想,他們的錯誤不在於錯誤評價了計算機科學,而在於不了解中醫。

  • 當前人工智慧做成功的業內共識

我想搞人工智慧的業內的人都很清楚關於人工智慧的一些基本常識,也就是什麼樣的領域才有可能做成功。

之前我的回答內有一張圖,也就是這張:

這張圖的內容參考自李開復的人工智慧科普:李開復:創業做人工智慧平台就是大忽悠 別指望BAT幫你做什麼

也就是說,人工智慧成功的五個基本前提包括:單一清晰領域、數據自動標註和頂尖AI科學家。

而中醫在這三條基本條件上完全不符合,真要勉強搞個也只能算「中醫人工白痴」。

  • 中醫和計算機結合的關鍵問題在哪裡

我之前曾經不止一次科普過一些中醫的常識。中醫的核心問題在於中醫使用的是清晰度極低的語言,以及取象比類的邏輯是違反形式邏輯的。

圖片來自本人答案:有什麼一般人不知道的「常識」? - 知乎。我在另一些回復中曾經不止一次解釋過中醫的語義問題和邏輯問題,導致不可能真正與計算機進行結合,甚至分析過六淫和氣的本體(如:如何證偽或者證明中醫的『陰陽五行』與『氣』的概念? - 知乎)

中醫的部分核心概念不適用本體論,甚至中國中醫科學院搞的TCMLS對傳統中醫要素亦有折損。將中醫理論準確地標準化是不可能的!中醫的語義缺陷和邏輯缺陷,導致中醫與計算機結合時連一張基本的合格資料庫表結構都整理不出來。有不少搞過中醫計算機化的人都抱怨過數據質量問題,這並不是個案

另外,我們也能在大量文獻中看到西化派偽中醫是如何刪除中醫要素才能勉強產出一些看上去和計算結合了的產品,他們的實際操作手段如我所述:

連一個合格的資料庫表結構都列不準確的中醫,根本不可能真正和計算機結合。若一定要和計算機結合,只有一個辦法:刪除中醫核心要素和中醫核心特徵。

譬如把最底層的子節點刪掉,取上一層的節點來抽取可用的資料庫表結構,這樣看起來數據是標準化了,實際上傳統中醫在意的最底層的細節數據都被刪掉了。

又譬如避開本體混雜、沒有本體的中醫核心概念,直接用癥候來梳理病機模型,這樣看起來整出了一個可用模型,實際上中醫廣闊的語義和病機對應機制都被簡化成了「一對一」,那些說不清楚本體的中醫核心概念跑哪裡去了?你們是打算把這些核心概念都刪掉么?

又譬如只取部分名老中醫的語義網路來設計模型,模型是抽出來了,數據也標準多了,但是辯證論治的原有範圍呢?又被刪了是不是?

做這些的中醫人是不敢面對類似質疑的,因為他們自己也清楚中醫的問題。為了保護中醫,他們的最佳選擇就是避而不談。

  • 之前討論的很熱鬧的只是中醫大數據

可能很多人不知道中醫領域的計算機化在討論什麼。中醫大數據實際上是利用大數據的特點,繞過原因分析,只求結果的玩法。過去那麼多討論繞過「所謂黑箱」的玩法全部都只和「大數據」有關。中醫界的目的在於「拯救中醫」,因此我之前討論的事情只是針對之前的這個熱點。「中醫大數據」是一個特定的話題,和人工智慧沒什麼關係。

對於人工智慧,西化派偽中醫早就已經把中醫理論的黑箱打開了,裡面除了混亂的語義和邏輯錯誤,沒有任何國人想要的所謂精華。就算中醫有海量高質量的數據可以灌,無論機器學習多少數據,結果是:永遠欠擬合!是「永遠」欠擬合哦!這就是為什麼搞中醫計算機化的人都忙於刪除中醫特徵,中醫特徵要素是中醫計算機化的最大障礙。

  • 關於大數據和人工智慧的區別

我眼中的大數據,是未來的IT公共基礎設施,代表了一系列的數據管理方法、數據處理手段甚至是運維理念。而人工智慧得益於大數據的存在,不用再重新搞一套數據管理工具了,直接拿大數據的有關成果來,研究效率提升不少。但沒有大數據,人工智慧也可以自己定義一套這些內容的管理方法,無非效率低一些。在我看來對人工智慧發展更有意義的是雲計算和GPU的發展,大數據的重要性倒沒那麼突出。

另外,人工智慧的命名領域,對於計科人來講是十分講究的。我這裡只說說我看到的計科習慣。只有和人類基本能力有關的內容,才有可能被說成「被做成人工智慧」。譬如來個大數據交通應用,計科的人最多只會命名成「智能交通」之類的名字,而不會命名成「交通人工智慧」。以前拿著AI忽悠人的金融軟體,現在不敢說自己是AI了,紛紛還原成BI的名稱。這些我應該沒搞錯吧!

  • 關於我看到的另一些現實

我曾經見過中國中醫科學院和中科院合作某中醫人工智慧項目(是中科院下面哪個所,業內人都能猜到的,我就不說了),中科院不顧中醫科學院的反對,將中醫人工智慧項目活生生刪成了大數據項目。對此我只能說:中國中醫科學院確實不要臉,而中科院節操尚存!中科院和中醫科學院不同,中科院沒有為中醫埋單的義務,因此中科院這麼干很合情理。而中國中醫科學院對中科院此舉毫無辦法,眼睜睜看著人工智慧的內容被刪得一乾二淨,還不敢反駁。中醫們根本沒有反駁的資本和底氣!

真要搞醫學AI,不妨先去看看IBM的沃森是怎麼做的。只有你對中醫的核心問題足夠了解,你說出「負責任地說」這句話時才會有人信。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

中醫理論語言本質淺談:https://www.zhihu.com/question/57542278/answer/153359372

西化派偽中醫如何通過人工智慧標準化模型刪除中醫核心特徵:https://www.zhihu.com/question/57177551/answer/152077641

關於IBM的AI沃森與西醫結合的描述、人工智慧可能成功的領域要求、中醫計算機病機模型分析一則:人工智慧、現代醫學、相關基礎科學(物理、化學、生物)技術之間有沒有結合的可能,或者說具體案例? - 知乎

《中醫藥法》謀求保留中醫傳統,中醫科學化面臨質疑:https://www.zhihu.com/question/56149225/answer/149609259


一切過度簡化的貼標籤行為,都是因為欠擬合,包括這句話本身。


現在的最常用的神經網路模型,整個決策過程還是黑盒子,我們可以訓練他讓他去識別一隻貓,但是目前還無法知道他是怎麼決策出這是一隻貓。


只預測結果不解釋過程,屬於人工智慧里神經網路原理部分吧?其他演算法貌似都一定程度解釋過程。

中醫,首先解決感測器跟數據量問題再說吧。輸出種類就那麼多,輸入數據量要很大。


推薦閱讀:

城市發展帶來的大數據?大數據對城市發展的預測作用?
啥事情都大數據的年代,旅遊有啥大數據?

TAG:人工智慧 | 機器學習 | 深度學習DeepLearning | 大數據分析 | 大數據營銷 |