圖像處理和機器學習有什麼關係?

很多公司招聘上,對某些技術崗位要求是「熟悉圖像處理或機器學習」,

請問這兩者有什麼關係?


圖像處理有很多不同的方面,諸如圖像增強、圖像同質化、圖像分割等等。模式識別有時候也歸入圖像處理裡面。

機器學習的主要內容是歸納(Generalization),是根據特徵把兩個或多個不同的東西區分開來。

在圖像處理中,經常有工作是可以人工標記,但難以寫出一個完整的規則來實現自動處理。有時候有一整套演算法,但是參數太多,人工去調節、尋找合適的參數就太過繁瑣。那麼就可以利用機器學習的方法,提取一定數量的特徵,人工標記一批結果,然後用機器學習的方法算出一套自動判斷的準則。機器學習的方法在開發這類軟體時就顯得比較有效。

比如做圖像分割時,我們要把大腦的MRI圖像和骨骼分開,雖然一般時候這兩者是比較清晰的,但總有那麼一些時候有些部分不容易簡單判別。如果人工來做,實在太耗時耗力。那麼究竟一個部分是屬於大腦還是屬於骨骼,就可以通過機器學習來進行。

再比如說,有一些工作需要把眼球的圖像中的血管全部提取出來,然後通過血管的密集程度、粗細來分析病情。照片中血管未必是完全相連的,有的地方可能略微模糊,孤立地看不見得能確定是不是相連的。這時候也可以用機器學習的方法來判定這個部分是不是相連的血管。


用深度學習玩圖像的七重關卡

許鐵-巡洋艦科技2 天前

第一個重境界: 圖像識別

如果你開始了解深度學習的圖像處理, 你接觸的第一個任務一定是圖像識別 :

比如把你的愛貓輸入到一個普通的CNN網路里, 看看它是喵咪還是狗狗。

一個最普通的CNN, 比如像這樣幾層的CNN鼻祖Lenet, 如果你有不錯的數據集(比如kaggle貓狗大戰)都可以給出一個還差強人意的分類結果(80%多準確率), 雖然不是太高。

當然,如果你再加上對特定問題的一些知識, 也可以順便識別個人臉啥的,開個startup叫face 減減什麼:

會玩的, 也可以順別識別個豬臉什麼噠(我覺得長得都一樣哦), 這樣搞出來每個豬的身份, 對於高質量豬肉的銷售, 真是大有裨益的。

或者看看植物都有個什麼病害什麼的,像這樣不同的病斑, 人都懶得看的, 它可以給你看出來。 植物保護的人可以拿著手機下田了。

Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2015.

雖然植物保護真的很好用,分類問做就了還真是挺無聊的。

我們進化的方向,也就是用更高級的網路結構取得更好的準確率,比如像下圖這樣的殘差網路(已經可以在貓狗數據集上達到99.5%以上準確率)。分類做好了你會有一種成為深度學習大師,拿著一把斧子眼鏡里都是釘子的幻覺。 分類問題之所以簡單, 一要歸功於大量標記的圖像, 二是分類是一個邊界非常分明的問題, 即使機器不知道什麼是貓什麼是狗, 看出點區別還是挺容易的, 如果你給機器幾千幾萬類區分, 機器的能力通過就下降了(再複雜的網路,在imagenet那樣分1000個類的問題里,都很難搞到超過80%的準確率)。

He, Kaiming, et al. "Identity mappings in deep residual networks." European Conference on Computer Vision. Springer International Publishing, 2016.

第二重境界 : 物體檢測

很快你發現,分類的技能在大部分的現實生活里並沒有鳥用。因為現實中的任務啊, 往往是這樣的:

或者這樣的:

那麼多東西在一起,你拿貓狗大頭照訓練的分類網路一下子就亂了陣腳。 即使是你一個圖片里有一個貓還有一個狗,甚至給貓加點雜訊,都可以使你的分類網路分寸大亂。

現實中, 哪有那麼多圖片, 一個圖裡就是一個貓或者美女的大圖,更多的時候, 一張圖片里的東西, 那是多多的, 亂亂的,沒有什麼章法可言的, 你需要自己做一個框, 把你所需要看的目標給框出來, 然後, 看看這些東西是什麼 。

於是你來到機器視覺的下一層挑戰 - 目標檢測(從大圖中框出目標物體並識別), 隨之而來的是一個新的網路架構, 又被稱為R - CNN, 圖片檢測網路 , 這個網路不僅可以告訴你分類,還可以告訴你目標物體的坐標, 即使圖片里有很多目標物體, 也一一給你找出來。

Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.

萬軍斬你首級那是杠杠的,在眾多路人甲中識別嫌疑犯,也是輕而易舉, 安防的人聽著要按捺不住了。

今年出現的YOLO演算法更是實現了快速實時的物體檢測,你一路走過就告訴你視線里都有什麼在哪裡,要知道這在無人駕駛里是何等的利器。

YOLO快速檢測法Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

當然, 到這裡你依然最終會覺得無聊, 即使網路可以已經很複雜, 不過是一個CNN網路(推薦區域),在加上一層CNN網路做分類和回歸。 能不能幹點別的?

第三重境界 : 圖像切割

啊哈, 這就來到了第三個關卡, 你不僅需要把圖片中邊邊角角的物體給檢測出來, 你還要做這麼一個猛料的工作, 就是把它從圖片中扣出來。 要知道, 剛出生的嬰兒分不清物體的邊界, 比如桌上有蘋果這種事, 什麼是桌子,什麼是蘋果,為什麼蘋果不是佔在桌子上的? 所以, 網路能不能把物體從一個圖裡摳出來, 事關它是否真的像人一樣把握了視覺的本質。 這也算是對它的某種「圖靈測試」 。 而把這個問題簡化,我們無非是在原先圖片上生成出一個原圖的「mask」, 面具,有點像phtoshop里的蒙版的東西。

所謂摳圖

Drozdzal, Michal, et al. "The importance of skip connections in biomedical image segmentation." International Workshop on Large-Scale Annotation of Biomedical Data and Expert Label Synthesis. Springer International Publishing, 2016.

注意,這個任務里,我們是要從一個圖片里得到另一個圖片哦! 生成的面具是另一個圖片, 這時候,所謂的U型網路粉墨登場,注意這是我們的第一個生成式的模型。 它的組成單元依然是卷積,但是卻加入了maxpooling的反過程升維採樣。

這個Segmentation任務, 作用不可小瞧哦, 尤其對於科研口的你, 比如現在私人衛星和無人機普及了,要不要去看看自己小區周圍的地貌, 看是不是隱藏了個金庫? 清清輸入, 衛星圖片一欄無餘。 哪裡有樹, 哪裡有水,哪裡有軍事基地,不需要人,全都給你摳出來。

如果你要數個細胞啥的 ,都是挺容易的,給它變成這樣的輪廓不就你得了。

第四重境界:

我們開始fashion起來, 如果你是淘寶服裝小店的老闆 ,想讓客戶輸入一張服裝的圖片,然後得到一組推薦的服裝, 來個以圖搜圖的功能怎麼搞呢? 注意啊,我可以從網路上爬一大堆圖出來,但是這些數據是沒有標註的。怎麼辦? 鐵哥告你還是有的搞,這個搞法,就是聚類。

鐵哥教你最簡單的一招聚類哦,那就是, 把圖片統統放進卷積網路,但是我們不提取分類,而只是提取一些網路中間層的特徵, 這些特徵有點像每個圖片的視覺二維碼,然後我們對這些二維碼做一個k-means聚類, 也會得到意想不到的效果。 為什麼要深度? 因為深度提取的特徵,那是與眾不同的。

然後以圖搜圖呢? 不過是找到同一聚類里的其它圖片啊。

在聚類的基礎上, 就可以做個搜索!

第五層境界 :

我們開始晉陞為仰望星空的人, 之前那些分類賺錢的應用太無聊了。 機器視覺搞科學怎麼港? 作為一群仰望星空後觀察細胞的人,我們最常發現的是我們得到的天文或者細胞圖片的雜訊實在太大了, 這簡直沒法忍啊, 然後, 深度學習給了你一套降噪和恢復圖像的方法。 一個叫auto-encoder的工具, 起到了很大的作用 , 刷的一下,圖像就清楚了。

這還不是最酷炫的,那個應用了博弈理論的對抗學習, 也可以幫你謀殺噪點! 如果你會對抗所謂GAN, 也是一種圖像生成的工具, 讓網路去掉雜訊的圖片,與沒有雜訊的自然圖片, 連卷積網路都判別不出來,對, 就是這樣!

Schawinski, Kevin, et al. "Generative adversarial networks recover features in astrophysical images of galaxies beyond the deconvolution limit." Monthly Notices of the Royal Astronomical Society: Letters 467.1 (2017): L110-L114.

第六重境界 :

在工業界賺夠了錢,科學也太nerd了, 我們來玩藝術思考哲學 ,第一招, 圖像風格遷移,請見鐵哥之前的文章:

然而真正能玩好這一事項的,還是那個剛剛提過的對抗學習GAN, 比如大名鼎鼎的CycleGAN, 幾乎可以實現一種你自定義的「圖像翻譯」 功能,而且你不用做標註哦, 拿出冬天和夏天的兩組圖片, 它會自動的在兩組圖片中找出對應來。

Zhu, Jun-Yan, et al. "Unpaired image-to-image translation using cycle-consistent adversarial networks." arXiv preprint arXiv:1703.10593 (2017).

第七重境界:

圖像翻譯也懶的玩了, 你神經網路不是號稱能夠理解圖像,看你來個無中生有,在雜訊里生成圖片來?

對,依然是GAN,而且是最基礎的卷積GAN (DCGAN)就可以給你干出來。

看看GAN所幻想的賓館情景, 你能想到是計算機做的圖嗎? 哈哈哈!

Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural information processing systems. 2014.

寫到這裡, 我自己都覺得GAN是非常有前途的,有前途的,有前途的,以前我還以為只是好玩呢。

這裡展示的七級浮屠,也不過深度學習被人類discover的冰山一角, 醉卧沙場君莫笑, 古來征戰幾人回。

給你一個稍微清晰一些的大綱:

如果對基礎理論部分有不熟悉,請返迴文章你不能不知道的CNN,當然它只是冰山一角, 了解更多並挨個實戰請關註:巡洋艦的深度學習實戰課程, 手把手帶你進行深度學習實戰, 課程涵蓋機器學習,深度學習, 深度視覺, 深度自然語言處理, 以及極具特色的深度強化學習,看你能不能學完在你的領域跨學科的應用深度學習驚艷你的小夥伴,成為身邊人眼中的大牛。剛剛講的方法都將在課程里詳細展開。

目前課程線下版本已經基本報名完畢(特殊申請可加一到兩個名額), 為了緩解眾多異地學員的需求, 我們提出一個線上加線下的課程簡版, 課程包括全部課程視頻, notebook作業, 和一個課程模塊的來京線下實踐機會, 名額限5名,預報從速,詳情請聯繫陳欣(cx13951038115)。


對於崗位要求來說,別理會機器學習就是了,呵呵。好多公司就是那麼一寫,基本用不上,至於是什麼他們可能都不清楚。

當然如果是某些大公司里專門養著的搞前沿研究或者理論研究的,可能會有用到機器學習這些東西,什麼神經網路啊,支持向量機啊,都算機器學習吧,主要用來分類


我做過三年的圖像處理和機器學習。

圖像處理只是手段,而機器學習是一套體系,目的產生可控的分類器,包含如何去採集樣本,生成分類器,調整各種參數。

舉例我做過的車牌識別。

實際上是一套ocr技術,現在已經都爛大街了。

圖像處理部分,收集到的圖像數據做各種加工,以滿足機器學習各個部分的需要。例如做單通道處理降低信息量,二值化去除干擾噪點,膨脹腐蝕打通聯通域等等。屬於「器」層面。

機器學習部分,屬於「術」層面了,拍攝了圖像,用分類器去識別,實驗室階段要人工校對,對於漏識和誤識,會有false positive和false nagitave兩種情況,前者是沒認出來,後者是認錯了。這是兩種完全不同的處理分支。對於完全由數據驅動的機器學習流程來說,不需要修改代碼。而是將出現錯誤的樣本手動調整到正確分類中,再講調整後的樣本集餵給訓練程序,得到新的分類器。再去檢驗樣本,如此反覆迭代,提升分類器功力。


這個問題略大,可以分層次來理解這個問題。

圖像處理更多的是完成low-level的處理任務,比如圖像去噪、復原、增強、分割等等,這裡會用到很多基本的圖像處理技術,比如:小波變換,傅里葉變換,圖模型等等。公司說的圖像處理大概就是指這類的知識。

隨著圖像的不斷普及,市場提出了更高的要求,比如圖像識別,目標檢測等high-level的任務,本質上還是圖像處理任務,但是通常處理這類high-level的利器是機器學習。所以公司會要求機器學習這個條件。

總結:公司要求的即是:小到直線提取,大到人臉識別,你都能build from scratch。


周恩來總理曾經對國內中西醫之爭說過一句很有名的話:西醫好,中醫也好,中西醫結合更好!

圖像處理和機器學習之間的關係大致如此。現在我們所說的圖像處理是指運用計算機來對數字圖像加以調整的技術,它的研究內容非常廣泛,例如增強、去噪、壓縮、幾何變換等等,具體你可以參考【結合實例與代碼談數字圖像處理都研究什麼? - 白馬負金羈 - 博客頻道 - CSDN.NET】

通俗的說,機器學習是讓計算機通過數據自我「學到」一個模型的技術。嚴謹一點,是讓計算機以數據為基礎,通過學習演算法(learning algorithm)從hypothesis set中select 一個最好的「hypothesis」。Anyway, 具體來說,你可能聽過的SVM、EM、ANN等都屬於機器學習的討論範疇。

但是圖像處理和機器學習二者是可以相互幫助,相互借鑒的。就像現在看西醫,有時醫生也會開一些中成藥(例如板藍根沖劑)。而現代中醫也會借鑒一些西醫方法來對中醫藥進行研究(例如分析一下板藍根裡面的有效化學成分)。舉一個具體的例子,圖像處理中有時會研究圖像中的「對象」到底是什麼,這種問題成為object recognition或者image recognition,或者會驗證圖像里是否含有人臉、是否含有數字、是否含有文字等等。這些都可以藉助機器學習的方法,讓計算機自己通過數據(例如人臉圖片、文字圖片等)來進行學習並建立模型以完成圖像識別的任務。

總之,圖像處理好,機器學習也好,圖像處理+機器學習更好!


圖像處理的輸入是圖像,輸出也是圖像;

機器學習的輸入是知識,輸出也是知識;

圖像可以作為機器學習的輸入,所以圖像處理可以是機器學習的某個環節,如,將經過濾波、邊緣提取後的圖像作為機器學習的輸入;

機器學習的輸出也可能作為圖像處理的一個手段,如,基於機器學習的圖像輪廓提取。

註:前兩句的比喻,也是從知乎看來的,找不到鏈接了,侵刪。


兩個不是一個方向。

簡單來說,圖像處理有用機器學習這類方法去做的。

現在深度學習比較火,導致的一個後果就是所有人都覺得深度學習好像什麼都能幹,以至於一些啥都不懂的人就會認為圖像處理就是深度學習或者說有人就直接把深度學習等同於機器學習了。見怪不怪了已經。

這類招聘我個人估計基本都是要做圖像識別的人的,比如人臉識別,或者其他什麼物體識別。圖像識別用的大部分都是機器學習類的演算法,所以他可能就等同起來了。


我的理解是 機器學習是一些演算法的集合 圖像處理是一種需求

那麼需求可以用演算法也可以用其他策略來完成

舉幾個 圖像處理 用 機器學習方法的例子

  1. image denoise如何做?你可能會想 哦 濾波;但很多時候 那些濾波並不能完全解決你的「需求」;有一種叫KSVD http://intranet.daiict.ac.in/~ajit_r/IT530/KSVD_IEEETSP.pdf 的方法,可以用來解決一些image denoise問題 而且效果不賴
  2. face detection/object detection算不算圖像處理,似乎叫計算機視覺更合適些,我們假定這是廣義的圖像處理內容;處理這個「需求」的一種比較famous的方法就是使用 boosting 的策略 來構建一個級聯分類器 搜:Robust Real-Time Face Detection
  3. image segmentation可以用level set解決,也可以用 normlized-cut(N-Cut)來解決
  4. 等等吧 還有很多

ksvd / boosting / N-cut 這些都可以算是 機器學習的內容

所以 圖像處理的需求 我用可以用(不一定有)也可以不用 機器學習的方法 來解決(也不一定能完美解決)


圖像處理不一定用機器學習的方法做。這個領域相當古老,100多年啦。最早的圖像處理是用海底電纜把紐約的圖片發去倫敦。當時根本沒有ML。圖像可以用信號處理的方法做。

而用機器學習處理圖像被稱為計算機視覺,俗稱CV。CV是機器學習里的一個大派。

有一些圖像處理的問題你是不可以用機器學習的。比如TEM圖像處理里的一些問題就必須通過傳統的信號處理技術。


圖像處理這個概念在工業界很泛泛:

從廣義上可以分成,圖像處理,圖像分析,圖像理解。

1.圖像處理(Image processing):數字信號處理的分支領域,屬於對圖像的底層操作,諸如濾波,去噪,去馬賽克去水印(恢復),壓縮,邊緣檢測。其目的在於設計一種普世演算法/濾波器對圖像進行一系列預處理,以達到使圖像更為美觀或更利於後續處理的目的

2.圖像分析:屬於中層的圖像工程,諸如圖像分割,圖像邊緣提取,這個領域可以認為是在圖像處理的基礎上引入了部分圖像的內容信息來進行研究。比圖像處理更為智能一些,因為其已經涉及了從圖像中抓取信息了,這點是圖像處理所不具備的

3.圖像理解(Image understanding):其實就是計算機視覺,主要是特徵提取以及從圖像中抓取深層次的語義信息,諸如人臉檢測與識別,動作識別,視頻的跟蹤,行為識別,還有結合圖形學的3D重建等。這個領域的目的在於抓取深層次的語義信息,其中識別相關的領域都屬於模式識別領域。

對於機器學習,其是一種方法。可以用於上述三個圖像領域的任何一個:

1.圖像處理:圖像增強,圖像恢復都屬於智能信息處理領域的研究點之一,除了基於傳統的DSP方法外,機器學習在這個領域非常吃香,尤其是圖像恢復。近幾年圖像水印也嘗試用機器學習尋找水印的最優嵌入位置。

2.圖像分析與理解:既然涉及了信息提取,機器學習自然會在這些領域大放異彩,例如圖像分割,早年有基於數字信號處理的邊緣檢測和分水嶺演算法,但是近今年基於深度學習的圖像語義分割無疑成為了分割的主流。圖像理解作為根正苗紅的模式識別行業,框架上就不可能擺離線器學習。

總結就是,圖像工程是領域。機器學習是方法,只是機器學習是圖像領域比較熱且work的方法


因為確實圖像處理領域涉及到很多機器學習的內容。

籠統的把圖像分為應用和處理兩塊

圖像處理就和冷大說的一樣,增強濾波復原分割等等用到很多。不在贅述

圖像應用的部分就和機器學習比較貼了,當然也不是孤立的機器學習,往往和模式識別一起應用的。就拿我司的業務來說人臉提取,目標追蹤,車輛檢測,車牌識別無一不是圖像處理,機器學習,模式識別綜合應用的


在深度學習還沒有出來之前,計算機視覺主要是通過人工提取高級特徵比如LBP、HOG、以及SIFT特徵然後用SVM等等演算法做識別,而人工提取特徵或者前期對圖像處理的過程就是你所說的圖像處理(二值化,灰度化等等)如今有了深度學習,基本上直接像素點的圖輸入到神經網路模型中去自動提取特徵並分類識別。如果僅僅是想去噪,使圖像增強,或者檢測圖像疵點等等目的,就用不到機器學習方法。


首先,我們談人的視覺系統的複雜性。人的感知系統就是眼耳鼻舌身意。

人的視覺系統只是人感覺系統的基礎。人的感覺還受到人的高級意識、情緒變化的直接控制。

舉一個例子,人可以繪畫。AI計算機根本不可能進行繪畫。因為人類文明中的繪畫,是人類靈性的表達。

AI機器人,只是一種數學邏輯的計算機表達,AI機器人要真正理解一個圖像的真正的內容。必須擁有人類的靈性這個最高級的東西,才會讀懂人的面部情緒變化。

一個人的內心活動,與人的面部表情變化,沒有絕對的關係。AI機器人要識別一個人在說謊話,比登天都難。但是3歲的小孩,都可以識別成人世界明顯的謊話。

AI大佬,知否?????????

首先談人的視覺感知系統構造。

人的眼睛有著接收及分析視像的不同能力,從而組成知覺,以辨認物象的外貌和所處的空間(距離),及該物在外形和空間上的改變。腦部將眼睛接收到的物象信息,分析出四類主要資料;就是有關物象的空間、色彩、形狀及動態。有了這些數據,我們可辨認外物和對外物作出及時和適當的反應。

·當有光線時,人眼睛能辨別物象本體的明暗。物象有了明暗的對比,眼睛便能產生視覺的空間深度,看到對象的立體程度。同時眼睛能識別形狀,有助我們辨認物體的形態。此外,人眼能看到色彩,稱為色彩視或色覺。此四種視覺的能力,是混為一體使用的,作為我們探察與辨別外界數據,建立視覺感知的源頭。

人類視覺系統的感受器官是眼球。·眼睛後段是感光的部分。後段有視網膜,它是由兩種感光細胞所組成,這兩種細胞因其形狀而名為桿狀細胞(rod cells)和錐狀細胞(cone cells),作用是將水晶體聚焦而成的光線變成電信號,並由神經細胞送往腦部。外界的光線信息進入眼球後,會被眼球內的神經細胞轉變為電信號,再被傳輸送到腦袋中。腦部接收電信號之後,會引起連串的思維活動,並作出適當的行動或反應。·一個視能正常的人,能分辨在視網膜上來自不同投影的影像。這種能力稱為」視覺敏銳度」。 在接近視網膜的中央,距離眼角膜最遠的地方,這位置稱為黃點(fovea) ,是感光細胞最密集,視覺敏銳度最高的位置。

·色視覺原理

·眼睛裡有三種不同的錐細胞,分別對紅、綠、藍三種波長的光線敏感,當不同波長的光波進入眼睛並投映在視網膜上時,大腦就通過分析由各個錐細胞輸入的信息去感知景物的顏色。

·色盲的形成,是因為視網膜上的錐狀細胞不能分辨顏色。大部分人天生具有正常色覺,他們可辨認由三原色調配出來的不同顏色。但亦有人是二色視者,他們只可看見光學三原色中的二種。二色視者又稱色弱,他們仍能看見顏色,只是他們看不見其中一種三原色,他們會混淆某些顏色,例如會看不出黃黑條紋顏色,不過可以會出對比大的色樣,所以我們設計機動部分的時候,應考慮這一點,提高使用者對危險部分的警覺。但亦有人是全色盲的,他們完全不能分辨顏色,在他們的眼中,世界是全黑白灰的。

·正常人眼可分辨大約七百萬種不同顏色,人眼不同區域對顏色有不同的敏感度,眼睛中央對顏色和動態十分敏感,但眼睛邊緣的顏色敏感度則較差。不同顏色當中,人對紅,綠和黃色則比對藍色敏銳,這種特性對視象傳意有很大的影響

立體視覺

人類和其它的肉食、雜食動物,無需處處提防捕食者,反之要在捕食時準確判斷自已與獵物的位置,所以演化出兩眼向前的頭部結構,並發展出利用雙眼所見之差別來計算距離的能力。

運動感知

人類的眼睛會對四種視覺刺激有反應,然後對此四種刺激在腦里產生信息

當遇見一物體,會產生顏色,形狀,深度,及運動四種信息。我們會因應物體的位置,速度,方向,作出反應。物體在眼角膜留下影像,物體移動愈快,影像移動愈快。 如果我們要圍著某物體旋轉,則一定要知道該物體的位置及運動軌跡。

由人類視覺系統的功能可知,人類大腦神經系統具有以下維度的感知

1.三維空間的感知

2.時間維度與速度的感知

3.光波維度與對三種的原色光分別是紅,綠及藍的感知。

這裡視覺系統的感知就已經超越了三維空間,而是有了時間的維度,光譜光波的維度。這是五個維度。

人的視覺系統只是人感覺系統的基礎。人的感覺還受到人的高級意識、情緒變化的直接控制。

舉一個例子,人可以繪畫。AI計算機根本不可能進行繪畫。因為人類文明中的繪畫,是人類靈性的表達。

人類的繪畫藝術,就是人的視覺能力與視覺感知的充分展示。每一個畫家,他對色彩、空間、時間維度的感知是截然不同的。東方的繪畫藝術與西方的繪畫藝術有著很大的不同。東方人西方人對同一幅繪畫作品,認知、情感、意識範疇可以有很大的不同。

腦嚴重損傷的的病人,有部分人恢復生活以後,突然爆發了奇特的創造力,就有繪畫、音樂、數學的天才能力,這是無法用大腦的學習理論予以說明的,,這是對大腦神經科學研究結論的重大質疑與推翻!

2005年,《神經病學》上報道了一個由突發腦部出血造成的「意外天才」案例:在發病之前,患者對藝術創作沒有絲毫興趣,也沒有表現出任何才能。但在患者突發蛛網膜下腔出血後的幾周內,他開始「在許多筆記本上寫滿詩歌,誇張而極具表現力地進行繪畫創作,把幾乎全部的時間都用來繪畫和雕塑。」他不但充滿了創作力,而且無法停止手中的創作。他渴望把所有的空間都填滿自己的作品,這已經成了一種強迫症。他畫滿了家裡所有的地板、牆磚、天花板,他瘋狂的在所有能夠繪畫的地方創作,不僅僅用畫筆和顏料,甚至用蠟油和煙火——這種瘋狂最終讓他的妻子無法忍受,離他而去。

大量的紀錄片對這位叫做湯米·麥克休(Tommy McHugh)的獲得型學者症的故事進行了報道。其中《我天才的大腦》對這位患者的生活片段進行了生動詳細的描述

Tommy McHugh,一次幾乎致命的腦部出血使他成為了具有狂熱創造力的畫家。圖片來源:《我天才的大腦》

與之前所提到的情況不同,他僅有輕微的前額葉異常,依然具有正常的智商,記憶和語言能力也幾乎沒有受損。神經學家愛麗絲·弗萊厄蒂(Alice

Flaherty)認為,麥克休在發生出血後,淤血集中在左腦的某個區域,抑制了兩個關鍵腦區的功能,最終引發了他的創造力大爆炸。這兩個腦區分別是負責思考決策的前額葉,以及控制語言的顳葉。麥克休發生出血的區域正好在這兩個腦區之間,於是形成了一種新的平衡,這種萬里挑一的運氣,說是「奇蹟」也絲毫不為過。他的創作已經持續了六年有餘,狂熱的創造慾望也許還會持續下去。

還有一個大眾都知道的例子,就是梵高。

梵高的《星夜》好在哪裡?https://www.zhihu.com/question/21660603

匿名用戶

亦何歡、蟲蟲 、余北溟 等 3271 人贊同了該回答

說來慚愧,真正意識到梵高的偉大是在自己得了精神疾病以後。雖然以前去過好幾個收錄了梵高作品的博物館,卻沒有感受到強烈的衝擊。直到後來得了嚴重的抑鬱症,每天需要吃藥才有感觸。有一個夏天的晚上吃完某種安定情緒的藥物後產生了幻覺,當我看到窗外稀疏的星星時,星星就像《星空》中的一樣旋轉跳躍起來,甚至湧向我。第一時間我想到了梵高,感動得留下了眼淚,由於吃藥我已經很久沒有哭了。這種感覺不是悲傷也不是孤獨,而是理解。世界上形形色色的人當中總有一些孤獨的靈魂,而孤獨的靈魂也可以有強烈的共鳴,雖然我們不是一個時代的人。

知乎這一段回答,說出了繪畫藝術的本質。繪畫就是人類靈魂內容、意識思想表達一種很好的方式。

追溯到4萬年前法國岩洞的智人岩畫的內容,與4萬年以後梵高、湯米·麥克休Tommy McHugh繪畫表達的情感內容,梵高、湯米·麥克休對於色彩的運用與4萬年前的智人有基本一致的要素。

肖維岩洞中共有1000多幅壁畫,可追溯到3.6萬年前的石器時代,它們被認為是歐洲最早的人類文化形式。(網頁截圖)

這就可以下結論,繪畫表達的人類意識內容,首先是跨越時間與空間。

梵高是在精神病發作以後,才創作了最偉大的作品。

湯米·麥克休Tommy McHugh是大腦嚴重創傷以後,沒有學過繪畫的他,突然具有狂熱創造力,他不但充滿了創作力,而且無法停止手中的創作。他渴望把所有的空間都填滿自己的作品,這已經成了一種強迫症。他畫滿了家裡所有的地板、牆磚、天花板,他瘋狂的在所有能夠繪畫的地方創作,不僅僅用畫筆和顏料,甚至用蠟油和煙火。

這不是告知大眾,繪畫的天賦不是僅僅通過學習就可以得到。繪畫,是人類視覺系統對於三維空間,時間的維度,光譜光波維度五個維度綜合感知。

在大腦發生病變引發神經疾病,大腦嚴重損傷的情況下,按照牛頓經典世界腦科學理論,人的視覺系統受到了嚴重損害,人類應該不再具有正常的三維空間、色彩光波、時間運動的感知能力,而且大多數情況下,經典世界的腦科學是正確的,現在大腦受到嚴重損害喪失正常視覺功能的情況,屬於絕大多數。

但是湯米·麥克休Tommy McHugh繪畫天賦是腦損傷以後才具有的,屬於後天學者症候群。

後天學者症候群(Savant-Syndrome)是指有認知障礙,但在某一方面,如對某種藝術或學術,卻有超乎常人的能力的人。自閉患者中有10%是學者症候群(故稱自閉學者,Autistic savant),大腦損傷患者中則約1/2000的機率是。(50%

自閉症患者, 50%大腦損傷患者)。

他們的IQ大部分低於70,但在一些特殊測試中卻遠勝於常人,故俗稱為白痴天才(Idiot Savant)。他們的天賦有多種不同的形式,有演奏樂器、繪畫、記憶、計算及日曆運算能力。美國電影《雨人》中的「雨人」就是一個典型的學者症候群,他對數字的計算能力和記憶力非常驚人。

後天性學者症候群指兒童或成年人在左腦受損後,突然間發展出的學者症候群患者特殊才能。學者症候群指個人存在嚴重的智力障礙、自閉症或其他心理疾病,卻擁有與其障礙全然相對的、不協調且驚人的某種能力。後天性學者症候群患者一般頭部曾受創傷,之後出現超凡的數學、音樂或藝術才能。

傳統的腦科學,把此現象歸於大腦的可塑性,是沒有說服力的。


機器學習的本質在於讓機器自己去學習,可以用機器學習去做圖像處理,也可以用別的方法去做圖像處理。


嗯,還有計算機視覺是什麼關係


比較同意Ronald Wang的回答。機器學習和圖像處理有交叉的地方,即使面對識別問題,提取特徵的時候從預處理到各種域之間的轉換也屬於圖像處理的範疇。另外找工作的時候其實做圖像的只需要搜圖像處理就夠了,雖然我主攻方向不是圖像處理,如果嘗試搜更為精確的比如計算機視覺,機器學習等,在各種招聘和獵頭網站篩出來的結果很難讓人滿意,一個「圖像處理」 其實已經涵蓋了所有圖像相關職位。


推薦閱讀:

FPGA工程師的技能樹是怎樣的?
如何理解壓縮感知(compressive sensing)?
圖像降噪和圖像濾波的區別是什麼?
在SIFT和SURF之後,有哪些比較新的且具有一定影響力的自然圖像配准演算法?
同一個卷積層中的 Feature Map有什麼區別?

TAG:人工智慧 | 圖像處理 | 機器學習 |