當前,在圖像處理領域,哪個方向比較火?或者比較好做?

圖像處理相對其他來說是一門很有意思的學科,相信全世界肯定有相當多的人在研究它,是不是代表要想在圖像處理中有所作為就更加難一點呢?


看了一些高票答案,我提出一些不成熟的小看法:回答問題還是要針對問題本身。先看題主想問了什麼,再對應答什麼。

題主問的:在「圖像處理」領域,哪個方向比較火?

然而很多高票回答的領域,其實都跑到計算機視覺的領域去了,還有什麼虛擬現實去了。

首先題主你應該搞清楚,什麼是圖像處理?他和另外一個領域-計算機視覺的區別和關係。

儘管這兩者的界限其實很模糊,而且學術界和工業界經常有不同的劃分方法。

廣義的圖像處理會認為計算機視覺是他的一個subset(參見wikipedia對digital image processing(DIP)的定義:Digital image processing,裡面就包含了幾乎所有的計算機視覺,作為DIP的子領域);

而廣義的計算機視覺,就包含了圖像處理,作為low-level vision(參見每年的cvpr的call for paper:http://cvpr2018.thecvf.com/files/CFP_CVPR2018.pdf。像我這種做圖像但要投CV會的人,paper每次都被當做Low的那一類來處理...)。

稍微折中一下,我個人比較喜歡把圖像處理(DIP)領域局限在所謂的Low-Level Vision這一塊兒,包括所有的計算成像(Computational Imaging)。

為了保證排他性,我這裡把計算機視領域(CV)覺局限在一般所謂High-Level Vision那一塊兒。

除此以外,還有一些介於這兩者之間的應用和問題,一般被分為Mid-Level Vision。根據具體的情況,可以分別和DIP或者CV放在一起討論。

如果按照這樣的定義來分類的話,一句話總結就是:

  1. 圖像處理:圖像to圖像
  2. 計算機視覺:圖像to標識/理解
  3. Mid-Level Vision:圖像to像素級別的標識

展開來講,可以這樣認為:

圖像處理(DIP):

Input: 圖像,或者非圖像域的觀測值

Output: 圖像,可能不一定在同一個維度和空間(比如圖像壓縮,成像等)。一般不需要一些場景,或者語義信息(sematic information)

一些常見的具體任務:降噪,超分辨,去模糊,去馬賽克,去霧去雨去柵欄去雲等等的去X系列,再對焦,圖像補全,壓縮感知,計算成像(MRI, CT, Light field, ...),等等,外加一些圖像增強的任務,比如銳化之類的。

計算機視覺(CV):

Input: 圖像

Output: 場景信息,標識,對象理解 (recognize objects, people, activity happening)

一些常見的具體任務:各種識別(人臉,貓,狗,交通燈,疾病,異常,造假....),圖像轉文字(image captioning,etc),圖像轉語音,轉特徵值,目標定位,追蹤,等等

Mid-level的視覺和兩者都相關:

Input: 圖像

Output: 圖像大小的,針對每個像素點的理解

常見任務:圖像分割,前後景分離,saliency map或者attention map,等等

然後回到題主的問題:這裡面那個應用比較火。

在學術上一般每個具體問題,有不同的研究方法和途徑。但工業應用上其實這裡面很多問題都是有機地結合在一起的。

比如,你要對一張衛星圖像做分析,判斷照片是照的陸地還是海面。

拿到現實數據往往不像你跑ImageNet那樣理想和高質量,那你要不要先實際測量數據做一些預處理,比如超分辨,降噪,去雲,去霧之類的?這就涉及到DIP。

然後一副大的遙感圖像往往涉及到各種不同的區域和目標,他們都有不同的本質和特性。那你要不要先做一個分割,劃分一下區域?這就是Mid-Level的視覺問題。

然後等你把數據clean得差不多了,就該跑個識別或者定位之類的演算法了,這就是CV的領域的。

所以你看,實際落地的系統,往往這些問題你都涉及到。這些不同的問題看似領域不同,但最終在應用的時候,是相輔相成的。

其實在如今這個年代,我覺得火得其實不是某種應用,而是方法。比如很多人提到的deep learning的方法,最近是衝擊了所有這些領域的使用傳統方法的流派。

不管哪一個應用,只要有一個流弊的方法,能夠給做到衝擊性的效果提升,一定都可以火。。。

綜上,我的綜合意見是:最好先搞清楚要問的是什麼,再來討論答案。


圖像處理確實是很有意思的學科,特別是最近幾年和深度學習、機器視覺這些方向交流碰撞之後。火的方向有很多,還是要看自己興趣,我列幾個我個人覺得比較有前景的,新興的領域。

1. 和深度學習的結合。這方面的進展在人臉識別、圖像分類、image captioning, scene understanding等等已經突飛猛進。之前的業界標準很多是依賴SIFT, HOG等這些需要利用圖像特有性質的方法。如今深度神經網路,已經大規模超越了這些傳統方法 (但不代表傳統方法失去用武之地)。深度網路基本是採取暴力方法訓練,不考慮圖像特有性質,而且目前缺少嚴格的數學理論支撐,所以這方面未來還有較大的空間提高。

2. 視覺顯著性模型 (visual attention and saliency model)。這個很有意思,目的是從一幅圖像或視頻里,找到人眼關注的區域。在自動追蹤,圖像壓縮,機器人,增強現實等上面有廣泛應用前景。

3. 計算影像技術 (computational photography), 比如光場相機(參見Lytro),高動態等。光場是當今學術界和工業界研究的熱點之一,主要有兩大類。一類是光場信號的攝取,如Lytro, Raytrix這些。另一類是光場的呈現,更有挑戰,一個著名的例子就是Magic Leap。

4. 醫學圖像。這一塊和機器學習的結合也是值得關注的。

還有很多,不一一贅述了。希望有幫助。


火的挺多,好做的不好說,這個明顯跟背景相關,不同的人覺得好做的點不一樣啊。

通用演算法競爭的人多,需要對問題有比較深入的了解。

從我個人的經歷上看,如果有一些具體的比較了解的方向,做有針對性的圖像處理會比較容易一點。

比如數學出身的,可以從概率、數據分布的角度做圖像去噪,就是充分利用自己的優勢。以前有一個同學,學材料的,專門做金屬腐蝕圖像分析,來預測和檢驗金屬性能的,也不錯。在python、C++、優化方面有實力的,輔以適當的建模能力,做深度學習就很爽。我個人是電子信息工程加檢測技術與自動化裝置,原先又是做機器視覺方向的,就覺得做視覺系統比較好玩。但也有師姐完全就是做圖像處理的線提取,那真是圖像處理中最最基礎的演算法,也很成功。

方向千千萬,要結合自身的背景、資源來選擇。打個比方,就是帶著鐐銬跳舞。例如我現在雖然對深度學習和優化方面的應用很感興趣,但馬上要畢業還要完成手頭的一篇論文,就只能先把特徵工程的活幹完。其他稍後再談。


最被學術界和企業界看好的毫無疑問是醫療圖像還有自動駕駛。

但是個人認為,很多工業界不太容易被人廣泛發現的問題,比如,標籤檢測里的圖像處理,還有我們做半導體生產線上,檢測半導體缺陷的圖像處理;這都是很大的問題,但是根本沒有人做。這種就好比,現在已經是歐洲人開始殖民南美和北美的時代了。美洲大陸逐漸被佔領,但是加勒比海上那些富裕的小海島無人問津。其實這種東西往往技術也不是特別難。

說得更具體一些,我發現,就是在工業上,尤其是流水線,技術含量有非常高,同時對品控要求很高的行業,典型案例是半導體;許多加工和測試方法,以前用人工的,其實一定是可以用CV去替代的。用更多的計算機和更少的人,自然可以控制成本,也能藉此提高員工的待遇。


圖像處理領域分為應用公司、國內公司、工業相機、智能相機、鏡頭廠商、光源廠商、採集卡、視覺軟體、系統集成、輔助配件等。具體,比如應用公司有SenseTimeCogtu 知圖科技、碼隆科技、 Linkface、Face++、格靈深瞳、曠世科技、大華、海康威視、華為、美圖秀秀、百度識圖、百度魔圖、深圳大疆等 。只要看看他們研究什麼,不就明白什麼火


自動化領域,圖像處理技術更多被稱為機器視覺,主要有定位、測量、引導和識別幾個方向的應用。其中前三者已經應用的較多,也相對成熟。識別的應用相對較少,主要是難度比較大,但前景不錯,如產品表面缺陷檢測就是很大的市場,當前主要通過模板匹配來實現,隨著更為豐富的產品形態及缺陷形態的檢測需求增加,也比較需要如機器學習這一類時髦的high level 的技術為其注入新的活力。

道阻且長。


用深度學習玩圖像的七重關卡

許鐵-巡洋艦科技2 天前

第一個重境界: 圖像識別

如果你開始了解深度學習的圖像處理, 你接觸的第一個任務一定是圖像識別 :

比如把你的愛貓輸入到一個普通的CNN網路里, 看看它是喵咪還是狗狗。

一個最普通的CNN, 比如像這樣幾層的CNN鼻祖Lenet, 如果你有不錯的數據集(比如kaggle貓狗大戰)都可以給出一個還差強人意的分類結果(80%多準確率), 雖然不是太高。

當然,如果你再加上對特定問題的一些知識, 也可以順便識別個人臉啥的,開個startup叫face 減減什麼:

會玩的, 也可以順別識別個豬臉什麼噠(我覺得長得都一樣哦), 這樣搞出來每個豬的身份, 對於高質量豬肉的銷售, 真是大有裨益的。

或者看看植物都有個什麼病害什麼的,像這樣不同的病斑, 人都懶得看的, 它可以給你看出來。 植物保護的人可以拿著手機下田了。

Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2015.

雖然植物保護真的很好用,分類問做就了還真是挺無聊的。

我們進化的方向,也就是用更高級的網路結構取得更好的準確率,比如像下圖這樣的殘差網路(已經可以在貓狗數據集上達到99.5%以上準確率)。分類做好了你會有一種成為深度學習大師,拿著一把斧子眼鏡里都是釘子的幻覺。 分類問題之所以簡單, 一要歸功於大量標記的圖像, 二是分類是一個邊界非常分明的問題, 即使機器不知道什麼是貓什麼是狗, 看出點區別還是挺容易的, 如果你給機器幾千幾萬類區分, 機器的能力通過就下降了(再複雜的網路,在imagenet那樣分1000個類的問題里,都很難搞到超過80%的準確率)。

He, Kaiming, et al. "Identity mappings in deep residual networks." European Conference on Computer Vision. Springer International Publishing, 2016.

第二重境界 : 物體檢測

很快你發現,分類的技能在大部分的現實生活里並沒有鳥用。因為現實中的任務啊, 往往是這樣的:

或者這樣的:

那麼多東西在一起,你拿貓狗大頭照訓練的分類網路一下子就亂了陣腳。 即使是你一個圖片里有一個貓還有一個狗,甚至給貓加點雜訊,都可以使你的分類網路分寸大亂。

現實中, 哪有那麼多圖片, 一個圖裡就是一個貓或者美女的大圖,更多的時候, 一張圖片里的東西, 那是多多的, 亂亂的,沒有什麼章法可言的, 你需要自己做一個框, 把你所需要看的目標給框出來, 然後, 看看這些東西是什麼 。

於是你來到機器視覺的下一層挑戰 - 目標檢測(從大圖中框出目標物體並識別), 隨之而來的是一個新的網路架構, 又被稱為R - CNN, 圖片檢測網路 , 這個網路不僅可以告訴你分類,還可以告訴你目標物體的坐標, 即使圖片里有很多目標物體, 也一一給你找出來。

Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.

萬軍斬你首級那是杠杠的,在眾多路人甲中識別嫌疑犯,也是輕而易舉, 安防的人聽著要按捺不住了。

今年出現的YOLO演算法更是實現了快速實時的物體檢測,你一路走過就告訴你視線里都有什麼在哪裡,要知道這在無人駕駛里是何等的利器。

YOLO快速檢測法Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

當然, 到這裡你依然最終會覺得無聊, 即使網路可以已經很複雜, 不過是一個CNN網路(推薦區域),在加上一層CNN網路做分類和回歸。 能不能幹點別的?

第三重境界 : 圖像切割

啊哈, 這就來到了第三個關卡, 你不僅需要把圖片中邊邊角角的物體給檢測出來, 你還要做這麼一個猛料的工作, 就是把它從圖片中扣出來。 要知道, 剛出生的嬰兒分不清物體的邊界, 比如桌上有蘋果這種事, 什麼是桌子,什麼是蘋果,為什麼蘋果不是佔在桌子上的? 所以, 網路能不能把物體從一個圖裡摳出來, 事關它是否真的像人一樣把握了視覺的本質。 這也算是對它的某種「圖靈測試」 。 而把這個問題簡化,我們無非是在原先圖片上生成出一個原圖的「mask」, 面具,有點像phtoshop里的蒙版的東西。

所謂摳圖

Drozdzal, Michal, et al. "The importance of skip connections in biomedical image segmentation." International Workshop on Large-Scale Annotation of Biomedical Data and Expert Label Synthesis. Springer International Publishing, 2016.

注意,這個任務里,我們是要從一個圖片里得到另一個圖片哦! 生成的面具是另一個圖片, 這時候,所謂的U型網路粉墨登場,注意這是我們的第一個生成式的模型。 它的組成單元依然是卷積,但是卻加入了maxpooling的反過程升維採樣。

這個Segmentation任務, 作用不可小瞧哦, 尤其對於科研口的你, 比如現在私人衛星和無人機普及了,要不要去看看自己小區周圍的地貌, 看是不是隱藏了個金庫? 清清輸入, 衛星圖片一欄無餘。 哪裡有樹, 哪裡有水,哪裡有軍事基地,不需要人,全都給你摳出來。

如果你要數個細胞啥的 ,都是挺容易的,給它變成這樣的輪廓不就你得了。

第四重境界:

我們開始fashion起來, 如果你是淘寶服裝小店的老闆 ,想讓客戶輸入一張服裝的圖片,然後得到一組推薦的服裝, 來個以圖搜圖的功能怎麼搞呢? 注意啊,我可以從網路上爬一大堆圖出來,但是這些數據是沒有標註的。怎麼辦? 鐵哥告你還是有的搞,這個搞法,就是聚類。

鐵哥教你最簡單的一招聚類哦,那就是, 把圖片統統放進卷積網路,但是我們不提取分類,而只是提取一些網路中間層的特徵, 這些特徵有點像每個圖片的視覺二維碼,然後我們對這些二維碼做一個k-means聚類, 也會得到意想不到的效果。 為什麼要深度? 因為深度提取的特徵,那是與眾不同的。

然後以圖搜圖呢? 不過是找到同一聚類里的其它圖片啊。

在聚類的基礎上, 就可以做個搜索!

第五層境界 :

我們開始晉陞為仰望星空的人, 之前那些分類賺錢的應用太無聊了。 機器視覺搞科學怎麼港? 作為一群仰望星空後觀察細胞的人,我們最常發現的是我們得到的天文或者細胞圖片的雜訊實在太大了, 這簡直沒法忍啊, 然後, 深度學習給了你一套降噪和恢復圖像的方法。 一個叫auto-encoder的工具, 起到了很大的作用 , 刷的一下,圖像就清楚了。

這還不是最酷炫的,那個應用了博弈理論的對抗學習, 也可以幫你謀殺噪點! 如果你會對抗所謂GAN, 也是一種圖像生成的工具, 讓網路去掉雜訊的圖片,與沒有雜訊的自然圖片, 連卷積網路都判別不出來,對, 就是這樣!

Schawinski, Kevin, et al. "Generative adversarial networks recover features in astrophysical images of galaxies beyond the deconvolution limit." Monthly Notices of the Royal Astronomical Society: Letters 467.1 (2017): L110-L114.

第六重境界 :

在工業界賺夠了錢,科學也太nerd了, 我們來玩藝術思考哲學 ,第一招, 圖像風格遷移,請見鐵哥之前的文章:

然而真正能玩好這一事項的,還是那個剛剛提過的對抗學習GAN, 比如大名鼎鼎的CycleGAN, 幾乎可以實現一種你自定義的「圖像翻譯」 功能,而且你不用做標註哦, 拿出冬天和夏天的兩組圖片, 它會自動的在兩組圖片中找出對應來。

Zhu, Jun-Yan, et al. "Unpaired image-to-image translation using cycle-consistent adversarial networks." arXiv preprint arXiv:1703.10593 (2017).

第七重境界:

圖像翻譯也懶的玩了, 你神經網路不是號稱能夠理解圖像,看你來個無中生有,在雜訊里生成圖片來?

對,依然是GAN,而且是最基礎的卷積GAN (DCGAN)就可以給你干出來。

看看GAN所幻想的賓館情景, 你能想到是計算機做的圖嗎? 哈哈哈!

Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural information processing systems. 2014.

寫到這裡, 我自己都覺得GAN是非常有前途的,有前途的,有前途的,以前我還以為只是好玩呢。

這裡展示的七級浮屠,也不過深度學習被人類discover的冰山一角, 醉卧沙場君莫笑, 古來征戰幾人回。

給你一個稍微清晰一些的大綱:

如果對基礎理論部分有不熟悉,請返迴文章你不能不知道的CNN,當然它只是冰山一角, 了解更多並挨個實戰請關註:巡洋艦的深度學習實戰課程, 手把手帶你進行深度學習實戰, 課程涵蓋機器學習,深度學習, 深度視覺, 深度自然語言處理, 以及極具特色的深度強化學習,看你能不能學完在你的領域跨學科的應用深度學習驚艷你的小夥伴,成為身邊人眼中的大牛。剛剛講的方法都將在課程里詳細展開。

目前課程線下版本已經基本報名完畢(特殊申請可加一到兩個名額), 為了緩解眾多異地學員的需求, 我們提出一個線上加線下的課程簡版, 課程包括全部課程視頻, notebook作業, 和一個課程模塊的來京線下實踐機會, 名額限5名,預報從速,詳情請聯繫陳欣(cx13951038115)。


題主問的稍微有點籠統。不知道你問的是現在火還是未來火,滑稽臉。

不過要說看什麼技術火的話,專門有家公司gartner專門分析技術趨勢。

有個很有名的Gartner曲線。

答主copy了一張17年的。這個圖的思想是任何一項技術的都會經歷萌芽、膨脹、幻滅然後再復甦最後再趨於成熟的過程。

可以看到深度學習、機器學習正在膨脹期。答主如果是讀研之後工作的話,那麼真心推薦去做和這個相關的。哪怕不相關,也要創造機會相關,哈哈。至於處理什麼對象,往哪個方嚮應用。這個就要看你自己的項目了。

這個有時候自己還是決定不了,老闆管著啊,老闆撒idea,答主只能是idea的搬運工。(捂臉)

除了看這個Gartner曲線,再有就是去看頂會的論文了。這個方法是個博士師兄教給的,你看什麼東西發的多,什麼就火哈哈。頂會包括CVPR、ICCV、ECCV、IEEE的TIP等等。

知乎已經有相應的問題啦——萬能的知乎

http://www.zhihu.com/question/62533482

http://www.zhihu.com/question/57523080

這裡貼上兩個,題主可以看看。而且可以持續的關注。

答主國內末流985計算機視覺方向小碩士一枚,剛剛畢業,一點肺腑之言吧希望對題主有幫助。

以上。


鑒黃師比較火

鑒黃師比較好做


建議大家認真讀題,正確認識圖像處理、計算機視覺、計算機圖形學之間的聯繫與區別之後再答。


難道只有我一個人覺得多目視覺會火么 — —


嗯 這個,,,

如果好做 和你我都沒什麼關係

如果很難做,也和你我沒什麼關係

為啥需要校企合作

沒有邊界沒有實用的研究本身是一種浪費

所以,直接去了解企業的需求,

管什麼難還是簡單,

做好了就是熱門方向

共勉


就沒有印刷行業的?製版過程圖像處理方式和衛星圖像分割有沒有相似之處呢?


機器視覺/深度學習一定會火


說牛逼的話,我國在衛星圖像處理強得離譜,好多高校都有技術支持


推薦閱讀:

GitHub 上有哪些比較好的計算機視覺/機器視覺的項目?
MXNet 的代碼要怎麼讀?
為什麼在一堆字母「T」里找「I」比在一堆字母「I」里找「T」要難?
機器學習、數據挖掘 如何進階成為大神?
去美國讀CS博士,方向是機器人導航,視覺方面,推薦一下相關編程方面準備?還有相關演算法需要學習哪些?

TAG:人工智慧 | 圖像處理 | 機器學習 | 模式識別 | 機器視覺 |