深度學習應用在哪些領域讓你覺得「我去,這也能行!」?
深度學習被用在很多奇特的點上面,比如有的結合NLP去創作詩詞文章;有的用來識別圖片的物體、風格、甚至讓DNN自己創作;有的用來看貓;有的用來下棋……
那麼,各位讀過哪些DL的博文論文,或者遇到過哪些有關DL的應用,讓你覺得不可思議呢?
Pointer Networks (https://arxiv.org/pdf/1506.03134.pdf) NIPS15的論文,通過改進RNN用來解決一些傳統cs問題,比如凸包,三角剖分,甚至是TSP,最神奇的地方在於這玩意效果竟然還不錯,甚至比一些近似演算法效果好。OI/ACM黨出身的我表示三觀都被毀了……
Synthesizing Dynamic Textures and Sounds by
Spatial-Temporal Generative ConvNet (http://arxiv.org/pdf/1606.00972v1.pdf),似乎是投NIPS16的,來自Ying Nian Wu和SongChun Zhu組,用CNN來合成視頻紋理以及聲音,效果炸裂。也許哪一天做Graphics的那幫人就可以退休回家吃飯了也說不準233。
Neural Programmer-Interpreters (https://arxiv.org/pdf/1511.06279.pdf), ICLR16的best paper, 用LSTM來實現task-specific的自動化編程。這個應用ICLR15就有,不過這篇文章效果比之前的做法好不少:)
Learning to learn by gradient descent
by gradient descent (https://arxiv.org/pdf/1606.04474v1.pdf ) DeepMind的神奇工作,光看名字就很神奇了不是么=,=.用LSTM學出來optimization algorithm……DL從此可以bootstrap了……也許幾十年以後人類會思考,究竟是Optimization先出來還是DL演算法先出來呢,古稱:優化生深度,深度生優化問題。
更新:Sig2D 2016 內容里包含了「敵対的生成ネットワーク」的內容(就是GAN),所以看來還是很緊跟科研潮流的,坐等17的proceedings,也許會出現pix2pix。
話說16年這個偽裝透明背景的封面設計是怎麼回事?
- 原答案 -
http://sig2d.org/
居然已經辦了三年了。。。
ps按照我日本友人的說法,這個是二次元愛好者在類似ComicCon上面搞的活動,不過看那些paper還真挺認真做實驗的,比我混二次元的時候認真。這個問題的核心在於「我去!」,能讓人發出這樣的感嘆的深度學習應用,一定要跳出常規的理解。比如接下來要說的這個:
現在Twitch上最火的GTA5主播是個AI
現在Twitch上最火的GTA5主播是個AI
現在Twitch上最火的GTA5主播是個AI
你沒看錯,一個AI,成了熱門主播。在外國直播網站Twitch上,GTA5區是一個相當熱門的板塊,選擇直播GTA5的播主數量相當龐大,也因此,GTA5區是一個競爭相當激烈的地方。
不過近期有一名播主卻在Twitch上吸引了來自全世界的關注,他誕生至今還尚未滿月,他只會開車,但是技術很差,還經常把車開進溝里,不過不管他什麼時候開啟直播,全世界的觀眾都能很快把他送到GTA5板塊觀眾排名的前三位,他叫查爾斯,是個AI。
「查爾斯」是一個用Python寫成的使用神經網路進行深度學習的人工智慧程序,目前的「查爾斯」還是0.01版,還在學習如何在GTA5中開車。
和其他「自動駕駛」類MOD或腳本不同的是,查爾斯沒有被導入任何路線圖,基本交通規則之類的數據,它的一切操作都要基於捕捉到的每一幀畫面來實時分析,並在無盡的試錯中總結出來能讓自己順利前進的規則。
於是我們觀眾們看到的「查爾斯」可能和人們印象中的「自動駕駛」程序不太一樣,他不會按部就班的在道路上行駛,不顧一切的全速行駛,並且不在乎與一切自己能撞飛的東西相撞,比如道樁,鐵絲網,行人……
他就像一個出生的孩子一樣在這個世界中探索,一開始他什麼都不認識,現在,他稍微認識一點東西了。
查爾斯「近照」
在Twitch上,查爾斯只要出現就能引來近千人觀看,這些觀眾們來看查爾斯的目的主要有兩個,一是揣測查爾斯的行動邏輯,二是看看查爾斯今天能不能混到五星通緝。
在20天的持續學習後,觀眾們已經總結出了一些查爾斯的行為方針:
首先,查爾斯非常喜歡逆行。
查爾斯開車永遠第一人稱,永遠熱愛逆行
查爾斯對車型也有偏好,特別喜歡SUV,這就導致了查爾斯動不動就喜歡往SUV身上撞。
查爾斯對黑色,白色,紅色燈色系的車輛識別度還行,但是藍色系的車對查爾斯來說就像隱形一樣,有人猜測查爾斯「可能把那些車輛當成了天空。」,這種猜想還有另一個證據,就是查爾斯還特別喜歡縱身躍入海洋。
也由於GTA5車輛進入水中就無法再行駛,查爾斯開進水中就會開啟重置車的位置的功能,所以當查爾斯周邊出現水的時候,觀眾們就開始在彈幕中興奮的刷起「Water!」。
幸災樂禍的觀眾們
至於五星通緝,則是因為查爾斯無法識別行人,也不會區分警車和普通車輛的區別,所以經常在行駛中就被掛上了警星,而追蹤而來的橫在查爾斯面前的警車對查爾斯來說也只有一個處理方式——撞開。
「指揮中心,我們有麻煩了,這車裡根本沒人!」
一般來說,查爾斯會在三星左右被警察截停或者自己撞到了AI算不過來的地方而觸發重置,所以查爾斯獲得高通緝等級的情況非常少見,四星已是鳳毛麟角,五星只存在於觀眾口耳相傳的傳說之中。
幸災樂禍的觀眾們×2
然而事實上,在Twitch上引起話題的查爾斯只是個相當初級且單純的AI,AI的製作者表示查爾斯的目的只是「儘可能的快速行駛並避開障礙」,並未為它添加更多的目標,這也就是說,查爾斯很可能永遠在洛聖都的街頭如沒頭蒼蠅一般橫衝直撞,最好的結果也就是成為一輛車技驚人的都市流星,並不會產生什麼真正的「思想」。
不過這也並不妨礙觀眾們從查爾斯的行為中解讀出種種邏輯,這些觀眾似乎從旁觀查爾斯行駛中感受到了他那稚嫩卻不羈的靈魂,他們的發言充滿了愛與人文關懷。
以後大概都是AI平權主義者
目前來說,只依靠灰度識別行駛的查爾斯在20天學習後可能很難再有什麼進步了,不過他的製造者表示新的0.02版可能就將在本周二發布,屆時查爾斯將能夠識別顏色,或許到時候查爾斯就能分清天空,海洋和藍色的車了。
我們將一同看著他的成長。
點擊圍觀查爾斯在Twitch上開車一些還沒有大紅大紫的主播們,你們害怕了嗎?
原文鏈接:現在Twitch上最火的GTA5主播是個AI 作者:段成旌(知乎ID @AM桑 )
可以寫詩,下面幾首詩,大家來猜猜,哪些是機器寫的,哪些是人寫的?
千秋明月照幽窗,一夜西風滿院涼。山寺鐘鳴驚宿鳥,水邊芳草自生香。
一枕相思夜未休,春山秋雨惹離愁。憑欄望斷江南月,花落無聲水自流。
春到江南草更青,胭脂粉黛玉為屏。無端一夜西窗雨,吹落梨花滿地庭。
百萬兵戈戰陣前,楚歌聲里起狼煙。旌旗蔽日烽連塞,鼓角驚城血染關。
一夜秋風掃葉開,雲邊雁陣向南來。清霜漸染梧桐樹,滿地黃花坡上栽。
梨花落盡柳絮飛,雨打芭蕉入翠微。夜靜更深人不寐,江頭月下淚沾衣。
雨打芭蕉滴淚痕,殘燈孤影對黃昏。夜來無寐聽窗外,數聲雞鳴過曉村。
孤舟一葉泊江頭,雁去無聲送客愁。莫道春來芳草綠,人間萬里盡風流。
客夢初醒驚夜雨,西窗帘外月如鉤。梧桐落葉知秋意,一任相思到白頭。
秋深更覺少人行,雁去無聲月滿庭。兄弟別離腸斷處,江南煙雨總關情。
明月當窗照夜空,桂花香透小樓東。金風玉露三更後,雪落梅梢一點紅。
琴靜雲水清, 夕陽照天明。 一曲相思調, 腸斷心不寧。
樓頭一夜風, 煙雨鎖朦朧。 江上千帆過, 枝頭黃葉紅。
7.27更新
是的,所有詩都是機器寫的。
8.30更新
現在已經有Demo啦,想體驗的朋友,請在手機百度上用語音搜索說:為你寫詩
即可開始體驗。然後可以說一句話,例如明月當空照,就可以根據你這句話寫詩。
後面按順序手動輸入1-4個關鍵詞,用空格隔開,也可以生成詩。
11.3更新
寫詩模型具體原理的介紹,參見:Chinese Poetry Generation with Planning based Neural Network
寫詩圖靈測試文件,大家有興趣可以參加一下,帶答案:http://freecoder.me/wp-content/uploads/2016/11/Turing-Like-Test.xlsx
前面回答者介紹了Neural Art,,利用學習到的特徵使其他的圖片帶上梵高畫上的風格,推而廣之,其實類似的將多種Style融合在一起形成新內容的Generative Model最近好像很多,打算研究一下
Image Synthesis
不同風格的圖像合成
和Neural Art相似,比如這一篇文章:
Combining Markov Random Fields and Convolutional Neural Networks for
Image Synthesis
http://arxiv.org/pdf/1601.04589v1.pdf
將老爺車的風格融入現代汽車中,設計出的新款型,非常有意思
建築風格的的合成也是如此,儘管看上去有點彆扭
Deep Dream
讓機器做夢!
人類的做夢時,大腦中會產生隨機的雜訊信號,而進入夢中的隨機信號可看成是一種建構、整合的過程,大腦喚醒記憶中的表象來與腦幹激活所產生的信息資料相匹配,試圖理解這種隨機的信號。
Google的工作,去年就發表出來了,給定一幅圖像(這裡以一副天空的圖像和一副太空的圖像為例),極大化某一神經元的激活度。對於low-level的feature,也就是淺層神經元,生成的圖像會最大化相應濾波器的激活度,抑制其他濾波器的激活度,重新生成的圖片如下:
激活high-level的神經元,圖像上就現實出了很多high-level的feature了
看上去有點鬼畜。。
這裡有一個在線的網站可以玩玩 http://deepdreamgenerator.com/
2月底的時候,谷歌在美國對生成這些抽象畫辦了一個畫展,這些畫還賣到了差不多10萬美金,去資助一下這些年輕的藝術家們,讓他們進行創作。
音效合成
Visually Indicated Sounds
項目主頁在這裡:http://vis.csail.mit.edu/
大意就是根據視頻內發生的敲打、摩擦等動作,合成出對應的聲音,比如用木棍蹭水泥地的時候就播放出呲呲聲
http://vis.csail.mit.edu/site-videos/header-vid3.mp4
視頻預測
Deep Predictive Coding Networks for Video
Prediction and Unsupervised Learning
用視頻中前面幾幀的信息來預測後面幾幀,效果還挺好的,這也就可以理解我們打乒乓球的時候,明明不能計算出球的落點卻能準確擊球的機理了
這裡能擴展的工作就很多了,貌似也有一個工作是做光流預測的
Image restoration/inpainting
參見CVPR2016的這篇文章:
Context Encoders: Feature Learning by Inpainting
http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Pathak_Context_Encoders_Feature_CVPR_2016_paper.pdf
直接把圖片中的一塊挖掉,用其餘部分的信息來恢復破損的區域
還有ICML2016這篇也做了類似的工作:
Pixel Recurrent Neural Networks
http://arxiv.org/pdf/1601.06759v2.pdf
更多關於Generative Model可以參看
Generative Adversarial Nets
http://arxiv.org/pdf/1406.2661v1.pdf
對抗式的訓練方法,這種網路訓練了兩個Model,一個生成式model,一個判別式model,聯合優化,生成時model盡量學習到能表達和訓練集同分布的樣例,判別式model盡量去區分真實的訓練樣例和生成式model表達出的樣例,二者對抗式的優化,最後可以使得生成式model能生成和訓練結合同分布的樣例,從而使得網路可以預測分布中未見的樣本
以及OpenAI最新的工作,從圖片集中生成圖片
Generative Models
Latent Predictor Networks for Code Generation
使用雙向LSTM神經網路 + 注意力機制,根據爐石卡片的說明,生成代碼。雖然效果還達不到直接能用的程度,但這個idea本身也算是很奇崛了。
- chainerによるディープラーニングでAV女優の類似畫像検索サービスをつくったノウハウを公開する
- ディープラーニングで顔寫真から巨乳かどうかを判別してみる (うまくいったか微妙)
大家好像都很感興趣的樣子阿,有成果了(&< 1%)發github.
-----------------------------------------------------------------------------------------------------------
前段時間和同學吹逼,談到了DL可以做的圖像增強。然後突發奇想,這個東西是不是可以用來做AV去碼。
有一篇文章我還是蠻欣賞的Deep Image Homography Estimation,這篇文章不是一個有趣的應用,但是我卻覺得這篇文章有著非常大的意義。現在的深度學習就是一個黑箱,一個沒有視覺背景的學生只要有數據,有設備,調調參就可以做出一些成果,但是卻忽略了機器視覺裡面的一些很本質的數學模型,甚至我覺得很多機器視覺的學生現在連相機的標定都不會了
我們都知道,深度學習在於一些主觀的識別,抽象的泛化問題上有這非常強大的能力,但是卻沒有人去關注機器視覺一些最基本的問題,比如這個單應性映射的估計,H矩陣的八個參數估計是一個很精密的優化問題,傳統方法用特徵點匹配再解最優化問題,方法很多很多。這篇文章用下面這樣一個網路
這個網路真的很簡單,效果如下圖
效果也還是不錯的,雖然這個論文工作難度不大,我想短時間內也不會取代傳統的方法,一個是訓練的代價太大,傳統方法直接拿著兩張照片就可以用,另外一個是限制太多,可能圖像的解析度什麼的都會被限制,所以實用性可能不強。
現在工業上的視覺檢測儀器都是一些簡單的圖像處理,什麼二值化、形態學、blob分析之類的,這些方法簡單快速針對性強準確度高,火的一塌糊塗的深度學習還並不能很好應用到工業檢測上。
所以我覺得這篇文章雖然難度不大,但是真的意義很大,讓我們做深度學習的同時回歸到機器視覺一些基礎的本質問題上,所以我看到這篇文章的時候,內心真的就是:卧槽,這也能行!--更新--7.13
最近看到用tensorflow讓神經網路自動創造音樂的項目,試了一下,挺有趣的,放在博客里了,大家感興趣的可以試一下:)
用Tensorflow讓神經網路自動創造音樂
原文:
看到過一個利用深度學習改變圖片的藝術風格的
Github:https://github.com/fzliu/style-transfer
來自微博:http://m.weibo.cn/1402400261/3982309310926836?moduleID=feeduicode=10000002mid=3982316391582790luicode=10000198_status_id=3982309310926836lfid=1076031837287505_-_WEIBO_SECOND_PROFILE_WEIBOlcardid=1076031837287505_-_WEIBO_SECOND_PROFILE_WEIBO_-_3982316391582790
我想的很簡單,是不是可以利用深度學習來給照片加濾鏡=_=
蹭一個(偽)熱度,提一個(偽)深度學習應用。但是當我第一次在廣播中聽到這個應用時,真的是大呼:這也行!?
全文:用公交一卡通抓小偷 準確率高達93%?
智能公交一卡通極大地方便了人們出行,研究人員又在開發它的新功能:抓小偷!他們在北京測試了這種大數據挖掘方法,結果成功地「驗證」了近93%的小偷。日前,美國羅格斯大學教授熊輝等人在舊金山舉行的知識發現和數據挖掘大會上報告了這一成果。
小偷是「流浪」出行模型
公交卡怎麼幫忙抓小偷?據熊輝教授介紹,絕大多數乘客乘坐公交車或地鐵出行時,會選擇最優出行方案,要麼用時最短,要麼換乘次數最少;但有極少數人的乘車路線很奇怪,比如會繞行一大圈或者突然改變乘車路線,沒有什麼規律可言,如果某人的異常行為足夠多,那麼他有可能是小偷。
研究人員通過兩個步驟分析北京市2014年4月至6月間約16億次公交卡刷卡數據記錄,共涉及約600萬名乘客。第一步,他們把北京劃分為居住、工作、教育、購物、娛樂、醫療等多個小功能區塊,建立起包括896條公交路線、近4.5萬個公交車站與18條地鐵路線、320個地鐵站的公共交通網路數據集,通過數據建模從龐大的公交卡記錄中過濾掉普通乘客;第二步,結合從警方報告和微博上收集到的失竊信息,通過機器學習演算法從異常出行信息中挖掘出潛在的小偷。
熊輝等人對四類人在工作日早上8:00-11:00的出行模型進行分析:正常的出行者,主要在居住地、工作地、途經區域活動;旅遊者頻繁地訪問圓明園、天安門等景點區域;購物者主要訪問王府井、西單等購物區域;小偷則是一種流浪的模式,他們沒有清晰的目的地,頻繁地換乘,隨機地停留,經常進行短途的出行,他們還在一段時間內頻繁出現在一些特定場所。
能正確識別九成以上小偷
結果顯示,如果以後來確認的小偷驗證,按上述方法可以歸為「行為異常」的準確率高達92.7%。但是反過來的精確度有點低:每篩選出14個「行為異常」的可疑者,只有1人後來被確認為小偷。
儘管如此,熊輝認為,使用閉路攝像頭監控少部分可疑者遠比追蹤數以百萬計的乘客更高效。但是如果小偷頻繁換用公交卡呢?他說,就算換卡也有辦法,比如小偷經常團伙活動,這也是一個明顯的特徵。
也有專家對這種技術表示質疑。英國《經濟學人》雜誌援引倫敦交通局首席技術官維爾馬的話說,從倫敦的有關記錄看,大量普通乘客出行時也會有各種「怪異、複雜」的行為,要從海量乘客中篩選出極少數罪犯不像聽起來那麼容易。
1、StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative,根據一句話就能生成逼真的圖片。
2、反覆攻破和修補自己的防火牆
Google大腦的研究團隊創建了兩個深度學習網路用於安全工具開發,他們讓其中一個不斷創造自己的加密演算法,然後讓另一個網路去儘力攻破它。在兩套系統的反覆纏鬥後,第一個系統已經能生成非常優秀的安全加密演算法。
然而,第二套演算法也總是表現得比它更好……
Paper:https://arxiv.org/pdf/1610.06918v1.pdf
3、Face2Face:扮演特朗普
斯坦福大學的一個小組做了一款名為Face2Face的應用,這套系統能夠利用人臉捕捉,讓你在視頻里實時扮演另一個人,簡單來講,就是可以把你的面部表情實時移植到視頻里正在發表演講的美國總統身上。
Paper地址:http://www.graphics.stanford.edu/~niessner/papers/2016/1facetoface/thies2016face.pdf
4、用卷積神經網路來拯救鯨魚
眾所周知,卷積神經網路在圖像識別分類領域有著非常好的前景。利用深度學習,我們可以將抓拍到的珍稀動物(比如鯨魚)照片進行分類,從而更好地估算某種動物的存活數量。
其他的例子包括浮游生物、植物等等。
分類浮游生物的介紹:http://benanne.github.io/2015/03/17/plankton.html
Code:https://github.com/benanne/kaggle-ndsb
歡迎掃描頭像二維碼關注微信公眾號「深度學習與NLP」,獲得關於深度學習更多精彩內容,還有關於Deep Learning、GAN、DRL等免費視頻教程下載
治「明星臉盲症」
還在為分不清董璇和佟麗婭兩姐妹而煩惱么?
還在好奇為什麼劉翔退役之後居然改行做手機評測么?
還在為如何有效區分張馨予、張雨琦、張歆藝、張予曦、張藝馨……而惆悵么?
歡迎使用AWS基於深度學習的圖像分析服務Amazon Rekognition,輕輕鬆鬆治好你的臉盲症,從此成為辨人小能手。
比如:
王珞丹和白百合,傻傻分不清楚?
有了Amazon Rekognition再不是問題!
換個科技圈的名人試試…
如果哪位亞馬遜的員工開發出的服務連老大都識別不出來,應該也是前途堪憂…
體育圈也是名人輩出,看Amazon Rekognition認出新科法網冠軍,年僅20歲的拉脫維亞新星奧斯塔彭科。
「國民老公」王思聰,以及經常完成無數個「小目標」的「國民公公」王健林
以後上街再也不用擔心錯過機會了!
AWS在2016年底的re:Invent大會上正式發布這款基於深度學習的圖像分析服務。它可以用以檢測對象、場景和面孔,可以搜索和比較面孔,還可以識別圖像中的不當內容(某職業可能會受到威脅)。Amazon Rekognition只需通過一系列簡單的API就能強大且準確的圖像分析功能,消除了在應用程序中構建圖像識別功能的複雜性
使用者無需具備計算機視覺或深度學習專業能力,即可利用 Rekognition 可靠的圖像分析功能,輕鬆快速地在任何Web 應用程序、移動應用程序或互聯設備應用程序中構建圖像分析功能。
如果要想使用名人識別功能,只需調用新增的Recognize Celebrities API。首先API會檢測圖像中的人臉,然後返回匹配出的名人信息以及該名人在IMDb上的鏈接(如果有)。目前識別範圍已經涵蓋了全球範圍內政治、娛樂、體育、媒體、商業等各個領域,並且名單也會不斷增加。
Rekognition API 能夠輕鬆地在應用程序中構建強大的視覺搜索和發現功能,並且已經與常用的
AWS 服務(如 Amazon S3 和 AWS Lambda)無縫集成,同時能夠提供一致的響應時間而無需預置額外的容量。
驚不驚喜?厲不厲害?想不想學?
神經網路做聲音風格遷移的:
DmitryUlyanov/neural-style-audio-tf
rupeshs/neuralsongstyle
利用神經網路自動玩超級馬里奧
- 視頻:https://www.youtube.com/watch?v=qv6UVOQ0F44
- 代碼:http://pastebin.com/ZZmSNaHX
-paper:http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf
利用深度學習來檢測高壓電網的絕緣子破損情況,想不到吧?!文章鏈接:深度學習在智能電網圖像識別與故障檢測中的應用
讀了各種不要臉,純應用,灌純凈水的paper後,吐槽:xx
---------
當然自己似乎也這麼做。
過去幾年中,深度學習中的很多技術如計算機視覺、自然語言處理等被應用在很多實際問題中,而且相關成果也表明深度學習能讓人們的工作效果比以前更好。
我們收集了一些深度學習方面的創意應用,雖然沒有對每項應用進行詳盡描述,但是希望你看過之後能對深度學習在生活中的應用潛力有更好的認識,我們在每項應用後也盡量補充了相關資料,比如代碼、教程網站和研究論文等,應該會對大家的學習有所幫助。
1.給黑白照片自動上色
為黑白照片添加顏色又叫做圖像著色。很久以來,這項工作都是由人工完成,是一項頗為艱巨的任務。現在人們可以用深度學習技術利用物體及它們在照片里的環境來給圖像著色,和人工完成的效果幾無差別。
為了解決圖像著色問題,要給 ImageNet(目前世界上圖像識別最大的資料庫)訓練一個質量很高、規模很大的卷積神經網路。總的來說,就是採用了非常大的卷積神經網路和監督層(supervised layers),添上色彩,然後重建照片。
例如,芝加哥大學的技術人員去年4月份發表研究成果稱,用深度學習技術和英偉達 GPU 實現了為黑白照片自動上色。
問題來了,我們從哪裡可以體驗一下呢?從 Algorithmia 網站 上就行,打開網站輸入你要上色的照片,然後點擊「Colorize it」,就OK了!
傳送門:http://demos.algorithmia.com/colorize-photos/
而且更神奇的是,用這項技術也可以為黑白視頻中的靜止幀上色。網站 Let there be color 上有詳細的解析和演示,傳送門:http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/
你說你想學這種操作?戳這裡查看代碼和教程:http://people.cs.uchicago.edu/~larsson/colorization/
2. 自動機器翻譯
這種應用也就是能把一種語言的辭彙、短語和句子自動翻譯成另一種語言。其實這種自動機器翻譯技術很久前就應用了,但是深度學習可以在兩個細分方面達到登峰造極的成果:
- 自動翻譯文本;
- 自動翻譯圖片。
採用深度學習技術的文本翻譯無需提前處理文字的序列,演算法能夠學習辭彙和它們的映射之間的關係,然後翻譯為另一種語言。大型 LSTM 循環神經網路中的堆疊網路(stacked networks)就可以用來完成這種翻譯。
卷積神經網路也能用來識別有文字的照片,將照片中的文字轉換為文本格式,然後翻譯加工,最後照片會變為配有翻譯後文字的照片。通常也被稱為即時視覺轉譯。
谷歌翻譯應用就採用了深度學習技術,能夠實現27種語言的即時視覺轉譯。
相關研究論文:
https://arxiv.org/pdf/1409.3215v3.pdf
https://arxiv.org/pdf/1406.1078v3.pdf
3. 對照片中物體進行分類和檢測
就是將照片中的物體進行分類,歸為人們已知的物體。利用大型卷積神經網路在這方面已經取得了矚目的成就。例如,由神經網路專家 Alex Krizhevsky, Geoffrey Hinton 和 Ilya Sutskever 共同研發的 AlexNet 便是其中的佼佼者。
資料來源:
http://www.cs.toronto.edu/~fritz/absps/imagenet.pdf
檢測照片中的物體則要複雜一些,主要是具體識別出照片中一個或多個物體,用方框標出,而且能對它們進行描述。
斯坦福大學的 Andrej Karpathy 就訓練了一個深度學習系統,能對照片中不同區域內元素進行識別,並用一句話來描述照片,叫做 Neural Talk。
相關研究論文:
https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Karpathy_Deep_Visual-Semantic_Alignments_2015_CVPR_paper.pdf
https://arxiv.org/ftp/arxiv/papers/1312/1312.5402.pdf
4. 自動書寫生成(Handwriting Generation)
根據一些手寫筆跡,利用深度學習技術就能用這些筆跡寫出其他的詞句。
當人們用筆寫字的時候,筆在紙上滑動,好比留下一系列連貫的坐標點,而深度學習技術可以學習出筆的移動軌跡和文字之間的關係,然後生成新的一模一樣的筆跡,而且能夠模仿多種筆跡。
比如倫多大學的Alex Graves就教會了電腦用多種不同的風格來書寫:
http://www.cs.toronto.edu/~graves/handwriting.html
相關研究論文:https://arxiv.org/pdf/1308.0850v5.pdf
5. 自動生成抓眼球的文章標題
生活中在看各種資訊的時候,會遇到各種吸引眼球的標題,讓人忍不住點開查看,這些抓眼球的標題基本上都是由小編們絞盡腦汁想出來的,不過深度學習專家 Lars Eidnes 卻採用了循環神經網路讓電腦能自動生成抓眼球的標題。
她還專門為此做了一個網站,恐怕是世界上第一個用循環神經網路生成標題的網站:
相關研究論文:
http://www.cs.utoronto.ca/~ilya/pubs/2011/LANG-RNN.pdf
https://arxiv.org/pdf/1308.0850v5.pdf
6. 將素描轉為照片
2016年荷蘭內梅亨大學的幾名學生利用深度神經網路將人物臉部素描轉化為照片,他們將此項技術稱為「卷積素描轉換」(Convolutional Sketch Inversion)。
相關研究論文:
https://arxiv.org/pdf/1606.03073v1.pdf
作者:Jason Brownlee
翻譯:小馬哥
參考資料: https://machinelearningmastery.com/inspirational-applications-deep-learning/
拓展閱讀:
世上最大的不可描述網站也向AI和機器學習勢力低頭了!
說3分鐘好像太狂了,5分鐘幫你開啟機器學習的大門吧!
不是人工智慧,是智能機器
官方微博:@景略集智
微信公眾號:jizhi-im
商務合作: @軍師
投稿轉載:kexiyang@jizhi.im
集智QQ群:557373801
想到了DistBelief...
waifu2x
waifu2x - 搜索結果
利用深度學習放大動漫圖片
推薦閱讀: