AI優質乾貨 | 2018第二彈 | 03.05-03.10 | Github項目、課程、數據、報告……
更多AI資訊,關註:九三智能控
課程
吳恩達在推特上展示了一份由 TessFerrandez 完成的深度學習專項課程信息圖,這套信息圖優美地記錄了深度學習課程的知識與亮點。因此它不僅僅適合初學者了解深度學習,還適合機器學習從業者和研究者複習基本概念。這不僅僅是一份課程筆記,同時還是一套信息圖與備忘錄。下面,我們將從深度學習基礎、卷積網路和循環網路三個方面介紹該筆記,並提供信息圖下載地址。
信息圖下載地址:https://pan.baidu.com/s/1DtYg3TyplXQOVZ-YmplJaw
Github項目
Keras 之父 Fran?ois Chollet 在 twitter 上發布消息,宣稱 Keras 中文版本正式上線,同時,對所有做出貢獻的小夥伴們,他也表示由衷的感謝。Keras 是一個用 Python 編寫的高級神經網路 API,它能夠以 TensorFlow, CNTK, 或者 Theano 作為後端運行。Keras 的開發重點是支持快速的實驗。能夠以最小的時延把你的想法轉換為實驗結果,是做好研究的關鍵。
Keras 官方中文版文檔:https://keras.io/zh/ GitHub 地址:https://github.com/keras-team/keras
OpenAI 近日發表了一篇博客介紹了自己新設計的元學習演算法「Reptile」。演算法的結構簡單,但卻可以同時兼顧單個樣本和大規模樣本的精確學習。OpenAI 甚至還在博客頁面上做了一個互動界面,可以直接在四個方框里畫出訓練樣本和要分類的樣本,演算法可以立即學習、實時更新分類結果。
體驗地址: https://blog.openai.com/reptile/
論文地址:https://d4mucfpksywv.cloudfront.net/research-covers/reptile/reptile_update.pdf 開源地址:https://github.com/openai/supervised-reptile
Google Brain 在神經網路的可視化上又進了一步。Google Brain 將這項工作稱為「神經網路的核磁共振成像」,我們知道核磁共振技術是生理學家可視化大腦工作機理的最有用的工具之一。Google Brain 在 Distill 發布的「The Building Blocks of Interpretability」這篇文章中,作者探討了如何將特徵可視化與其他可解釋性技術相結合,進而可以了解網路如何一步步做出決策的。這讓我們能夠「站在神經網路之中」看著網路如何一步步做出決策的整個過程。目前作者已經公開其全部代碼 Lucid,並放出 colab notebooks 以方便任何人使用 Lucid 來重現他們的文章。
GitHub 地址:https://github.com/tensorflow/lucid
全文地址:https://distill.pub/2018/building-blocks/
論文
谷歌在蘇黎世辦事處舉辦了一場有關演算法與優化的專題講座,旨在通過提供一個論壇來交流機器學習理論和大規模圖挖掘領域的想法。該論壇涉及到市場演算法、機器學習理論、大規模圖挖掘、隱私與公平、略圖構造、哈希和動態演算法這五個方向。
所有的演示文稿(包括視頻)地址(國內一般無法打開):https://sites.google.com/corp/view/algorithms-workshop/presentations
北京郵電大學和美國伊利諾伊大學(UIUC)的研究者們提出一種適用於密集人群計數的空洞卷積神經網路模型 CSRNet。該網路模型擺脫以往廣泛應用於人群計數的多通道卷積網路方案,在大幅削減網路參數量和網路訓練難度的同時,顯著提升了人群計數的精度和人群分布密度圖的還原度。該研究已被 CVPR 2018 接收。
論文地址:https://arxiv.org/pdf/1802.10062.pdf
阿里集團 AliOS 演算法團隊獲得 WSDM Cup 挑戰賽第二名的成績,這是中國企業首次在該賽事上取得的最高名次。賽題內容是預測 3 月訂閱到期的用戶中,哪些會流失。為解決該題,阿里巴巴使用了兩層 Stacking Model,第一層採用邏輯回歸、隨機森林、XGBoost 演算法,第二層又採用 XGBoost 演算法把第一層的結果融合。流失用戶預測,對有會員體系的業務場景都可以使用,其中會員付費為主要收入的業務就更為關鍵,比如像 Apple Music、蝦米音樂。多層 Stacking Model 由 AliOS 神燈研發,極大提升了分類預測的準確率,已廣泛應用於 AliOS 多項業務中。
論文原文地址:
https://wsdm-cup-2018.kkbox.events/pdf/7_A_Practical_Pipeline_with_Stacking_Models_for_KKBOXs_Churn_Prediction_Challenge.pdf
Google的新框架WaveNet利用梅爾聲譜作為WaveNet的輸入,這種聲譜是一種基於人類感知的中間媒介,它不僅記錄了不同的單詞如何發音,而且還記錄了預期的音量和語調。合成的語音在韻律,重讀,和語調上都非常出色,以至於我們真假難辨。發表論文:NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS
論文原址 https://arxiv.org/pdf/1712.05884.pdf
斯坦福SCIL實驗室(Stanford Computational Imaging Lab)在Nature上發表了一篇論文,Confocal Non-line-of-sight Imaging based on the Light-cone Transform。闡述了如何利用反射回來的光束3D建模還原出拐角盲區後的物體。他們研發這個「透視」技術的初衷,是想用在無人車上,提前預判出拐角的人,增加無人駕駛的安全性。
論文地址:https://www.nature.com/articles/doi:10.1038/nature25489
去年12月,谷歌大腦用機器學習發現了兩個系外行星,分別是開普勒80 g和開普勒90 i。這只是在分析了670個恆星的數據之後的收穫。而已有觀察數據的恆星有20萬個。谷歌大腦研究員Chris Shallue今天開源了發現新行星的AstroNet演算法。
AstroNet代碼:https://github.com/tensorflow/models/tree/master/research/astronet
論文全文:http://iopscience.iop.org/article/10.3847/1538-3881/aa9e09/pdf
一項迄今最大規模的關於新聞在社交媒體上傳播方式的研究,以海量數據揭示了假新聞的傳播路徑和傳播特徵——謠言比真相傳得更遠、更深、更快,而且每個人都是散播恐懼、厭惡的假新聞的放大器。研究由 MIT 媒體實驗室進行,發表在最新一期Science上。研究發現,與發表真實消息的推文相比,發表不實消息的推文被轉發的概率高70%。其中有關政治的錯誤消息比其他類別的消息傳播得更遠。MIT的數據科學家和社交媒體專家團隊分析了 2006 年至 2017 年的12年間,被300萬用戶轉發了 450 萬次的 12.6 萬篇報道後,得出這些令人反感的結論。「假消息比真相傳播得更遠、更快、更深和更廣泛,因為人類而不是bot更有可能轉發假消息」作者寫道。
論文地址:http://science.sciencemag.org/content/359/6380/1094
在《國家科學評論》(National Science Review, NSR) 2018 年 1 月份出版的機器學習專題期刊中,介紹了南京大學周志華教授發表的一篇論文《A brief introduction to weakly supervised learning》。監督學習技術通過學習大量訓練樣本來構建預測模型,其中每個訓練樣本都有一個標籤標明其真值輸出。儘管當前的技術已經取得了巨大的成功,但是值得注意的是,由於數據標註過程的高成本,很多任務很難獲得如全部真值標籤這樣的強監督信息。因此,能夠使用弱監督的機器學習技術是可取的。本文綜述了弱監督學習的一些研究進展,主要關注三種弱監督類型:不完全監督:只有一部分訓練數據具備標籤;不確切監督:訓練數據只具備粗粒度標籤;以及不準確監督:給出的標籤並不總是真值。
原文鏈接:https://doi.org/10.1093/nsr/nwx106
多任務學習是一個很有前景的機器學習領域,相關的理論和實驗研究成果以及應用也在不斷湧現。近日,香港科技大學計算機科學與工程系的楊強教授和張宇助理教授在《國家科學評論(National Science Review)》2018 年 1 月份發布的「機器學習」專題期刊中發表了題為《An overview of multi-task learning》的概述論文,對多任務學習的現狀進行了系統性的梳理和介紹。
論文鏈接:https://academic.oup.com/nsr/article/5/1/30/4101432
阿里巴巴語音交互智能團隊一篇語音領域的頂會 ICASSP 2018 的 oral 論文《Deep Feed-Forward Sequential Memory Network for Speech Synthesis》。提出了一種基於深度前饋序列記憶網路的語音合成系統。該系統在達到與基於雙向長短時記憶單元的語音合成系統一致的主觀聽感的同時,模型大小只有後者的四分之一,且合成速度是後者的四倍,非常適合於對內存佔用和計算效率非常敏感的端上產品環境。
論文地址:https://arxiv.org/pdf/1802.09194.pdf
賓夕法尼亞州立大學信息科學與技術學院和滴滴出行的研究人員在美國AI科研領域最大的行業會議——國際人工智慧協會大會 (Association for the Advancement of Artificial Intelligence) 上發表名為《網約車需求預測的深度多角度時空模型》的論文,使用了滴滴提供的技術和脫敏數據。常見技術僅使用一種類型的神經網路模型,而該研究團隊發現滴滴在綜合使用了基於兩種神經網路的複雜預測模型:卷積神經網路(Convolutional Neural Network)和長短期記憶網路(Long Short Term Memory network)時,能取得更加優異的效率提升和擁堵緩解的效果。當用戶需要用車時,首先通過APP下單,這些下單數據比僅僅依賴乘車歷史信息能更好地預測需求。大數據挖掘分析之後,用來預測一定時間內乘車需求的變化,從而觸發前瞻性的匹配和調度行為。根據對中國廣州、濟南和武漢等城市的觀察,預測準確率可達85%;這一技術對城市擁堵緩解有重要意義。
行業報告
美國國際戰略研究所發布報告《美國機器智能國家戰略報告》,提出了機器智能對國防、經濟、社會等方面的廣泛影響,以及美國在戰略制定方面的策略和建議。報告認為美國應採取兩個策略:第一個是通過對產品的研究與開發的長期的資金支持來促進機器智能技術的安全負責的發展,而這對於私有企業是沒有吸引力的。通過這種投資,可以為機器智能時代開發更多的勞動力,為機器智能技術創造動態的商業市場,進而吸引私有企業進行創新,同時還可以主動的管理機器智能可能帶來的風險和威脅。第二個目的是通過加強創新基地來鞏固美國的領先地位,通過利用我們盟友的競爭優勢來建立戰略夥伴關係,進而領導全球的機器智能治理的發展。
全文下載,公眾號回復:20180310
諮詢公司埃森哲本周在拉斯維加斯舉行的HIMSS18年度會議上發布的一份新報告顯示,到2021年,醫療保健人工智慧市場將達到66億美元,而這一數字在2014年還只有6億美元。埃森哲對3000多名消費者進行的調查顯示,五分之一的美國消費者表示,他們已經使用了「人工智慧驅動的醫療服務」,包括機器人、「虛擬醫生」和「居家診斷」。
全文下載,公眾號回復:20180310
由斯坦福大學人工智慧百年研究(AI100)推出的「人工智慧指數」(AI Index)是一個追蹤 人工智慧行業動態與發展的非營利性項目,其研究覆蓋了百年以來人工智慧的總體情況, 目標是基於數據來推動人工智慧的廣泛交流和有效對話。2017 年,AI Index 推出了首份年度報告,從多個角度觀察和解讀了人工智慧領域的動態和進展。 經「人工智慧指數」項目委員會授權,今日頭條聯合機器之心對此報告做了中文翻譯(譯文錯誤由翻譯方負責),官方中文版報告近期正式發布。
全文下載,公眾號回復:20180310
Kears作者Fran?ois Chollet剛剛在Twitter貼出最近三個月在arXiv提到的深度學習框架,TensorFlow不出意外排名第一,Keras排名第二。隨後是Caffe、PyTorch和Theano,再次是MXNet、Chainer和CNTK。Chollet在推文中補充,Keras的使用在產業界和整個數據科學圈中最佔主流,產業既包括大公司也包括創業公司。不過,在研究社區,Keras的份額要小很多。
李飛飛撰文談及了她對人工智慧未來發展的思考,並提出了「以人為中心的人工智慧」的方法論,她希望這一方法論能夠對機器智能的發展起到一到的指導作用。包括三個目標:人工智慧更多地表現出我們人類自身特徵的深度,還要考慮到人類視覺感知的豐富程度;讓人類在AI的幫助下得到提升,而不是讓AI取代人類;確保AI的每一個發展階段都能得到正確的引導,同時關注它對人類的影響。來自清華大學的唐傑副教授所帶領的團隊發布了 Aminer 學術圖譜資料庫的第二份報告《AI 之機器人學研究報告》,該報告從另外一個角度——學術視角,基於他們的 AMiner 學術圖譜資料庫,對全球範圍內機器人學的發展和趨勢做了詳盡的分析。
報告摘要下載,公眾號回復:20180310
數據集
人類對圖像相似性的知覺判斷依賴於豐富的內部表徵,現有的計算機視覺技術應用的信號類型可能過於狹隘。新型圖像配對數據集 TTL收集了很多人類在視覺上認為很相似的圖像,而深度學習模型無法通過特徵提取重構出相似的配對。該結果為未來的圖像表徵研究指出了新的方向。
數據集地址:https://sites.google.com/view/totally-looks-like-dataset
信息來源:雷鋒網、億歐網、新智元、機器之心、量子位
微信群&商業合作:
- 加入微信群:不定期分享資料,拓展行業人脈請在公眾號留言:「微信號+名字+研究領域/專業/學校/公司」,我們將很快與您聯繫。
- 投稿(無稿費)請發郵件至:158354995@qq.com
- 商業合作請註明事宜哦
http://weixin.qq.com/r/AC91bd-EloLprZsO93oS (二維碼自動識別)
推薦閱讀:
※第四範式戴文淵:商業公司構建AI能力的五大核心要素
※阿爾法狗再進化,人工智慧能否取代人類?
※人工智慧法律服務的前景與挑戰有哪些?
※關於人工智慧+自動化的後果
※從智能到智慧,AI手機未來會怎樣?