如何評價深度學習文章平台Distill?

Research Debt

Distill -- colah"s blog

I"ve decided to move on to Distill

以下是我想到的一些有趣的接入點:

Research Debt是否存在/需要重視?

Research Distiller能否有效降低Research Debt?

Research Distiller是否需要一個Economy?

其他領域有沒有『其他領域的Distill』?

Colah說,

For one thing, it』s created very high
standards for my writing. Most of my articles took 50-200 hours to
write. I feel like I needed to live up to that quality with every post,
but that means I can』t put out thoughts without investing a huge amount
of energy.

我個人一篇認真寫的文章,回答,大體6~12小時,然而身邊的很多人都用24小時上下,Colah更是50-200小時。一篇文章投入更多精力好,還是多寫好?

高質量的文章是否會提高後續文章標準?如果是,需不需要/如何解決?


我非常喜歡這個想法。我談一下自己的看法。

1. 機器學習和相關領域的文章實在太多,頂級會議、期刊上的文章質量參差不齊,好壞難辨,學習難度大。現在機器學習入門簡單,但是要做到research-level的「入門」是非常困難的。我的切身感受就是想換個研究方向真心不容易。

Research Debt
Achieving a research-level understanding of most topics is like climbing a mountain.

即使是Foundations and Trends in Machine Learning上面發表的文章,閱讀難度依然很大。如果以後introduction性質的文章都容易閱讀,有demo有代碼,入門難度會低很多。

2. 機器學習文章大多不能重現,尤其是現在深度學習領域!前段時間Goodfellow給talk的時候說了這個問題,還噴了一種不好的現象:很多人把不成熟的文章放在arXiv上搶佔想法,不提供代碼,而且這些文章很少有能重現的。這樣的文章屬於浪費讀者時間。

3. 機器學習領域文章可讀性差,這是我的切身體會。領域內的人普遍追求文章數量,匆匆把結果發出去,對寫作並不精雕細琢,這與其他學科很不一樣。更過分的是,很簡單的東西,非要用複雜的數學把讀者搞迷糊,完全不考慮讀者感受(然而Distill的編委會裡就有這種人,真是諷刺……)。做理論物理的霍金寫書要盡量少用公式;相比之下,做機器學習的卻喜歡多用公式,毫無目的地塞公式,尤其喜歡湊出一些不能說明任何問題的理論bound。很多機器學習學者的本事就是把簡單的東西用複雜的方式表述。

如果能把優秀的文章用通俗易懂的語言、公式、演算法、代碼總結出來,對社會的貢獻遠大於follow這些文章發incremental的新文章。

4. PDF文件適用於列印,但並非在線閱讀的首選。PDF不支持動態圖、視頻這樣的demo。聽報告的時候,一些漂亮的demo很容易就解釋清楚文章原理和貢獻,而讀pdf文檔就困難很多。現在用Markdown、Jupyter這些工具寫文章,幾乎與latex一樣方便。

我們生活在「多媒體」時代已經多年,然而學術期刊依然拘泥於文字和靜態圖的格式。Distill只是個發技術博客的平台。真心希望以後CS的學術期刊也能用這樣的方式發表。


先上張圖:

我個人真不認為國內有什麼人能夠對這個有什麼評價。作為一個半路出家做識別的人我只能說說我的想法。

第一,colah這個博客十分優秀。國內這些搞DL的,如果沒有接觸過這個博客,那八成就是笑話了。這個博客我也沒有看全,但是作為半路出家的人,這個博客的一些內容給了我很大幫助。

第二,他自己說的,感覺自己的工作太微小了,完全沒有安全感。新東西解釋的非常好,但這也就是個科普的級別,但是自己的本職工作應該是做研究的。換句話說,這個博客裡面的東西,放在學界里,上不來檯面。

第三,人家自然也想繼續弄這塊,但是學界不怎麼認可。這個是比較嚴重的問題,沒有收益的義務勞動,很難持續,而且也說了200小時一篇文章,太耗費精力。於是,只能自己開闢這個新方向,research distiller。這個我自己的理解是:

  1. 服務學界這塊研究者之間的交流。大家發那麼多論文,公式圖表一堆堆,各玩各的,distiller這邊寫個比較科普、方便理解的版本。這樣大家自然溝通的多了,啟發也就多了。
  2. 做純研究到研發工程師的橋樑。這樣研究成果工程化的周期就加快了。

第四,Distill這個平台就是為了服務這樣的目的。

  1. 提供了一個嚴肅的平台,可以給作者一種認可,畢竟這種文章學界不怎麼認可,工業界看完了有啟發又分不到錢和名譽。發這個平台,起碼就有了這些學界人物的認可。
  2. 有經濟上的支持,促進這塊的發展。
  3. 把大家湊一起,提供一個易用的平台,效率高,也能一起取暖,促進這塊的發展。

所以我想,這個東西自然意義很大,總比國內一些搭搭環境、輸個命令跑個數據集的科普要好很多,介紹的都是背後的運行原理而且更加通俗。當然,最後成不成,天知道。

Research Debt是否存在/需要重視?
Research Distiller能否有效降低Research Debt?
Research Distiller是否需要一個Economy?
其他領域有沒有『其他領域的Distill』?

這些我沒資格答,我只知道,構建一個良性的生態系統,支持這一方向的工作起碼對於工程師意義重大。

  1. 入門、轉型,我看這個領域的distiller的文章,質量有保證。
  2. 通俗易懂,深入淺出。比那些動不動在科普領域堆名詞、堆公式的有意義的多。畢竟,看colah上的文章就知道,介紹的不是概念、不是公式,而是原理與理解。

For one thing, it』s created very high standards for my writing. Most of my articles took 50-200 hours to write. I feel like I needed to live up to that quality with every post, but that means I can』t put out thoughts without investing a huge amount of energy.

這裡作者的意思很明顯了,我博客文章是義務勞動,但是背後的價格很高的。畢竟我也是要吃飯的人,天天義務勞動,工資你們發?

我這裡的科普指的是針對專業人士的科普。

是不是應該謝謝邀請, @霧雨魔理沙 ,不好意思了。


我就等著一群國內微信公眾號靠著每天抄襲/翻譯這裡的文章騙錢吃飯了。

畢竟知識無國界,英語要花錢啊


個人感覺能留下來的除了經典的論文,也就是如 distill 這樣來解釋經典工作的教程了。

而且 distill 也是開放的,可以接不同的語言(js、julia、python)和庫來動態展示演算法或者模型的運作機制。

值得大家學習,並希望能看到更多的 distill 的文章。


推薦閱讀:

你所在或了解的領域有哪些技術上不是很複雜,但創意非常好,很有原創性的研究?
大陸和台灣目前的科研實力對比,哪個更強?
你所處的科研環境中,有沒有科研女神或男神?

TAG:科技博客 | 科研 | 學術 | 機器學習 | 深度學習DeepLearning |