[數據分析與可視化 25] R會議筆記:原理篇

關於機器學習, 你今天忽視它,它明天掠過你。

我的筆記分3份:原理、工具、行業,其中僅記錄了對我比較新鮮、有觸動的隻言片語,會議議程豐富,定是遺珠遍地,建議有興趣者等組織方材料發布後去回顧。

1、統計與機器學習 - 張志華

統計以矩陣為計算工具,機器學習以優化為計算工具。

如果你翻過這兩門課,相信你會理解。

2、機器學習的方向 - 張志華

  • 多層:以神經網路為代表,
  • 自適應:AdaBoost
  • 平均:aa,stacking

3、神經網路的層級 - 張志華

神經網路的首先是表示,之所以:圖形處理常採用卷積神經網路,自然語言識別常採用遞歸神經網路,主要出於表示的考慮。

4、機器學習的優勢 - 李艦

發現人類思維的盲區、想不到的特殊鏈路,如Alpha Go下圍棋時的開局方式。

5、建模是否聽專家 - 李艦

專家可以參與幫忙確定y,確定x,這些可以聽。

他們更願意講出、糾正機器計算的f(x),但此處堅決不能聽,否則機器學習則失去意義。

這個道理類似《機器學習基石》林軒田老師講的:不能偷看數據,偷看數據建模相當於人腦外包了部分神經網路任務,降低了error in,但卻不能體現在未來的error out。

6、機器學習與人工分析的關係 - 陳為

立場決定觀點!

陳為(浙江大學可視化實驗室教授)主張人機交互分析,單從觀點來說也沒有錯。

  • 人工分析:適用於應急、複雜,如情報等。

  • 機器分析:適用於雷同場景(目前按的確多數機器學習演算法不能擺脫獨立同分布假設)

這讓我想到plantiar的介紹:What We Believe

In these contexts, the algorithmic approach fails.

So we do something else. Our data platforms are designed to surface the totality of known data about a problem in a way that』s easily digestible by the best pattern matching and inference machinery ever devised: the human brain.

Our software is designed to augment human intelligence through a symbiosis of mind and machine. You can think of our systems as an array of exponential levers to move data, levers operated by human mental might and insight. Any conclusions reached are done so by a person, not an algorithm.

To the extent that we do use data mining techniques, they are used to narrow a very large universe of data to smaller sets of interesting data to be reviewed by human analysts.

7、可視化 - 陳為

浙江大學、淘寶團隊有一些積累,可參見如下網站。

  • Nasa的可視化提供了宏觀視角,好萊塢大片中的可視化屏都花過功夫。
  • 地圖:指標分布80%可被胡煥南線(人口分布)解釋,如淘寶各省區縣訂單額分布。
  • 首頁 - DataVlab.org

  • 浙江大學可視分析小組博客,vag - 浙江大學可視分析小組博客

封面鏈接:張洲專輯_萬能青年旅店


推薦閱讀:

有沒有哪款軟體可以將數據變成表格或者曲線?
轉行數據分析,找不到工作怎麼辦?

TAG:R | 机器学习 | 数据分析 |