零基礎,對大數據分析和數據挖掘有興趣,請問學習哪些課程作為切入口比較好呢?


寫給魚的回答~

拋開毅力熱情堅持這些個人因素,我覺得要分是怎樣的零基礎,是否有統計基礎,是否有計算機語言基礎,是否有實踐經驗…既然是零基礎,就當回答都是否吧。

1,初期,概率與數理統計(理解),計算機數據結構(理解),同時多看行業資訊和乾貨(微博,微信,論壇,行業大牛)

數據分析和數據挖掘的範圍是很廣的。所以初期打下統計學和計算機基礎,在了解統計學是研究什麼,互聯網信息又是怎麼傳遞和搭建的,同時多看乾貨和信息,這樣關於數據分析和數據挖掘到底是在幹什麼,為什麼會存在,能解決什麼問題,都有哪些方法等,會有個大致的了解。同時就明白了背後需要怎樣的知識和功底。

不要擔心看不懂,要的就是看不懂。看不懂就百度或者Google,不求甚解,但是要明白數據分析數據挖掘有些什麼領域,專業的人都在做什麼事,不要求弄明白演算法工具方法,但是要有清晰的思路明白是什麼。

2,中期,在初期確定自己到底喜歡/需要/想要學習的是數據分析,還是數據挖掘?是依託經濟和統計方法的分析,還是倚重編程和軟體的挖掘?全才有,要時間,我覺得這兩個領域了解起來不分先後,不過先學習統計方法再去看工具編程會好點,因為理解自己在做什麼(也不排除我就是這樣的路線,不過我是大學專業同時學了統計和簡單計算機基礎)

偏重統計方法的,去學統計學的專業課,這個可以去重點大學找課表和教材,不需要能閉卷考試寫推到過程的程度,但是要有開卷考試明白怎麼翻書的水平。明白原理,了解運用。同時可以學習spss,spss超級簡單,然後花點功夫學r,因為r在目前的社會應用中還是蠻廣泛和重要的。

書本知識求理解和懂原理,軟體可以選其他但是要求掌握。

重點是要會實踐,比如時間序列,例如聚類,因子,回歸等。這些都是常用的,而且因為行業不同有不同的地位和重要性。實踐可能沒有太多的乾貨。因為數據是企業的機密,不會有人大喇喇的把自己的數據是怎樣,分析過程是怎樣擺給你看的。所以這裡的實踐需要自己結合自己的資源。

另外,我個人覺得,應用在市場,客戶,產品比較多。數據更多的是行為數據。在分析的過程,實際就是建模的過程。具體怎麼轉換,怎麼處理,怎麼分析,要結合實際業務情況。

偏重數據挖掘的,需要一定的計算機基礎。正好我自己也在轉型,所以說點我的想法。

數據挖掘,我覺得簡單來說,就是互聯網上挖數據。另外,我覺得這是重技術知識,往技術方面說,大數據相關的數據工作有數據挖掘,信息採集,信息處理,信息報告,信息可視化。互聯網每年要產生的信息和數據是非常龐大的,挖掘是非常形象的說法,就像以前的一款曠工淘金遊戲一樣。只不過數據挖掘,是利用互聯網信息的結構和特點,編寫能夠識別並收集指定信息的代碼,運行並採集數據。【這裡存疑,因為這是目前我知道的,但不代表全部】

我剛接觸挖掘,就是簡單的文本爬蟲。基本原理是,網頁是html文件在互聯網上執行,其內容,文字信息,在代碼中是在特定的語句中的,大家可以在網頁點右鍵,有個查看編碼可以看到。文本爬蟲就是對訪問到的網頁編碼做指定部分的文本採集。

還有就是信息處理。收集到信息,就如同大小不一的石頭,要有一定的規則和標準,你才能使石頭變得有用。比如,關鍵詞,分析目標,文章分類等。採集到的數據只是基本的材料,但是要對它們做處理才能得到有用的信息,而處理動作的依據,步驟,手段,是計算機領域的內容。例如,我通過文本爬蟲從網路收集到了大量的,無序的文檔或者文本信息。我現在要找出和指定行業,產品相關的內容,我就要用到相應的程序演算法。

說多了,偏重數據挖掘的,我的方法是找乾貨,不懂得關鍵詞一個一個去百度,去學。因為這是偏重應用和手段的,好比做菜,先學會炒還是先學會燉,是無所謂的。鑒於這部分是計算機知識,而大部分人並不是計算機專業,所以在自己領域哪種語言或者方法用的多,就優先學。當然,計算機知識的基礎還是必備的。

還是跑題了,不好意思,課程的話,建議計算機的(實際所需的某種)語言編程,然後自己玩兒。重實踐,輕課本。

3,高級。高級了真不用我說,能做到上一步,自己心裡肯定知道以後的發展。

【有部分地方不詳盡,待補充】

【在我沒有概念之前,我一般不喜歡接觸別人的想法,所以僅是一家之言,還請大家多多指教】

【然而魚並不知道我回答給她了 】


Big Data是近來的一個技術熱點,但從名字就能判斷出來它並不是什麼新詞。畢竟,大匙一個相對概念。歷史上,資料庫、數據倉庫、數據集市等信息管理領域的技術,很大程度上也是為了解決大規模數據的問題。被譽為數據之父的Bill Inmon早在20世紀90年代就經常將Big Data掛在嘴邊了。要處理如此龐大的數據,它的基本流程如下圖。

數據抽取與集成

● 大數據的一個重要特點就是多樣性,這就意味著數據來源極其廣泛,數據類型極為繁雜。這種複雜的數據環境給大數據的處理帶來極大的挑戰。

● 要想處理大數據,首先必須對所需數據源的數據進行抽取和集成,從中提取出關係和實體,經過關聯和聚合之後採用統一定義的結構來存儲這些數據。

● 在數據集成和提取時需要對數據進行清洗,保證數據質量及可信性。

● 現有的數據抽取與集成方式可以大致分為以下四種類型:數據整合、數據聯邦、數據傳播和混合方法等。

數據分析

● 傳統的分析技術如數據挖掘、機器學習、統計分析等在大數據時代需要做出調整,因為這些技術在大數據時代面臨著一些新的挑戰:

1、數據量大並不一定意味著數據價值的增加,相反這往往意味著數據噪音的增多

2、大數據時代的演算法需要進行調整(邦弗朗尼原理)

3、數據量大並不一定意味著數據價值的增加,相反這往往意味著數據噪音的增多

數據解釋

● 數據分析是大數據處理的核心,但是用戶往往更關心結果的展示。如果分析的結果正確但是沒有採用適當的解釋方法,則所得到的結果很可能讓用戶難以理解,極端情況下甚至會誤導用戶。

● 大數據時代的數據分析結果往往也是海量的,同時結果之間的關聯關係極其複雜,採用傳統的解釋方法基本不可行

● 可以考慮從下面兩個方面提升數據解釋能力:

-- 引入可視化技術

-- 讓用戶能夠在一定程度上了解和參與具體的分析過程

然而,Big Data作為一個專有名詞成為熱點,主要應歸功於近年來互聯網、雲計算、移動和物聯網的迅猛發展。無所不在的移動設備、RFID、無限感測器每分每秒都在產生數據,數以億計用戶的互聯網服務時時刻刻在產生巨量的交互……要處理的數據量實在是太長、增長太快了,而業務需求和競爭壓力對數據處理的實時性、有效性又提出了更高要求,傳統的常規技術手段根本無法應付。在這種情況下,技術人員紛紛研發和採用了一批新技術。

01

存儲

存儲分散式緩存、基於MPP的分散式資料庫、分散式文件系統、各種NoSQL分散式存儲方案,內存資料庫等

02

計算

Map Reduce、流計算、圖計算……

03

應用

HIVE,pig,mahout,Sqoop以及ETL工具,統計與報告工具等

下面以Google為例,我們來看看它的技術演進

Google 於2006 年首先提出了雲計算的概念,並研發了一系列雲計算技術和工具。難能可貴的是Google 並未將這些技術完全封閉,而是以論文的形式逐步公開。

正是這些公開的論文,使得以GFS、MapReduce、Bigtable為代表的一系列大數據處理技術被廣泛了解並得到應用,同時還催生出以Hadoop為代表的一系列雲計算開源工具。這些工具有些是完整的處理平台,有些則是專門針對特定的大數據處理應用。

現金一些主流的處理平台和工具

就實踐方面來說,Hadoop 已經發展成為目前最為流行的大數據處理平台

Hadoop是一個分散式系統基礎架構,由Apache基金會開發。

Hadoop是一個開源的可運行於大規模集群上的分散式並行編程框架,藉助於Hadoop,程序員可以輕鬆地編寫分散式並行程序,將其運行於計算機集群上,完成海量數據的計算。

Hadoop採用了分散式存儲方式,提高了讀寫速度,並擴大了存儲容量。採用MapReduce來整合分散式文件系統上的數據,可保證分析和處理數據的高效。與此同時,Hadoop還採用存儲冗餘數據的方式保證了數據的安全性。

Hadoop作用

Hadoop中HDFS的高容錯特性,以及它是基於Java 語言開發的,這使得Hadoop可以部署在低廉的計算機集群中,同時不限於某個操作系統。Hadoop中HDFS的數據管理能力,MapReduce處理任務時的高效率,以及它的開源特性,使其在同類的分散式系統中大放異彩,並在眾多行業和科研領域中被廣泛採用。

Hadoop功能

Hadoop優點

●可擴展:不論是存儲的可擴展還是計算的可擴展都是Hadoop的設計根本。

●經濟:框架可以運行在任何普通的PC上。

●可靠:分散式文件系統的備份恢復機制以及MapReduce的任務監控保證了分散式處理的可靠性。(元數據磁碟錯誤,心跳測試,副本數)

●高效:分散式文件系統的高效數據交互實現以及MapReduce結合Local Data處理的模式,為高效處理海量的信息作了基礎準備。

Hadoop生態系統圖

歡迎關注大聖圈公眾號:apesedu


推薦閱讀:

為什麼說只預測結果不分析原因的是大數據技術,和人工智慧沒關係?
我想學大數據分析,但是0基礎,求前輩老師指點?
數據分析師可以創造什麼價值?
城市發展帶來的大數據?大數據對城市發展的預測作用?

TAG:數據挖掘 | 數據分析 | 大數據 | 大數據分析 |