怎麼學python 數據分析 人工智慧

怎麼學python 數據分析 人工智慧

1 概述

數據類有多火就不多說了,數據和數據分析在生活中的實用性和重要性都是不言而喻。正是由於此類的原因,利用業餘時間自學了一段時間的數據分析。

剛開始的時候,面對多如牛毛一樣信息,感覺像是狗咬刺蝟,無處下口。經過大約幾個月的摸索,大概有了一定的了解。想著記錄自己的學習歷程能夠幫助自己學習,或許也能夠給相同境遇的人提供幫助,共同學習進步。於是乎,回過頭來整理下自己的學習,借用狼人殺的話說就是將自己的心路歷程記錄與此,以茲共同進步。入門不久,道行尚淺,如有錯誤,不吝賜教。

2 數據分析知識學習路線

數據分析是什麼呢?百度如是說:

數據分析是指用適當利用統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。

概括成一句話就是分析數據,得到結果。所以需要學習的東西為分析數據的方法。

2.1 知識構成

這裡記錄的是利用 Python 進行數據分析的情況,基於目前的認知 (後續可能修改),大體上需要的知識構成為:

數學知識

Python 基礎知識

Python 數據分析包使用

進階部分,需要掌握的知識有:

爬蟲

機器學習和深度學習

大數據

2.2 數學知識

由於本人為理工男,這一部分略過了。目前來看,需要的知識主要為 《概率論與數理統計》。

2.3 Python 基礎知識

由於只需要掌握計算部分的知識,Python 的基礎知識需要了解以下內容:

基本語法

數據類型和變數

條件語句和循環語句

函數和模塊的概念

這裡推薦兩個教程:

1.Python編程 從入門到實踐 :

本書是一本針對所有層次的Python讀者而作的Python入門書。

全書分兩部分:首部分介紹用Python 編程所必須了解的基本概念,包括matplotlib、NumPy和Pygal等強大的Python庫和工具介紹,以及列表、字典、if語句、類、文件與異常、代碼測試等內容;

第二部分將理論付諸實踐,講解如何開發三個項目,包括簡單的Python 2D遊戲開發,如何利用數據生成互動式的信息圖,以及創建和定製簡單的Web應用,並幫讀者解決常見編程問題和困惑。

本書是一本全面的從入門到實踐的Python編程教程,帶領讀者快速掌握編程基礎知識、編寫出能解決實際問題的代碼並開發複雜項目。

2.Python核心編程(第3版)

《Python核心編程(第3版)》是經典暢銷圖書《Python核心編程(第二版)》的全新升級版本,總共分為3部分。

第1部分為講解了Python的一些通用應用,包括正則表達式、網路編程、Internet客戶端編程、多線程編程、GUI編程、資料庫編程、Microsoft Office編程、擴展Python等內容。

第2部分講解了與Web開發相關的主題,包括Web客戶端和伺服器、CGI和WSGI相關的Web編程、Django Web框架、雲計算、高級Web服務。

第3部分則為一個補充/實驗章節,包括文本處理以及一些其他內容。

《Python核心編程(第3版)》適合具有一定經驗的Python開發人員閱讀。

2.4 Python 數據分析包

主要掌握 Python 相關數據分析包的使用,包括 Numpy/pandas/matplotlib 等。這也是需要重點掌握的內容。參考的書為《利用 Python 進行數據分析》。當時看完該書感覺學到了很多,然後過幾天就忘記了。所以這部分的學習內容主要是練習各個包的使用,特別是 Pandas 包。另外,看書不練手往往使會使得自己很疑惑,不知道數據分析具體的工作內容到底是什麼。為此,我爬取了一些數據,練習了幾個數據分析。

利用Python進行數據分析 [Python for Data Analysis]

《利用Python進行數據分析》講的是利用Python進行數據控制、處理、整理、分析等方面的具體細節和基本要點。同時,它也是利用Python進行科學計算的實用指南(專門針對數據密集型應用)。

《利用Python進行數據分析》重點介紹了用於高效解決各種數據分析問題的Python語言和庫。《利用Python進行數據分析》沒有闡述如何利用Python實現具體的分析方法。

2.5 進階知識

大部分時間都花在學習這方面的內容,根據各人的基礎不一樣,感覺這部分學習可以稍後,可以主要學習前面的內容。大概記錄下自己的學習過程。

2.5.1 網頁爬蟲

爬蟲的話主要參考崔慶才的:

Python 3網路爬蟲開發實戰

案例豐富,注重實戰

博客文章過百萬的靜覓大神力作

全面介紹了數據採集、數據存儲、動態網站爬取、App爬取、驗證碼破解、模擬登錄、代理使用、爬蟲框架、分散式爬取等知識

涉及的庫或工具:urllib、requests、Beautiful Soup、XPath、pyquery、redis-py、PyMongo、PyMySQL、Selenium、Splash、Charles、mitmproxy、mitmdump、Appium、pyspider、Scrapy、Scrapy-Redis、Scrapy-Splash、Docker、Bloom Filter、Gerapy等

本書適合Python程序員閱讀

看完上述部分內容後,爬取了幾個網站的內容練手,也是後續文章中用於練手的數據來源。

2.5.2 機器學習和深度學習

斷續看了三本書,推導了機器學習的常用演算法。三本書為:

《機器學習》, 周志華

《統計學習方法》, 李航

Pattern Recognition and Machine Learning (PRML), Christopher M. Bishop.

主要參考的是兩本中文書,第三本書看了部分內容,推導了常用的演算法 (預想之後以簡潔的不帶公式的方式介紹這部分內容)。個人覺得不是做相關方面的研究者,只需要大體上掌握各類演算法原理以及如何利用機器學習包。後續文章會有利用機器學習包實現數據分析的內容。

關於深度學習的話,目前還沒有系統的學習,零碎的了解了一下。深度學習就是各種神經網路如何解算的問題。經過簡單學習,認為最適合新手的深度學習包為Keras。(待續)

3 小.結

這裡總結了大概上的學習歷程,在後續的文章中將具體記錄自己練手的例子。建議學習程度到了 《利用 Python 進行數據分析》 這一步,再去涉及相關實例。剩下還有一些好書推薦

Python數據分析與挖掘實戰

10餘位數據挖掘領域資深專家和科研人員,10餘年大數據挖掘諮詢與實施經驗結晶。

從數據挖掘的應用出發,以電力、航空、醫療、互聯網、生產製造以及公共服務等行業真實案例為主線,深入淺出介紹Python數據挖掘建模過程,實踐性極強。

本書共15章,分兩個部分:基礎篇、實戰篇。

基礎篇介紹了數據挖掘的基本原理,實戰篇介紹了一個個真實案例,通過對案例深入淺出的剖析,使讀者在不知不覺中通過案例實踐獲得數據挖掘項目經驗,同時快速領悟看似難懂的數據挖掘理論。

機器學習_周志華

機器學習是計算機科學與人工智慧的重要分支領域. 本書作為該領域的入門教材,在內容上儘可能涵蓋機器學習基礎知識的各方面.

全書共16 章,大致分為3 個部分:第1 部分(第1~3 章)介紹機器學習的基礎知識;

第2 部分(第4~10 章)討論一些經典而常用的機器學習方法(決策樹、神經網路、支持向量機、貝葉斯分類器、集成學習、聚類、降維與度量學習);

第3 部分(第11~16 章)為進階知識,內容涉及特徵選擇與稀疏學習、計算學習理論、半監督學習、概率圖模型、規則學習以及強化學習等.

每章都附有習題並介紹了相關閱讀材料,以便有興趣的讀者進一步鑽研探索。

本書可作為高等院校計算機、自動化及相關專業的本科生或研究生教材,也可供對機器學習感興趣的研究人員和工程技術人員閱讀參考。

統計學習方法-李航

統計學習是計算機及其應用領域的一門重要的學科。

《統計學習方法》全面系統地介紹了統計學習的主要方法,特別是監督學習方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦回歸與支持向量機、提升方法、em演算法、隱馬爾可夫模型和條件隨機場等。

除第1章概論和最後一章總結外,每章介紹一種方法。

敘述從具體問題或實例入手,由淺入深,闡明思路,給出必要的數學推導,便於讀者掌握統計學習方法的實質,學會運用。為滿足讀者進一步學習的需要,書中還介紹了一些相關研究,給出了少量習題,列出了主要參考文獻。

《統計學習方法》是統計學習及相關課程的教學參考書,適用於高等院校文本數據挖掘、信息檢索及自然語言處理等專業的大學生、研究生,也可供從事計算機應用相關專業的研發人員參考。

Tensorflow 實戰Google深度學習框架

TensorFlow是谷歌2015年開源的主流深度學習框架 目前已在谷歌、優步-Uber、京東、小米等科技公司廣泛應用。

Tensorflow:實戰Google深度學習框架為使用TensorFlow深度學習框架的入門參考書

旨在幫助讀者以最快、最有效的方式上手TensorFlow和深度學習。

書中省略了深度學習繁瑣的數學模型推導 從實際應用問題出發 通過具體的TensorFlow樣常式序介紹如何使用深度學習解決這些問題。

Tensorflow:實戰Google深度學習框架包含了深度學習的入門知識和大量實踐經驗

機器學習實戰 [Machine learning in action]

《機器學習實戰》主要介紹機器學習基礎,以及如何利用演算法進行分類,並逐步介紹了多種經典的監督學習演算法,

如k近鄰演算法、樸素貝葉斯演算法、Logistic回歸演算法、支持向量機、AdaBoost集成方法、基於樹的回歸演算法和分類回歸樹(CART)演算法等。

第三部分則重點介紹無監督學習及其一些主要演算法:k均值聚類演算法、Apriori演算法、FP-Growth演算法。第四部分介紹了機器學習演算法的一些附屬工具。

《機器學習實戰》通過精心編排的實例,切入日常工作任務,摒棄學術化語言,利用高效的可復用Python代碼來闡釋如何處理統計數據,進行數據分析及可視化。

通過各種實例,讀者可從中學會機器學習的核心演算法,並能將其運用於一些策略性任務中,如分類、預測、推薦。另外,還可用它們來實現一些更高級的功能,如匯總和簡化等。

百度雲鏈接:鏈接:pan.baidu.com/s/1JrToJ_ 密碼:dmin

現在還送PYTHON從入門到精通全套視頻資料詳情見:

blog.csdn.net/SHQWER/ar

1.Python編程 從入門到實踐

2.Python核心編程(第3版)

3.Python 3網路爬蟲開發實戰

4.利用Python進行數據分析 [Python for Data Analysis]

5.Python數據分析與挖掘實戰

6機器學習_周志華

7統計學習方法-李航

8Tensorflow 實戰Google深度學習框架

9.機器學習實戰 [Machine learning in action]

原學有所成


推薦閱讀:

實戰演練 | 支持向量機預測與調參——前列腺癌腫瘤惡性程度
根據Leafspy來分析電池信息
數據可視化總結
一文讀懂ML中的解析解與數值解
留住客戶,挖掘商機 ——解析證券公司N種大數據分析業務場景

TAG:數據分析 | Python | 數據挖掘 |