1.5 本章小結

1.5 本章小結

來自專欄 Python數據分析與數據化運營

說明:本篇是《Python數據分析與數據化運營》第一章的小結內容。

-----------------------------下面是正文內容--------------------------

內容小結:本章分別從Python和數據化運營的關係,數據化運營所需要的Python相關工具組件入手,介紹了有關Python和數據化運營的理念、關係、流程和工具,並通過一個小案例演示了如何通過Python進行銷售預測。

重點知識:有關Python的相關工具部分,這些內容是本書後續所有工作的基礎,希望讀者能在本機上進行安裝、測試和學習。

外部參考:限於篇幅,本章沒有對Python和相關工具的基礎知識進行講解,只是對涉及了案例中的部分內容。因此,很多知識需要讀者書外「補習」,除了Python基礎知識和科學計算以外,還有資料庫、Tesseract、TensorFlow等工具,他們將構成數據基礎工作和數據延伸工作的基石。作為本章內容的延展,筆者列出了相關資源,希望給與讀者必要參考。

Python參考資源

以下列出了主要的官方參考資源和信息:

  • Python官方網站:python.org/。Python最權威的網站,有關Python的幫助手冊、新聞、事件、應用、案例、社區等,並提供官方Python所有版本和環境的安裝程序和安裝包。
  • Python pypi第三方庫:pypi.python.org/pypi。Python使用pip命令安裝時,請求的資源就來源於該網站,這裡匯聚了第三方Python程序的軟體倉庫,截止目前有101866個軟體包。你可以在這裡直接查看、下載和評論第三方庫。
  • Stack Overflow:stackoverflow.com/。Stack Overflow是一個與程序相關的IT技術問答網站,用戶可以在網站上免費提交、瀏覽和檢索問題。大多數情況下,你的問題都不是第一次出現,所以有問題了不妨先在這裡找找答案。
  • Python內部幫助文檔和信息:在IPython命令行窗口使用help()和dir()命令。例如:通過dir(numpy.mean)查找numpy庫下面的mean函數的大部分屬性,通過help(numpy.mean)獲得該函數的具體介紹、參數解釋、應用舉例等詳細信息。這是針對特定知識點最為主要的學習參考資源。

Python學習書籍

大多數情況下,通過上述方法可以了解到Python基本知識,但以下圖書資源會幫助你更加深入的了解Python及其相關庫的工作方式和邏輯,尤其是對於數據挖掘、機器學習等領域的認知:

  • 《利用Python進行數據分析 [Python for Data Analysis]》,Python用於數據分析的專業數據,介紹了Python用來數據分析的幾個主要科學計算和展示庫Nunpy、Pandas、Matplotlib等,書中對這些庫的講解略粗,但全書的邏輯體系完整,適合數據分析和挖掘工作者作為入門閱讀。
  • 《Python數據分析與挖掘實戰》,從數據工作流的方式展開介紹的Python數據應用,書籍的邏輯結構較為完整,後面也有部分案例的介紹,適合對Python有一定了解的數據工作者閱讀。
  • 《機器學習實戰 [Machine learning in action]》,這是使用Python進行機器學習的專業書籍,需要讀者具有相當的演算法、程序和模型專業知識,適合中高級數據挖掘和建模工程師閱讀。
  • 《集體智慧編程》,這是使用Python進行機器學習的專業書籍,與傳統機器學習書籍不同的是,本書沒有按照演算法分類進行分別闡述,更是從應用的角度分場景介紹,本書需要讀者了解工程、演算法和模型知識,適合中高級數據挖掘、建模工程師、程序員閱讀。
  • 《Python基礎教程(第2版 修訂版)》這是一本純Python編程語言的介紹書籍,其中主要圍繞每個方法、條件、函數、對象、屬性等進行介紹,適合程序員以及想深入了解python工作原理和邏輯的讀者查閱。

MySQL相關

數據分析師或挖掘工程師對資料庫的應用語言主要集中在DDL(本機操作)和DML(本機和伺服器操作)上,而DCL和TCL涉及相對較少。因此建議讀者重點了解前兩種語言的相關知識。

  • MySQL官方資源:dev.mysql.com/doc/。所有有關MySQL的官方信息和知識,都在這裡可以找到。
  • MySQL第三方教程:runoob.com/mysql/mysql-。言簡意賅的介紹MySQL的基本用法,並且是全中文的按照用法主題分類,適合當知識查找工具。
  • 書籍《深入淺出MySQL》(第2版),比較完整的闡述了MySQL的開發、設計、運維、管理等方面的內容,內容全面,並且有適合初學者的章節。

Tesseract-OCR相關

有關tesseract的資源不多,目前主要是官方信息。

  • Tesseract wiki:github.com/tesseract-oc。頁面右側按照不同的主題頁面展示,可直接點擊對應標題查看。
  • Tesseract介紹:github.com/tesseract-oc。各種會議和演示的PPT材料和介紹信息。
  • Tesseract訓練數據集:github.com/tesseract-oc。注意頁面中是Tesseract 4版本用的數據集,其他版本的查看頁面底部信息入口。
  • Tesseract語言文件:github.com/tesseract-oc。按照語言類別歸類到文件,用來為特定的語言做重新訓練時的主要過程數據和文件。

TensorFlow相關

TensorFlow作為2015年底「剛」開源的機器學習框架,其學習資源不多,原因是開源之後即使有大型公司或團隊使用,也需要經過一定時間技術實踐和應用。

  • Tensorflow官方網站:tensorflow.org/。要打開這個網站需要一定的工具或技巧。
  • Tensorflow中文社區:tensorfly.cn/。相當於漢化版的官方網站。
  • 書籍《TensorFlow實戰》:國內為數不多的Tensorflow實戰書籍。
  • 極客學院的Tensorflow官方文檔中文版:wiki.jikexueyuan.com/pr。在Tensorflow剛開源1個多月,極客學院就組織了很多人進行翻譯。

應用實踐:讀者可以自己手寫一個Python工作(比如預測)案例,也許這個過程中會出現很多意想不到的問題,但別擔心,總有很多途徑可以解決這些問題,並且解決問題的過程正是學習的過程,通過簡單的練習可以掌握Python工作的基本原理和方法。

推薦閱讀:

為什麼 Python 不是 lexical scoping?
用Python做iPhone x的貓耳朵壁紙
「Python與地震工程」單自由度體系求解2
如何用Python和深度神經網路識別圖像?
python爬蟲如何按序抓取一個頁面上的圖文?

TAG:Python | 數據化運營 | Python數據分析書籍 |