自學數據分析的學習計劃

自學數據分析的學習計劃

來自專欄我是如何自學數據分析的?

一、為什麼要轉行學習數據分析

2017年,我畢業於某師範類學校,本科學的是數學專業,學的都是一些純理論的科目,除了當老師,什麼也幹不了。畢業後,我做了一年的高中數學老師,感覺當老師,如果進公立學校,工資太低了;私立學校,之後南方或者沿海地區的工資高一些,但是我家是北方的,我想在北方發展;教育機構的老師,很不穩定。所以,我選擇了轉行。因為我是數學專業的,大學的時候也算努力學習了,所以我決定轉行數據分析。

二、學習規劃

我已經是破釜沉舟了,如果不好好學習,註定找不到工作,所以我要拚命去學習。對於初級課程,總共有7關,每一關我打算用1-2周的時間去學習,簡單用1周,稍微複雜一點就用2周。對於中級課程,每一關用2-3周的時間去學習。我希望能跟著猴子老師的進度,儘快掌握數據分析的一些技術,爭取在12月份的時候,能夠拿到一份offer,這樣在過年的時候,也能讓我的父母高興高興。

三、爬蟲任務:利用「集搜客」搜集相關領域的數據

1. 採集網頁數據的步驟:

(1)打開一個網頁,把網址複製到集搜客的地址欄,並按回車鍵

(2)點擊「定義規則」,會彈出一個窗口

(3)在「主題名」一欄上,寫上這次爬取的「主題」

(4)點擊「查重」

(5)在網頁上左鍵雙擊「充電寶」三個字 ,在彈出的小框框上填寫標籤名稱,點擊後面的「對勾」,在彈出的小框框中填寫「整理箱名」,點擊「確定」

(6)可按這個順序在爬取其他東西。

(7)點擊「測試」

(8)「集搜客」點擊「瀏覽模式」,在地址欄輸入「集搜客」的網址,打開集搜客的頁面,登入會員,點擊「會員中心」

(9)點擊「規則管理」,可以看到爬取的數據

(10)點擊「爬取充電寶」

(11)點擊「導入數據」

(12)點擊「附件」,導入數據,點擊「導入」

(13)關閉小窗口,點擊「導出數據」

(14)點擊「下載」

(15)可以直接打開,再解壓即可,在文件夾裡面找「規則1」,裡面即為「爬取的充電寶」的excel表格

2.採集列表數據步驟

(1)打開一個網頁,把網址複製到集搜客的地址欄,並按回車鍵,要拖動滾動條,讓頁面全部載入出來

(2)點擊「定義規則」,在「主題名」中輸入「主題名」,點擊「查重」,看主題名是否能使用

(3)點擊「創建規則」,點擊「新建」,在彈出的小框框中輸入整理箱名

(4)在一個圖片詞條中雙擊85.00,輸入「價格」

(5)在同一圖片詞條中雙擊「商務休息褲子」,輸入「名稱」

(6)在同一圖片詞條中雙擊,輸入「店鋪名稱」「付款人數」

(7)點擊「測試」

(8)點擊第一個商品的名稱,「商務休息褲子」(這些個小框框可以移動的),下面會有一行變灰,右擊變灰的一行,點擊「樣例複製映射」,選擇「第一個」,則第一個樣例已經添加好了

(9)點擊另一個圖片上的商品名稱,滑鼠左鍵點擊一下

(10)下面會有變灰的一行,在變灰的一行中右擊,點擊「樣例複製映射」,選擇「第二個」,點擊之後會有一個紅藍的框框閃爍,說明樣例做好了

(11)點擊「測試」

(12)點擊「定位」,選擇「絕對定位」,點擊「存儲」

(13)點擊「測試」

(14)點擊右上角的「存規則」,點擊「爬數據」

(15)點擊「存儲路徑」,查看存儲路徑,把路徑複製,打開路徑

(16)在「集搜客」上點擊普通模式,回到原始頁面,在網址一欄中輸入「集搜客」的網址

(17)點擊「會員中心」,點擊「規則管理」,點擊剛才製作的規則

(18)點擊「導入數據」,點擊「附件」,導入數據

(19)點擊「導出數據」,點擊「下載」,點擊「確定」

(20)解壓壓縮包,點擊「規則1」,點擊excel表格

3.設置翻頁採集步驟

(1)打開網頁,把網址複製到「集搜客」的地址欄,按回車,拉動滾動條,使頁面載入出來(這一點非常重要,最好是等幾秒,如果載入不出來,就會出現「找不到網頁位置,定位失敗」)

(2)點擊「定義規則」,在「主題名」中輸入「京東笛子翻頁採集」,點擊「查重」,確定名字可以使用

(3)點擊「創建規則」,點擊「新建」,在彈出的框中輸入「京東笛子數據」

(4)在同一個圖片上一次左鍵雙擊價格,輸入「價格」,依次為「店家」,「購買人數」等

(5)點擊剛才的圖片,下面會有一行變灰,右鍵點擊變灰的一行,選擇「樣例複製映射」------「第一個」

(6)點擊另一個圖片,下面會有一行變灰,右鍵點擊變灰的一行,選擇「樣例複製映射」------「第二個」,會有紅藍框閃現一下

(7)點擊「測試」,發現只抓取了一條

(8)點擊「定位」,選擇「絕對定位」,點擊「存儲」

(9)點擊「測試」,發現頁面上的所有數據都抓取下來了

(10)點擊「翻頁區」

這是「翻頁區」,在「上一頁」前面左擊一下

(11)下面會有一行變灰,右鍵點擊變灰的一行,選擇「翻頁映射」------「做為翻頁區」-----「新建線索」

(12)點擊「翻頁記號」,這裡就是「下一頁」

(13)下面會有一行變灰,要把變灰的這一行展開,點擊前面的小三角,會出來一個#text,點擊一下,右擊,選擇「翻頁映射」-----「作為翻頁記號」

(14)點擊「存規則」,點擊「爬數據」

(15)點擊「高級」------「終點標誌」-----「重複內容」

(16)打開採集的數據,按住文件中的地址打開文件即可

(17)選擇其中一部分文件,進行壓縮,右擊,選擇「添加到『京東笛子翻頁採集.zip』」

(18)點擊「普通模式」,在網址欄中輸入「集搜客」網址,回車

(19)點擊「會員中心」,點擊「規則管理」

(20)點擊「京東笛子翻頁採集」

(21)點擊「附件」,導入剛才壓縮的zip文件,點擊「導入」(zip包不能大於10M,為了穩定上傳,最好分批壓縮成2M的包)

(22)點擊「導出數據」

(23)點擊「下載」------「打開」

(24)在excel表格中,G欄中,0代表的第一頁,1代表的第二頁

推薦閱讀:

他是如何用批判性思維改變命運的
數據分析技巧:如何將Excel二維錶轉一維表?
爬了智聯告訴你數據分析師這個行業到底怎麼樣
用EXCEL輕鬆入門數據分析

TAG:數據分析 | 數據分析師 |