人生苦短,我用Python(寫在前面)
自學python爬蟲大概一個月多一點。最開始是在簡書上寫博客,記錄學習中項目和問題。
一直到前幾天"Python開發者社區"專欄編輯找到我
作為一個小白,震驚了。
後面萌生了在知乎上記錄學習項目的想法,試著申請了下,居然通過了,便有了這個專欄。
我學python最初是想了解編程,學著學著,不一樣了。
計算機領域各種神奇奧妙,爬蟲+python這種黑魔法簡直不要太好玩好么!
之前的學習死記硬背的多,一個多月來動手解決各種問題,發現自己的興趣原來在編程。
第一次在知乎上發文章,不知道該寫什麼好。索性把簡書上 自學爬蟲一月總結 搬過來。
小白的記錄,寫給自己
沒有任何編程基礎,C都沒學過。
花了兩周多,把廖大的教程草草過了,直接跳過web部分。然後開學了。
複習了一周數據結構。開始寫爬蟲。
第一個爬蟲其實是 天涯論壇。大概三周前多一點,剛學會點正則表達式(其實是最簡單的(.*?)),背著大電腦到圖書館,然後對著崔慶才大神的教程鼓搗半天,最後終於弄出來了,感覺整個世界都亮了。
然後去爬 糗事百科,接著是百度貼吧旅行貼的圖片,隨便輸入帖子號便可列印評論和下載圖片(順便還發現了兩有趣的貼)。
最開始是urllib2、re,慢慢開始學 requests、BeautifulSoup、xpath。
期間還把《圖解http》看了。然後在 CSDN上寫博客,記錄小項目。小項目前順手加個"python 網路爬蟲入門(一二三)",騙騙一樣剛學的盆友也好增加瀏覽量,好吧承認我是個小心機~ ^_^
開始用上面的富文本編輯器,不知道為啥頁面一團糟。後面註冊了簡書帳號,發現markdown編輯器不要太好用,簡書界面也友好,愛上了。後面發現CSDN也有markdown編輯器,於是每次先在簡書上排版,發布,最後複製粘貼到CSND,
嘻嘻我簡直機智~研究了三天多pixabay,最後做了個"圖片下載神器",速度飛快。後面發現特么的獲取的不是原圖啊,趕緊地將大標題改成「一個簡陋的下載器」,尷尬。
獲取不到高清原圖當然不服氣,尤其是pixabay這種高人氣網站。然後試著破解pexels獲取高清原圖,成了。(為了爬外網還專門買了一個月vpn)原來圖片API在源碼里,新鮮不已。雖然單線程有些慢,終於是實際意義上的下載器。開始羞恥噠在Github上放自己的代碼(說bug也行吧[小白式捂臉])。
Pycharm這個編輯器確實很好用,就是界面太。。。於是動手修改Pycharm設置 ,改了一下午加一晚上,變成這樣,個人覺得清新又護眼~
前陣子川大掀起「玻璃杯事件」,盛況空前。做了個爬蟲爬info神回復前100條,「史上最全,拿走不謝」,拋到空間和朋友圈,小夥伴們都驚呆了,順便騙了不少瀏覽量。通過這個爬蟲學會了抓包,原來破解動態網頁不止selenium和PhantomJS。
也遇到很多問題,基本上都是自己想+查筆記+百度+知乎+csdn+stackoverflow解決的。
用selenium爬教務網失敗。改用抓包,加上stackoverflow上偷來的奇淫巧計,順利爬取教務處成績並保存至excel,僅用代碼30餘行。竟然開始有人瀏覽我寫的東西,還收到幾個贊,開心^_^
看到好多大神爬電商、招聘網站,分析數據起來有模有樣,心動了。於是去爬 拉勾網,用BDP搞了個小型數據分析。花了一晚上分析網站,主要用到抓包和Cookies,沒學到scrapy所以有一點慢。3萬多數據,沒見過世面的小白還有些小激動~做了一些圖表效果還可以(BDP大法吼啊)。
不得不說用簡書記錄項目,還是很費時間的,不過感覺也受了不少鍛煉,尤其在總結思路、邏輯編排這幾個方面。通過記錄項目中的問題和解決思路,加深鞏固了知識點。
最後總結一下:
這一個月,感覺也是斷斷續續,
畢竟本專業還要上課,主要通過
看教程、做筆記、寫博文構建知識體系,通過小項目驅動學習首先還是有收穫
1、樂趣。發現了自己的興趣原來在編程,爬蟲簡直打開了一個新世界。每一次爬蟲,就像升級打怪,萬一通關,成就感滿滿。(反正比做實驗好玩多了)2、從迷茫到很忙。發現編程這一行牛人好多,自己要學的東西也好多呀。3、告別依賴。貌似開始學會自己獨立思考、解決各種問題,有自己的想法很重要,再不濟「它山之石,可以攻玉」。問題也不少
1、感覺爬蟲 上手快精通難,深入學習的動力貌似不足,基礎存在漏洞2、專註度不夠 效率低,要是有大神帶帶就好啦3、寫的是技術文,卻發現自己貌似漸漸奔往 段子手 的路上,怎麼回事?
一個月的爬蟲學習,算是入門了吧。
接下來就是學習PhantomJS動態頁面、模擬登錄破解驗證碼、多線程、Scrapy及mongodb資料庫等等,得慢慢來。不管如何,做自己喜歡的事情,真好。
作於2017.03.31 22:40
上面就是小白的學習路線,詳情也可以見
簡書文集:python爬蟲實戰日記 - 文集 - 簡書
之後會把上面的項目慢慢搬到這裡
同時學習進度也會持續更新中,感興趣歡迎關注。
(目前仍在學習階段,個中不足之處請各位大神多多指教。)
人生苦短,我用Python。
大數據時代,期待與你一同進步。
推薦閱讀:
※我這樣破解pexels獲取的高清原圖
※60秒GET小技能-爬蟲快速構建post參數法
※Python爬蟲技巧一之設置ADSL撥號伺服器代理
※從零開始寫Python爬蟲 --- 3.2 爬蟲實踐:獲取快代理
※python 高度魯棒性爬蟲的異常和超時問題