人生苦短,我用Python(寫在前面)

其實一個知乎小透明。大三學生。

自學python爬蟲大概一個月多一點。最開始是在簡書上寫博客,記錄學習中項目和問題。

一直到前幾天"Python開發者社區"專欄編輯找到我

作為一個小白,震驚了。

後面萌生了在知乎上記錄學習項目的想法,試著申請了下,居然通過了,便有了這個專欄。

我學python最初是想了解編程,學著學著,不一樣了。

計算機領域各種神奇奧妙,爬蟲+python這種黑魔法簡直不要太好玩好么!

之前的學習死記硬背的多,一個多月來動手解決各種問題,發現自己的興趣原來在編程。

第一次在知乎上發文章,不知道該寫什麼好。索性把簡書上 自學爬蟲一月總結 搬過來。

小白的記錄,寫給自己

沒有任何編程基礎,C都沒學過

花了兩周多,把廖大的教程草草過了,直接跳過web部分。然後開學了。

複習了一周數據結構。開始寫爬蟲。

第一個爬蟲其實是 天涯論壇。大概三周前多一點,剛學會點正則表達式(其實是最簡單的(.*?)),背著大電腦到圖書館,然後對著崔慶才大神的教程鼓搗半天,最後終於弄出來了,感覺整個世界都亮了。

然後去爬 糗事百科,接著是百度貼吧旅行貼的圖片,隨便輸入帖子號便可列印評論和下載圖片(順便還發現了兩有趣的貼)。

最開始是urllib2、re,慢慢開始學 requests、BeautifulSoup、xpath。

期間還把《圖解http》看了。

然後在 CSDN上寫博客,記錄小項目。小項目前順手加個"python 網路爬蟲入門(一二三)",騙騙一樣剛學的盆友也好增加瀏覽量,好吧承認我是個小心機~ ^_^

開始用上面的富文本編輯器,不知道為啥頁面一團糟。後面註冊了簡書帳號,發現markdown編輯器不要太好用,簡書界面也友好,愛上了。後面發現CSDN也有markdown編輯器,於是每次先在簡書上排版,發布,最後複製粘貼到CSND,

嘻嘻我簡直機智~

研究了三天多pixabay,最後做了個"圖片下載神器",速度飛快。後面發現特么的獲取的不是原圖啊,趕緊地將大標題改成「一個簡陋的下載器」,尷尬。

獲取不到高清原圖當然不服氣,尤其是pixabay這種高人氣網站。然後試著破解pexels獲取高清原圖,成了。(為了爬外網還專門買了一個月vpn)原來圖片API在源碼里,新鮮不已。雖然單線程有些慢,終於是實際意義上的下載器。開始羞恥噠在Github上放自己的代碼(說bug也行吧[小白式捂臉])。

Pycharm這個編輯器確實很好用,就是界面太。。。於是動手修改Pycharm設置 ,改了一下午加一晚上,變成這樣,個人覺得清新又護眼~

前陣子川大掀起「玻璃杯事件」,盛況空前。做了個爬蟲爬info神回復前100條,「史上最全,拿走不謝」,拋到空間和朋友圈,小夥伴們都驚呆了,順便騙了不少瀏覽量。通過這個爬蟲學會了抓包,原來破解動態網頁不止selenium和PhantomJS。

也遇到很多問題,基本上都是自己想+查筆記+百度+知乎+csdn+stackoverflow解決的。

用selenium爬教務網失敗。改用抓包,加上stackoverflow上偷來的奇淫巧計,順利爬取教務處成績並保存至excel,僅用代碼30餘行。竟然開始有人瀏覽我寫的東西,還收到幾個贊,開心^_^

看到好多大神爬電商、招聘網站,分析數據起來有模有樣,心動了。於是去爬 拉勾網,用BDP搞了個小型數據分析。花了一晚上分析網站,主要用到抓包和Cookies,沒學到scrapy所以有一點慢。3萬多數據,沒見過世面的小白還有些小激動~做了一些圖表效果還可以(BDP大法吼啊)。

不得不說用簡書記錄項目,還是很費時間的,不過感覺也受了不少鍛煉,尤其在總結思路、邏輯編排這幾個方面。通過記錄項目中的問題和解決思路,加深鞏固了知識點。

最後總結一下:

這一個月,感覺也是斷斷續續,

畢竟本專業還要上課,主要通過

看教程、做筆記、寫博文構建知識體系,通過小項目驅動學習

首先還是有收穫

1、樂趣。發現了自己的興趣原來在編程,爬蟲簡直打開了一個新世界。

每一次爬蟲,就像升級打怪,萬一通關,成就感滿滿。(反正比做實驗好玩多了)

2、從迷茫到很忙。發現編程這一行牛人好多,自己要學的東西也好多呀。

3、告別依賴。貌似開始學會自己獨立思考、解決各種問題,有自己的想法很重要,再不濟「它山之石,可以攻玉」。

問題也不少

1、感覺爬蟲 上手快精通難,深入學習的動力貌似不足,基礎存在漏洞

2、專註度不夠 效率低,要是有大神帶帶就好啦

3、寫的是技術文,卻發現自己貌似漸漸奔往 段子手 的路上,怎麼回事?

一個月的爬蟲學習,算是入門了吧。

接下來就是學習PhantomJS動態頁面、模擬登錄破解驗證碼、多線程、Scrapy及mongodb資料庫等等,得慢慢來。

不管如何,做自己喜歡的事情,真好。

作於2017.03.31 22:40

上面就是小白的學習路線,詳情也可以見

簡書文集:python爬蟲實戰日記 - 文集 - 簡書

之後會把上面的項目慢慢搬到這裡

同時學習進度也會持續更新中,感興趣歡迎關注。

(目前仍在學習階段,個中不足之處請各位大神多多指教。)

人生苦短,我用Python。

大數據時代,期待與你一同進步。


推薦閱讀:

我這樣破解pexels獲取的高清原圖
60秒GET小技能-爬蟲快速構建post參數法
Python爬蟲技巧一之設置ADSL撥號伺服器代理
從零開始寫Python爬蟲 --- 3.2 爬蟲實踐:獲取快代理
python 高度魯棒性爬蟲的異常和超時問題

TAG:爬虫 | Python | 自学编程 |