為什麼Python爬蟲很少有人爬QQ空間呢?


因為爬蟲教程全是在教爬知乎、豆瓣(滑稽.jpg


認真講就是,事實上爬知乎、豆瓣的人確實比爬 QQ 空間的人多,一個原因是難度不一樣,尤其新版知乎頁面簡直太爬蟲友好了,所謂的「爬知乎」,簡直就是學習怎麼發請求,所以知乎改版後再寫爬知乎教程的人,我都非常鄙視。而 QQ 空間的抓取難度相對知乎高很多,所以自然抓的人就少得多了。

其次其實還是有抓空間數據的,比如我知道一個朋友曾經抓過所有開放 QQ 空間的用戶數據,不過他是給他當時公司抓的。


有啊,只是沒說出來而已。
我們就在爬扣扣空間
因為學校要跑早操,但是早操信息是由體育部每天發在扣扣空間的,我們就每天六點到七點,每隔三分鐘爬一次它的說說,然後分析下今天是否跑操。
另外,我覺得爬扣扣空間最麻煩的就是加密,騰訊的加密js都寫了三千行,雖然最後用python實現用了大概一百行吧。但是這個加密過程還是很複雜的。
ps:想起一個梗,記得有次負責發布跑操信息的人說說是這樣的
問:今天跑么?
答:跑
然後,too young的我們寫的程序分析今天不跑操……畢竟真沒考慮它會這麼干……


你這麼一說我現在就像去寫一個專門爬女神QQ空間的爬蟲,
只要一有更新就立即微信提醒我,
其實,只要有需求 什麼都能爬,回復女神說說的qq號里的記錄,並爬出內容, 用時間來計算和女神的親密度。什麼的。。 提前發現情敵。 大大節省了自己手動去獲取信息的時間, 就算換個女神。爬蟲一樣爬 真的 是很方便呢。&>_


爬過好友的空間,簡易教程在寫了一篇文章可以戳頭像進去看看。歡迎私信交流


一、沒有爬qq空間的需求:qq空間的內容價值太低了。
二、qq空間對爬蟲初學者來說太不友好了……開發和維護都需要一定的知識積累。
三、爬別人的qq空間有點猥瑣的感覺……爬自己的空間有必要嗎


爬過qq空間,不過模擬登錄用的是selenium,寫了個好友一發說說就自動評論的功能(評論內容是一些古代情詩),然後我就被很多人屏蔽了=。=


我就寫過啊,在我的文章里,手機不好貼鏈接。


主要看被爬的網站有沒有Robot detection。 豆瓣沒有robot detection,連驗證碼都可以ocr識別。。


QQ空間有一個介面是請求個人信息的,想抓取的話分析一下就出來了,難的是自動化登錄,即便用selenium,登錄頁面還有個iframe,當然,你打開手機QQ,掃碼登錄的話我也只能打出一波666。還不能頻繁發請求,次數多了肯定就封一段時間。
以上內容足以把一批小白拒之門外


爬過啊,前段時間剛入門py爬蟲好一陣子,玩了好幾個小項目,現在不玩了。
爬空間的話,一般就爬自己空間做時間數量分析,文本分析,情緒分析(?),關鍵詞分析等…同理對好友的也是如此。可能是因為這些涉及個人隱私多點,所以教程比較少,不過套路都是一樣的,只是某些地方不同,或者爬蟲技巧更高級而已吧。

PS:附上個人空間爬蟲詞雲~~

以及個人py專欄爬蟲項目安利~~
https://zhuanlan.zhihu.com/p/29906296


因為不用selenium的話就難了點
(╥╯﹏╰╥)?


簡陋的用selenium爬了一下好友的說說 用numpy和matplotlib做了一點初步的統計

包括我自己的詞雲

雖然好多人都有很大的 哈哈 二字 但是這個也太過分了

可別是個大傻子吧

學弟的數據

還有很多有趣的數據可以統計的 等有空用scrapy重寫一遍


QQ空間爬多無聊


吃不消,全爬完不知道要吃多少內存


推薦閱讀:

Python3新手爬蟲求教?
python正則表達式抓取數據時,有些標籤下有內容,有些標籤下沒有時怎麼辦?
新手小白請教maya python ?

TAG:爬蟲計算機網路 | Python入門 | 網頁爬蟲 |