用Python獲取整個學校女生的電話和QQ

02-12

前言：

這個沒什麼技術難度，懂爬蟲的人和程序員都可以用學的語言寫出來

只是很多安全問題的存在，的確影響著我們的生活，

希望大家可以認識到一些網站的後台密碼的規則與自己的安全性

簡單的說，就是是程序員的懶，讓用戶的信息暴露在互聯網上

還有一點：

就是希望正在接觸python，和快要放棄學習的同學，可以試試換種思路，

來試試爬蟲，這樣有成就感的累積，可以慢慢提升你的自信

爬蟲開始前的準備：

python2.7

庫文件（xlwt，urllib2，BeautifulSoup4，xlrd）

安裝庫文件的方法：

最好在你的python2.7/script/下面打開power shell(可以shift+右擊) 執行下面的：

安裝庫文件：

pip install *** ***是指上面的庫文件，下面不一定都用，只要上面的，以後出什麼錯，你就繼續pip install

觀察網站結構（密碼規則）：

首先這個規則是針對大二和已經畢業了的

密碼規則沒有添加驗證碼（其實添加驗證碼也沒什麼用，只是添加了爬取門檻）

規則是用戶名==密碼

符合條件

這裡的用戶信息

不要在意這些細節（馬賽克）朦朧美一直是我的追求

具體思路：模擬登陸 ==》製作學號規則==》信息查詢（爬取）==》存入xls模擬登陸：因為我們是用爬蟲取信息，每次訪問，

肯定是登陸了以後才可以訪問我們的信息 ==》模擬登陸

當我們用腳本訪問下一個頁面，需要一個cookie信息，就好比，當你打開

qq空間，其實是想騰訊那裡提交了自己的信息，而我們的信息就存在cookie中

python 中cookie維持會話訪問：

模擬登陸

具體網址不分享，避免帶來不必要的麻煩

學號的列表

用戶信息的獲取

這裡用的的是beautifulsoup庫

寫入xls(這個是思路)測試用的函數

因為在寫的時候因為編碼問題，不能寫入中文

開始行動：

添加上延遲訪問： time.sleep(1)

因為爬蟲訪問的不和人一樣，訪問會很快，

這樣可以避免被封ip 還有避免給站點帶來不好的影響

程序執行結束：

部分截圖：有圖有真相，避免無知的噴子

學號規則很好找的，這樣就獲取半個學校的call和qq啦，至於能幹嘛，自己腦補。。。