小白自己做tumblr爬蟲全教程

小白教程之前在小草論壇看見有人自己通過爬蟲爬資源,但是他的教程太簡單了,對小白來說有點難度(樓主也是小白),現將摸索一天的經驗及方法傳授給大家,自行爬資源。首先需要用的工具:一:梯子,沒有梯子爬資源就是空話,樓主用的是自行搭建的SS,爬資源的時候開全局模式二:Python,樓主用的是2.7.13(樓主其他版本沒有嘗試,等下附帶的工具包也是這個版本64位,請各位小白按需自己百度下載)三:兩個爬蟲包 1:tumblr_spider-master,這個爬蟲是用來搜索博主的好友關係及視頻地址信息 2:Tumblr_Crawler-master,這個爬蟲是用來下載博主的視頻與圖片,可以選擇只下圖片或者只下視頻教程:先部署安裝Python ,樓主之前說了,我只嘗試了2.7.13,其他版本沒有嘗試,這邊很簡單,都直接下一步就可以

注意:下面這幾點是很關鍵的,因為樓主在這裡付出了太多時間,你們或多或少都會碰到下面一些問題第一:驗證Python是否安裝成功,這裡很多人要問,安裝完了不就安裝成功了,不是的!!!你需要配置安裝環境你們可以用WIN+R打開命令提示符,輸python驗證下能不能打開python,如果成功會顯示如下圖

如果不能打開?那麼需要給予環境變數(不要問我什麼事環境變數,我也是百度搜的)1:先確定你python安裝路徑,如我安裝目錄為C:Python272:打開環境變數:右鍵計算機->屬性,進入高級,環境變數3:找到系統變數中的path,雙擊編輯之,將python的安裝目錄(如c:Python27)加入到最後(與前一個路徑用;隔開),如果是WIN10直接添加,確定,確定,ok4:驗證,WIN+R進入cmd,輸入python,得出我上面的圖5:小白說看不懂:https://zhidao.baidu.com/question/937732957146468132.html(圖文解說)第二:配置好了Python,然後我們需要安裝爬蟲所需要的模塊,我這裡準備好了,我會一起打包1:PySocks-1.6.72:requests-2.11.13:six-1.10.04:xmltodict-0.10.25:beautifulsoup4-4.3.2怎麼用?首先你把這幾個包解壓出來,放到你對應的Python安裝目錄Lib子目錄下,如我的是C:Python27Lib然後分別進行手動安裝,如果操作?這裡放幾個你會用到的命令用法1: cd ..(回到上一級目錄)2:cd Python27(打開C盤python27文件),你打開Lib文件夾也需要3:c: (打開c盤)這是很簡單的幾個,針對小白(樓主也是),大神不要噴我把剛剛那幾個模塊放到Lib目錄下後,在cmd里來到你要安裝的模塊目錄下,比如我要安裝第一個模塊PySocks-1.6.7仔細看下我的操作(很是拙劣的方法,沒辦法,純小白)

來到了需要安裝的模塊目錄下輸入:python setup.py install,回車安裝,同理把我上面給到你們的5個模式都用這個方法安裝即可到了這裡,Python的所有準備工作都已結束,下面就是爬資源的教程這裡我開始說了有兩個爬蟲1:tumblr_spider-master2:Tumblr_Crawler-master我們先用第一個tumblr_spider-master,這裡我需要和你說下,為了簡便操作,我把這個爬蟲改了文件名放在了d盤下

然後用命令提示符cmd打開這個目錄運行tumblr.py文件(我再網上查了很久,也沒有找到能夠雙擊打開的方法,因為雙擊就會閃退,唉),那就只能用蠢辦法了,莫噴!請看圖

這裡要注意:python tumblr.py username (usename 為任意一個熱門博主的 usename)也就是說如果如果我要找XXX博主的信息就輸入python tumblr.py XXX這樣你會在爬蟲的目錄下得到兩個TXT文件user.txt 是爬取XXX的用戶名信息(這裡會索引很多與該博主興趣一樣的博主信息), source.txt 是視頻地址集

這就是信息!第一個爬蟲的使命就些了,這裡我也向各位尋一個可以批量下載視頻連接的工具因為這個爬蟲在source.txt生成了很多視頻地址,但是迅雷什麼的都不了,海棠FLV能下,但是每次只能下一個,真心煩人下面開始第二個爬蟲Tumblr_Crawler-master,這才是打殺器,它可以把你需要爬去的博主圖片和視頻都直接下下來方法和第一個一樣用命令提示符cmd打開這個目錄運行tumblr-photo-video-ripper.py文件

但是這裡需要你做幾個設置1:比如你要下載XXX博主的圖片和視頻文件,你需要在sites.txt文件下輸入你要爬取的博主名比如XXX

這裡大家要注意,如果想爬兩個用逗號分開(英文逗號),爬一個就直接填XXX,我聽說一次性爬多個博主會不好使這裡我也建議大家最多填寫兩個就好還有,如果我只想下載博主的圖片文件怎麼辦?或者我只想下載博主的視頻文件怎麼辦?這裡就需要改代碼了(方便小白,樓主已經分類給大家改好了文件)你只需要把對應「只下載圖片」「只下載視頻」裡面的文件覆蓋原始的tumblr-photo-video-ripper.py執行文件即可運行執行文件後,你會在爬蟲目錄下得到大家已博主名命名的文件夾,裡面有圖片和視頻自此!教程到這裡就結束了最後,樓主要提醒大家幾個問題1:以上兩個爬蟲在運行的時候一定要開全局才能使用2:安裝玩Python後要先測試下能否正常運行3:模塊文件一定要確認安裝好,如果在運行執行文件的時候有報錯的,複製報錯的代碼百度,看下是不是缺失了什麼模塊然後百度對應模塊按我說的方法安裝即可這篇文章是樓主自行敲打,也借鑒了一些其他朋友的方法,如有冒犯,先說聲抱歉有什麼問題大家可以回復我,我知道的我就回答,不知道的,大家一起學習,樓主也是剛剛開始學!我把這裡面會用到的所有文件都打包了,大家自行下載!也可以在官網和百度搜索到。

百度雲盤

  1. <span style="color: rgb(160, 82, 45); font-family: Tahoma, Helvetica, SimSun, sans-serif; line-height: 24.5px; background-color: rgb(255, 255, 255);">[hide ]</span>鏈接: http://pan.baidu.com/s/1jHS2KPg 密碼: wbcy<span style="color: rgb(160, 82, 45); font-family: Tahoma, Helvetica, SimSun, sans-serif; line-height: 24.5px; background-color: rgb(255, 255, 255);">[hide ]</span>

複製代碼
推薦閱讀:

畫美人更美 中國知名女插畫師張小白作品欣賞
一個啤酒小白的進階之路,必定少不了這五款酒
我該買什麼多大的鞋 小白請留步!小編教你看鞋碼
送走滿大街的小白鞋之後,它成為新一代鞋王了?!
小白菜湯的做法

TAG:自己 | 教程 | 爬蟲 | 小白 |