如何用八爪魚採集器提取新浪微博的數據呢?
下載了八爪魚採集器 但是不太會用 新浪微博在八爪魚裡面登陸不進去 想要抓取新浪微博裡面的關鍵詞…求指導
新浪微博數據採集和數據分析曾經十分紅火,那時候新浪微博的api是開放的,曾經參觀過某高校,有40台計算機同時通過api採集數據。當時看到畫出來的社交圖譜感覺好酷,我們很多程序猿都覺得好興奮,對微博數據進行可視化,其實後來翻了一下書才知道社會網路分析法在社會學裡面是個很重要的分支,而且很早就創建了。甚感IT男的知識面好狹窄。
結果好景不長,api不再這樣開放了,大量的研究工作停滯了下來,前面提到的那個高校,正準備做項目驗收,課題組長變成了熱鍋上的螞蟻。
微博數據是品牌研究、競爭研究、消費者畫像的重要數據源,大家不得不再次回來找網路爬蟲求助。但是,根據微博的訪問控制策略,可訪問量大大受限。如果訪問過量,微博賬號將暫時性凍結。電腦的IP也會被封鎖,cookie需要清理。
所以,雲端的網路爬蟲做採集很容易被封鎖,因為數據中心機房使用固定IP,一旦封鎖將長時間不會解封。而用ADSL等動態接入方式,被封鎖的可能性就小很多,另外動態IP地址不會被長期封鎖。
另外,通過關鍵詞搜索抓取微博的話,最好使用周期性連續不斷的搜索,雖然微博有按時間段搜索歷史數據的界面,但是搜到的結果遠遠少於即時採集的,越久遠越少。所以,盡量開啟周期性採集功能,持續不斷地把最新消息採集下來。
越來越多的網站採用十分複雜和智能的js代碼,所以,對網路爬蟲的解析能力考驗很大,要選擇有瀏覽器全特性的網路爬蟲,否則,登錄過程很容易受阻。另外,最好是先手工預先登錄,然後讓爬蟲利用瀏覽器安全管理器保存的登錄狀態,只管抓取即可。新浪微博在八爪魚里的登錄需要一定的判斷條件,對於不熟悉八爪魚的人確實存在一定困擾,這裡有個八爪魚的私人小技巧推薦給樓主,文末有彩蛋哦,這裡先講講方法。
我用的方式也是預先登錄的方法,先製作一個簡單的打開新浪微博並隨意採集一個欄位的規則如下:
保存並啟動本地採集,只提取一個欄位的規則幾秒就會採集完成,之後在採集完成的頁面上我們就可以輸入賬號密碼登陸了。
到這裡我們相當於已經將登陸狀態保存在八爪魚內置瀏覽器當中了,之後就可以正常採集了,這裡方便樓主我還是對採集過程做個簡單的說明,我們用採集微博評論舉例,這也是很多人需求的內容。
1.打開八爪魚採集器,找到主頁下自定義採集,點擊立即使用。
2.輸入需要採集的微博頁面網址,多個網址用換行符分隔,點擊保存網址。通過關鍵詞搜索獲取微博頁面網址也可以使用本文方法採集,這裡不多贅述。
3.打開後八爪魚已經生成了打開網站的循環,可以看到網頁已經是登錄上的狀態了。
4.觀察網頁發現如果想看更多評論需要下拉網頁2次,之後點擊查看更多來獲取。這裡我們在打開網頁步驟設置頁面載入完成後向下滾動,具體設置如下圖:
之後循環點擊查看更多來載入內容,這裡我們需要提前載入到需要採集的頁數後再進行採集,因為載入後的內容是一直存在的,如果邊採集邊翻頁會造成採集內容的重複。具體設置如下:
之後循環提取所需要的評論內容即可,這裡附上我提取的欄位如下:
手動運行規則無誤後,就可以採集了,結果如下:
這裡我載入了100頁的內容,所以耗時較久,樓主如果需求數據較少可以減少載入更多頁次數,可以使採集更加迅速。
彩蛋彩蛋:不知道樓主有沒有注意到,八爪魚在主頁下的網站簡易採集下,有微博網頁關鍵詞搜索的模板,如果樓主需求不是很複雜可以直接使用簡易採集的,省下了做規則的時間。
八爪魚採集器對採集新手算很友好,遇到問題往往問客服或者找爪友交流一下也能很快解決,多嘗試嘗試還是可以很好滿足需求的。
希望可以幫助到樓主^_^
其實可以在八爪魚規則市場里先買一些別人已經做好了的規則,再此基礎上自定義抓取網頁、欄位等等。我也還處於摸索階段,希望能對你有用w
昨晚看著官網的教程,閱讀困難,看懵了,然後自己寫程序完成了採集。還是自己寫程序靈活性高。
不知道LZ是什麼用途,我也是寫論文需要爬蟲,把各種軟體都試了一圈,說說感受:
熊貓採集器只能爬到關鍵字搜索第一頁的東西,因為微博對未登錄用戶不提供搜索結果翻頁的功能,我又不知道熊貓在哪裡設置微博登陸,作罷;
八爪魚倒是可以在配置規則的界面登陸微博,然後在爬蟲界面又會跳出來讓你登陸,雖然這兩個界面可能都誤把登陸的控制項也當鏈接了= =但是跌跌撞撞爬蟲還是可以運行的,只是搜索結果也老不成功,再次作罷;
最後用的是 集搜客網路爬蟲 ,直接有一個微博關鍵詞搜索結果採集的工具,這次成功采上了,只是採的時候數據不會顯示,直到任務完成了才會顯示10條示例數據(都是真數據),想要下載下來要花積分,積分又得花RMB= =這個就是屬於樓上講的:「 手工預先登錄,然後讓爬蟲利用瀏覽器安全管理器保存的登錄狀態,只管抓取即可 」。
可能對於計算機大神們寫個爬蟲分分鐘吧,因為我看最後爬下來的數據,用戶ID、頭像、內容、發布時間、點評贊都有,寫論文省了很大勁,也不用淘寶去好幾百買了,但是反正還得出點血買積分的。國內傳媒教育除了教新媒體製作比如剪片子做片子之類也真應該普及一下基本的編程……
登陸的時候不在右邊直接輸入賬號密碼 可以選擇點右上角的「登陸」 然後在那個裡面輸入賬號密碼就ok了
樓主會了沒?
先佔個坑,晚上回答你
推薦閱讀:
※python抓取網易財經的個股的財務數據,比如利潤表,並分項保存到mysql,需要哪些步驟?
※啟信寶的查詢功能是如何實現的?
※怎樣利用數據爬取和分析工具寫出《黃燜雞米飯是怎麼火起來的》這樣的文章?