Python爬蟲學習過程中碰到了難以解決的問題該怎麼做?

因為工作需要,現在在學爬蟲,目標是搜狗的微信板塊,現在核心功能出來了,但是遇到最大的問題就是驗證碼,本身以為更換IP可以解決。但是每個操作間隔30s,每十個操作更換一個IP還是出驗證碼。看網上可以圖像識別做特徵庫,但是我感覺這已經超出我的能力範圍之內了。我是應該繼續鑽研還是選擇一個相對簡單的循序漸進呢。


謝邀。

Python有captcha驗證碼識別庫,可以應對簡單的識別任務。

輸入是圖片,輸出是識別文本。

https://pypi.python.org/pypi/captcha-solver/0.0.3

遇到更複雜的,可能得用Tesseract OCR 引擎

http://soaptek.blogspot.com/2012/11/bypass-captcha-using-python-and.html

還解決不了的話,一般是因為驗證碼太複雜,可能得自己訓練神經網路來學習,自建訓練集打標籤。但在訓練前需要把驗證碼切分成只包含一個數字字母的片段。

用Python進行機器學習可以用Keras庫Keras Documentation

其實每個方案都需要投入大量的經歷。最後一個Keras庫我們老師一直在講,我們學了一個學期。

Yale University STAT 365/665: Data Mining and Machine Learning

不過拋開技術來講,驗證碼存在的意義就是為了區分人與機器,防止機器爬取。題主換個思路,買他們的API試試?興許不會有這麼多煩惱。


推薦閱讀:

驗證碼有什麼作用?
為什麼現在非reCaptcha的驗證碼也越來越瘋狂了?
網頁爬蟲遇到難以通過圖像識別繞過的驗證碼時,獲取整個驗證碼庫,人工標註答案,再進行圖像比對,是否可行?
簡訊驗證碼平台哪家速度快又穩定,推薦下?

TAG:Python | 驗證碼 | 爬蟲計算機網路 |