Python爬蟲學習過程中碰到了難以解決的問題該怎麼做？

12-29

因為工作需要，現在在學爬蟲，目標是搜狗的微信板塊，現在核心功能出來了，但是遇到最大的問題就是驗證碼，本身以為更換IP可以解決。但是每個操作間隔30s，每十個操作更換一個IP還是出驗證碼。看網上可以圖像識別做特徵庫，但是我感覺這已經超出我的能力範圍之內了。我是應該繼續鑽研還是選擇一個相對簡單的循序漸進呢。

謝邀。

Python有captcha驗證碼識別庫，可以應對簡單的識別任務。

輸入是圖片，輸出是識別文本。

https://pypi.python.org/pypi/captcha-solver/0.0.3

遇到更複雜的，可能得用Tesseract OCR 引擎

http://soaptek.blogspot.com/2012/11/bypass-captcha-using-python-and.html

還解決不了的話，一般是因為驗證碼太複雜，可能得自己訓練神經網路來學習，自建訓練集打標籤。但在訓練前需要把驗證碼切分成只包含一個數字字母的片段。

用Python進行機器學習可以用Keras庫Keras Documentation

其實每個方案都需要投入大量的經歷。最後一個Keras庫我們老師一直在講，我們學了一個學期。

Yale University STAT 365/665: Data Mining and Machine Learning

不過拋開技術來講，驗證碼存在的意義就是為了區分人與機器，防止機器爬取。題主換個思路，買他們的API試試？興許不會有這麼多煩惱。