如何用C#對論壇進行爬蟲?
12-29
如題,新手,想折騰一把。用C#對一個phpwind的論壇站點爬蟲,將每個帖子保存成PDF可供離線查看。大概需要什麼東西?有什麼值得推薦的庫呢?
還有,有個關鍵問題如果該論壇限制了註冊/登錄後才能看圖,該怎麼辦?假設我已經註冊該論壇的帳號,如何模擬用戶登錄並爬到相關內容?
謝邀。
有句傳言,不知真假。「用Jumony就是為了把cnblogs爬宕機」
爬網站首選Jumony,雖然作者本意是拿來做ViewEngine的,這就是人生啊~啊哈~!
根據表單元素的屬性添加用戶名和密碼到post request里去 不同語言的實現方法都差不多
最終提交到form的action里就好
但是對於國內論壇來說最棘手的問題是驗證碼的問題吧
webbrowser
推薦閱讀:
※C# 里非同步方法該如何理解?
※一個簡單的C#控制台小程序如下,可是不輸出,為什麼?
※如何判斷 string 是否為合法的 C# 變數名?
※怎麼看待 「C#已經沒落」 這種說法?
※哪裡有比較全比較好的 C# 學習資料下載?