如何爬取伺服器日誌log和資料庫?


謝邀,下次這樣問題別再邀請我。
這是逗逼?
你以為爬蟲是毒龍鑽?
還爬資料庫?伺服器日誌?先搜索搞明白爬蟲定義。
某百科:「網路爬蟲是一種自動獲取網頁內容的程序,是搜索引擎的重要組成部分。」
是網頁!網頁!網頁內容!!!!!
小夥子,我看你骨骼清秀,學爬蟲幹嘛。學滲透吧。


有三年左右的公家飯可以吃,你琢磨一下。


爬蟲是抓取公開數據的,儘管有的數據很討厭爬蟲,但是他們作為公開數據,肯定是可以被用戶訪問的。所以,就有了各種奇技淫巧來把爬蟲偽裝成瀏覽器什麼。所謂的偽裝,其實就是模擬網路協議。

伺服器日誌、數據,不是公開數據。不是公開數據,你硬要用各種手段弄,那就做錯事情了,甚至犯法了。爬蟲更多的是正常使用服務本身就提供的介面,而「竊取」是利用服務的脆弱性。


伺服器日誌log和資料庫,都是禁止訪問的,抓取不了。
你這是想幹嘛?想當黑客。


想多了,log,資料庫是要許可權的。


推薦閱讀:

當爬蟲不遵守 robots 協議時,有沒有防止抓取的可能?
網路搜索引擎為什麼又要叫爬蟲?
python抓取新浪微博,求教!!?
scrapy可以進行線性/順序抓取嗎?
python爬蟲的中文亂碼問題?

TAG:爬蟲計算機網路 | 網頁爬蟲 |