關於爬蟲程序的合法性？

01-15

我想寫一個爬蟲程序，在不違反被爬網站robots協議的情況下，對一個公開訪問的論壇內容(如豆瓣)進行數據抓取，保存，並依靠相關數據做了一個搜索網站，並且不用於任何商業用途，請問這樣的做法違規或者違法嗎？
------------
題外話，一個工作了4，5年java程序猿，熱愛編程，利用業餘時間和興趣編寫並部署了一些網站，又不太懂一些隱私，版權，法律常識相關的問題，只好前來求助，謝謝

樓上說的很好，"法無明文不為過"。當然內部數據不能采，而且不能用於商業用途。

簡單看下這幾個：

以上可作為參考，還是那句話。你不能作為黑客行為入侵別人伺服器並收集數據。換句話說就是所有普通遊客身份進入後看得到的數據都是可以採集的。

________________________________________________________________________________

互聯網數據採集交易平台發源地 - 讓數據更有價值

QQ交流群：340431667（註明「來自知乎」）

希望本回答能解決樓主的問題。此回答節選自本人所寫的書《Python 網路爬蟲：從入門到實踐》第一章

從目前的情況來看，如果抓取的數據屬於個人使用或科研範疇，基本不存在問題; 而如果數據屬於商業盈利範疇，就要就事而論，有可能屬於違法行為，也有可能不違法。

網路爬蟲領域目前還屬於拓荒階段，雖然互聯網世界已經通過自身的協議建立起一定的道德規範(Robots 協議)，但法律部分還在建立和完善中。也就是說，現在這個領域暫時還是灰色地帶。

Robots 協議

Robots協議（也稱為爬蟲協議）的全稱是「網路爬蟲排除標準」（Robots Exclusion Protocol），網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。它是國際互聯網界通行的道德規範，雖然沒有寫入法律，但是每一個爬蟲都應該遵守這項協議。

下面以淘寶網的robots.txt為例：

這裡僅截取部分，查看完整可以訪問https://www.taobao.com/robots.txt

User-agent: Baiduspider #百度爬蟲引擎 Allow: /article #允許訪問/article.htm，/article/12345.com Allow: /oshtml Allow: /wenzhang Disallow: /product/ #禁止訪問/product/12345.com Disallow: / #禁止了訪問除Allow規定頁面的其他所有頁面

User-Agent: Googlebot #谷歌爬蟲引擎 Allow: /article Allow: /oshtml Allow: /product #允許訪問/product.htm，/product/12345.com Allow: /spu Allow: /dianpu Allow: /wenzhang Allow: /oversea Disallow: /

在上面的robots文件中，淘寶網對用戶代理為百度爬蟲引擎進行規定。

以」Allow」項的值開頭的URL 是允許robot訪問的。例如，」Allow: /article」允許百度爬蟲引擎訪問」/article.htm，/article/12345.com」等等。

以Disallow項為開頭的鏈接是不允許百度爬蟲引擎訪問的。例如，」Disallow: /product/」不允許百度爬蟲引擎訪問」/product/12345.com」等等。

最後一行，」Disallow: /」則禁止了百度爬蟲訪問除了」Allow」規定頁面的其他所有頁面。

因此，當你在百度搜索「淘寶」的時候，搜索結果下方的小字會出現：「由於該網站的robots.txt文件存在限制指令（限制搜索引擎抓取），系統無法提供該頁面的內容描述」。百度作為一個搜索引擎，良好地遵守了淘寶網的 robot.txt 協議，所以你是不能從百度上搜索到淘寶內部的產品信息的。

淘寶的Robots協議對谷歌爬蟲的待遇則不一樣，和百度爬蟲不同的是，它允許谷歌爬蟲爬取產品的頁面，」Allow: /product」。因此，當你在谷歌搜索「淘寶 iphone7」的時候，可以搜索到淘寶中的產品。

因此，當你爬取網站數據時，無論你是否僅僅拿來個人使用，都應該遵守robots協議。

2. 網路爬蟲的約束

除了上述的 Robot 協議之外，我們使用網路爬蟲的時候要對自己進行約束：過於快速或者頻密的網路爬蟲都會對伺服器產生巨大的壓力，網站可能封鎖你的IP，甚至採取進一步的法律行動。

各大互聯網巨頭也已經開始調集資源，限制爬蟲，保護真正用戶的流量和減少有價值數據的流失。

2007年，愛幫網利用垂直搜索技術獲取了大眾點評網上的商戶簡介和消費者點評，並且直接大量使用，於是大眾點評網多次要求愛幫停止使用大眾點評網的內容。而愛幫網則以自己是垂直搜索網站為由，拒絕停止抓取大眾點評網上的內容，並且質疑大眾點評網對這些內容所享有的著作權。為此，雙方開打了兩場官司。2011年1月，北京海淀法院做出判決：愛幫網侵犯大眾點評網著作權成立，愛幫網應當停止侵權並賠償大眾點評網經濟損失和訴訟必要支出。

2013年10月，百度訴360違反Robots協議，百度方面認為，360違反了Robots協議，擅自抓取、複製百度網站內容並生成快照向用戶提供。2014年08月07日，北京市第一中級人民法院作出一審判決，法院認為被告奇虎360的行為違反了《反不正當競爭法》相關規定，應賠償原告百度公司70萬元。

雖然說，大眾點評上的點評數據，百度知道的問答由用戶創建而非企業，但是搭建平台需要投入運營、技術和人力成本，那麼平台擁有對數據的所有權，使用權和分發權。

以上兩起敗訴告訴我們，在爬取網站的時候，需要限制自己的爬蟲，遵守Robots協議和約束網路爬蟲程序的速度；在使用數據的時候，必須要遵守網站的知識產權。如果違反了這些規定，很可能會吃官司，並且敗訴幾率相當高。

以上回答節選自本人所寫的書《Python 網路爬蟲：從入門到實踐》第一章：網路爬蟲合法嗎？

謝邀！

法無明文不為過，現在用爬蟲抓取數據的公司已經數不勝數啦！

只要這些數據是公開的數據，就不用太擔心法律法規的約束，至少很長一段時間還是這樣，現在大數據產業鏈發展的速度遠遠快於法律完善的程度。其實，即便有反爬機制，還是有更牛逼的技術爬取，關鍵是你爬取的這些數據別拿到明面來用，別人就不會找你麻煩。

爬蟲是用來批量獲得網頁上的公開信息的，也就是前端顯示的數據信息。因此，既然本身就是公開信息，其實就像瀏覽器一樣，瀏覽器解析並顯示了頁面內容，爬蟲也是一樣，只不過爬蟲會批量下載而已，所以是合法的。
　　不合法的情況就是配合爬蟲，利用黑客技術攻擊網站後台，竊取後台數據。比如用戶數據等。所以爬蟲本身是合法的，只是看具體使用在哪方面了。