用爬蟲程序抓取其它公司用戶發布的內容,並發布在自己的平台,構成侵權嗎,是對誰的侵權?

以近期熱門的馬蜂窩事件為例,馬蜂窩疑似用爬蟲手段獲取了其它旅遊網站的點評並發布在自己的網站上。這種行為構成侵權嗎?

具體可能需要考慮兩個方面:

1 是否對真正發布點評的用戶構成著作權侵權?

2 是否對被爬取內容的網站構成侵權?據我的了解,大部分互聯網內容平台都通過用戶協議獲取了用戶發布內容的「非獨家使用權」,假設被爬取的網站也採取了這種形式,是否依然可以起訴馬蜂窩維權?

以上問題皆基於假設,不等於提問者聲稱馬蜂窩存在問題中提到的行為。


這個問題挺有意思的,可以深入思考一下。但至少我個人認為,爬內容是很難被追責的。

我首先思考的是,「真實用戶點評」無疑是一個點評平台的核心競爭力。抓取其他平台的點評直接複製到自己平台上,是否構成不正當競爭呢?

從《反不正當競爭法》的規定來看,涉及用戶評論的規定是第8條:

「經營者不得對其商品的性能、功能、質量、銷售狀況、用戶評價、曾獲榮譽等作虛假或者引人誤解的商業宣傳,欺騙、誤導消費者。」

從這個規定來看,爬內容不算。一是因為點評平台不是「經營者」,而是中介方。二是因為即便是爬來的內容,也不能說是虛假、引人誤解的內容。

那麼是否構成竊取其他平台的商業秘密呢?同樣是《反不正當競爭法》第9條:

「本法所稱的商業秘密,是指不為公眾所知悉、具有商業價值並經權利人採取相應保密措施的技術信息和經營信息。」

完蛋,平台上的評論都是完全公開的,不可能是保密信息。所以肯定也不算侵害商業秘密了。


那麼不正當競爭這條路走不通,知識產權的路走得通嗎?

知識產權分著作權、專利權、商標權。點評信息肯定不算專利或商標,頂多往著作權方向上去靠。

被爬的平台方沒法去告,因為文字是用戶寫下來的,著作權是用戶的。除非平台方在用戶協議里規定著作權歸自己而非用戶。我看了一下大眾點評的用戶規則,算是很努力在往這個方向上靠了,但即便是大眾點評,也不敢在用戶協議里直接說著作權歸平台,不然怕是要被噴死。

也給大家展示一下大眾點評法務的努力成果吧:

除法律特別規定或者政府明確要求外,在未取得本站書面明確許可前,任何單位或者個人不得將本網站的任何知識產權對象進行任何目的的使用,任何單位或個人不得以任何方式以任何文字對本站資料作全部和局部複製、轉載、引用和鏈接,任何單位或者個人不得以任何方式引誘、要求本網站註冊用戶或者第三方複製轉載本網站內容或者同意該單位或者個人複製轉載本網站內容,亦不得通過技術手段抓取本網站內容。任何註冊用戶將在本網站註冊用戶名和密碼提供給任何第三方用於許可其複製本站內容的,將構成對註冊協議的違反,並可能導致其賬戶被關閉或者處罰。

會員保證不會將已發表於本站的信息資料,以任何形式發布或授權其它網站(及媒體)使用。同時,在法律允許的範圍內,大眾點評網保留刪除站內各類不符合規定的點評信息或者其他任何信息而不通知會員的權利。

任何違反本站知識產權聲明的行為,本站保留追究其行為人法律責任的權利。

平台規則

那既然平台不方便去告,用戶可以去告嗎?可以是可以,但問題是用戶去告有什麼好處呢?即便索賠,也沒有辦法證明自己受損失具體是多少。

所以,從知識產權的角度來說,能告的沒動力去告,有動力去告的沒能力去告。


所以說吶,只要《反不正當競爭法》不升級迭代,這爬競品數據的行為法律就很難管咯。

如何評價馬蜂窩起訴深圳乎睿數據公司、丁子荃名譽侵權案獲立案??

www.zhihu.com圖標


在中國大陸定義成民事侵權比較困難。

網路平台上用戶發布的公開信息可以評價成財產性信息(Proprietary information)和公共信息(Public domain)。香港地區已經有判例承認了財產性信息值得保護,也就是說,如果你爬蟲這些信息,財產侵權的民事責任是跑不掉的。

但是,目前中國人大陸對商業信息的保護非常有限(甚至可以說是空白),只有經過嚴格定義的知識產權信息(比如商業秘密)才受到財產性信息的保護。

根據2017年底新修訂的《中華人民共和國反不正當競爭法》第十二條:

  經營者不得利用技術手段,通過影響用戶選擇或者其他方式,實施下列妨礙、破壞其他經營者合法提供的網路產品或者服務正常運行的行為:

  (一)未經其他經營者同意,在其合法提供的網路產品或者服務中,插入鏈接、強制進行目標跳轉;

  (二)誤導、欺騙、強迫用戶修改、關閉、卸載其他經營者合法提供的網路產品或者服務;

  (三)惡意對其他經營者合法提供的網路產品或者服務實施不兼容;

  (四)其他妨礙、破壞其他經營者合法提供的網路產品或者服務正常運行的行為。

可見用爬蟲抓取平台公開信息只能勉強定義到一個兜底條款,具體如何認定就看受理法院的裁判了。


侵權的問題最高贊的倪律師已經指出,評論的著作權並不是發布平台所有,所以還需原作者親力親為。

但我對其中「不正當競爭這條路走不通」,還是有些個人看法,不是法律人,說錯勿噴。

爬蟲究竟是合法還是違法的??

www.zhihu.com圖標

根據上面這個問題里法律人士引出的一些案例,我總結出一點:

對於公開訪問的數據,通過爬蟲大量採集,不管是否違反 robots 協議,造成明顯的不正當競爭,就可能會違法。

大眾點評也不是首次遇到這種事,2014年曾因百度地圖大量引用大眾點評的評論未署名來源,起訴百度索賠9000萬,最後法院判大眾點評勝訴,雖然賠償只有300萬,但百度地圖現在評論都標註了來源於大眾點評。

大眾點評向百度索賠9000萬 法院判賠300萬?

news.163.com圖標

這一案里,法院就明確指出是因為百度大量「未經許可使用他人勞動成果」(即大眾點評的評論),並且超出了「相對合理的範圍」,從而認定百度為構成不正當競爭。

上海知產法院認定,大眾點評網上用戶評論信息是漢濤公司付出大量資源所獲取的,且具有很高的經濟價值,這些信息是漢濤公司的勞動成果,百度未經許可在百度地圖和百度知道產品中進行大量使用,這種行為本質上屬於「未經許可使用他人勞動成果」。

二審判決書指出,對於未經許可使用或利用他人勞動成果的行為,不能當然地認定為構成反不正當競爭法意義上的「搭便車」和「不勞而獲」,這是因為「模仿自由」,以及使用或利用不受法定權利保護的信息是基本的公共政策,也是一切技術和商業模式創新的基礎,否則將在事實上設定了一個「勞動成果權」。但是,隨著信息技術產業和互聯網產業的發展,尤其是在「大數據」時代的背景下,信息所具有的價值超越以往任何時期,愈來愈多的市場主體投入巨資收集、整理和挖掘信息,如果不加節制地允許市場主體任意地使用或利用他人通過巨大投入所獲取的信息,將不利於鼓勵商業投入、產業創新和誠實經營,最終損害健康的競爭機制,因此,市場主體在使用他人所獲取的信息時,仍然要遵循公認的商業道德,在相對合理的範圍內使用。

馬蜂窩事件和百度事件很類似,但也有明顯的區別:

百度是把評論鏡像過來,保留了評論者的用戶名和頭像,只是沒有標明來源;

而馬蜂窩是通過馬甲號複製內容,我認為應該比百度案的行為更加嚴重。

我現在只等一手大眾點評的起訴,再為爬蟲界提供一個典型案例。


突然想到一個維權途徑,就像倪律師講的那樣,從著作權角度入手來干。

既然用戶本人沒能力去告,那就授權平台來干這事兒好了。

點評分幾步走:

  1. 寫爬蟲爬取涉嫌侵權網站的點評內容。
  2. 與自身平台的點評進行模糊比對。
  3. 通過站內信或者彈窗的形式聯繫被侵權較多的用戶,取得授權。
  4. 告他娘的

一般來說會被侵權較多的用戶都是活躍用戶,取得這些用戶的授權甚至不一定需要付費,只用跟合作商家打折,或者給個社區特權或者用戶勳章很多人就願意了。

起訴的最主要目一方面是幫自己用戶維權,能夠凝聚用戶;另一方面更重要的是要維護自己在行業內的霸權地位啊。

所以一個企業要維護自己行業霸主的地位一定要有個給力的法務部!!!

(企鵝打了個噴嚏)


主要還是看你對別人的業務造成了影響沒有,一般情況下,其他公司不高你都是沒事的。

通常爬蟲抓取的是公開信息,那什麼叫公開信息,什麼又叫後台信息呢?

公開信息有兩層含義,一是面向大眾的公開信息,一是面向個人的公開信息。

面向大眾的公開信息是指那些你不需要登錄就能瀏覽的信息,比如知乎、京東的產品、微博的部分頁面、攜程網的酒店頁面等。

面向個人的公開信息是指你作為某些App的用戶,需要登錄自己的賬號才能看到的信息,比如一些相親網,需要你登錄後才能查看別人的公開信息。

後台信息又是指什麼呢?

後台信息指的是,App服務提供商才能看到的信息。拿知乎和微博為例,某些後台信息如用戶的身份信息、姓名、身份證號、app的用戶總量、日活躍數、某個頁面的UV(瀏覽量)、PV(點擊量)等。這類信息通常是程序的開發者或數據維護者才有權看到。

爬蟲抓取的通常是公開信息,即用戶有權看到的信息。如果在未經服務提供商允許的情況下獲取了別人的後台信息,就是違法犯罪,這叫「脫褲」

站在技術角度講,爬蟲很多時候是被大眾誤解了。很多人不由自主地就把爬蟲和後台信息聯繫到了一起,更何況,現在還是一個信息安全得不到保障的時代。

所以,也可以理解,很多人覺得爬蟲不是什麼好東西,因為誤解從一開始就產生了。

就像前些天鬧得沸沸揚揚的程序員捅了「馬蜂窩」事件。馬蜂窩是一個類似於攜程和去哪兒的旅遊App。

幾個程序員用爬蟲抓取了它的一些UGC相關信息(大多是用戶評論),然而發現它的部分評論是「山寨」的,或是從別處爬來的,或是自己生成的。

看網上的輿論呢,是程序員一邊倒地支持扒出馬蜂窩造假的那幾個程序員,而其他民眾基本是吃瓜,說啥的都有。

據說,馬蜂窩還要告這幾個程序員。不過告啥呢?如果是告他們抓取數據,可是自己的數據也是從別處抓過來的呀。如果是告誹謗,數據擺在那裡,又是實錘。看來,這肚子氣只能憋回去了。

其實要說數據造假,恐怕少有App敢站出來說自己沒造過假,行業內都是你爬我的數據,我爬你的數據,大家也都心知肚明。

這次馬蜂窩是吃了虧了,不過也怨自己,因為它宣揚的就是自己的用戶量和數據真實性,這次被打臉了也沒法還手。

並不是抓取公開信息就是合理合法和不受管制的,只是現在還沒有明文規定去管這一塊。如果真的哪天程序員寫爬蟲觸及到了別人的利益,還是很有可能惹禍上身的。

之前也有過案例,「車來了」的五名程序員爬取實時公交數據,進行不正當競爭,被關進了監獄。

技術無罪,就看你如何使用,即使是公開信息也不見得能爬取。在文章開頭,我們提到過搜索引擎也是一個大型的爬蟲,如果一些網站不想被搜索引擎收錄或者抓取,它就可以通過某種協議來告知搜索引擎,你不要來抓取我了。

就如下圖,通過百度搜索淘寶會發現淘寶網相關的網站底下寫了這麼句話:「由於該網站的robots.txt文件存在限制指令...」,這句話的意思就是,百度無權抓取淘寶網內部的數據,所以你很少在百度上直接搜索到淘寶上的商品。

互聯網上充斥著各種各樣的協議,也正是因為有這些協議的存在,互聯網才能這樣有條不紊地運行。

robot.txt 文件你也可以理解為協議的一種形式,只要對方網站的robot.txt文件中標明了自己不願被抓取,那麼強行抓取,可能就會造成侵權。

以上內容截選自我的專欄文章:

二胖:爬蟲,可能被大家誤解了。?

zhuanlan.zhihu.com圖標

如果感興趣,可以看看,簡單的介紹了一下爬蟲。


推薦閱讀:

TAG:互聯網 | 法律 | 數據 | 侵權 | 爬蟲計算機網路 |