數據挖掘到什麼地步是違法的?

最近在學習數據挖掘,不了解 關於大數據時代的法律條文 。
什麼情況 做到哪裡,會觸碰法律條文和社會規則。


風險最高的就是涉及到個人信息這塊。

首先,一旦個人信息的來源有問題,如未經合法程序獲取個人信息,則可能直接違反《刑法》,今年6月左右據傳幾個大數據公司高管出事,據說就是因為非法獲取個人信息,另外如果未經許可抓取第三方數據,也有訴訟的法律風險,比如年初新浪微博與脈脈之間的案子,關鍵在於用戶的同意;

其次,個人信息的關鍵是可以「識別」到個人,對於原本一些非個人信息,一旦在挖掘的過程中出現可以識別到個人的程度,就需要承擔個人信息保護的一系列義務,而且還有隱私的問題,這也是一個風險所在;

再次,利用方面,以大眾點評與百度的案子為例(也是這兩個月的),百度在利用從大眾點評數據時,會導致用戶不再需要訪問大眾點評的網站(百度完全複製了點評信息),這樣的話有不正當競爭的風險,所有需要不侵犯數據來源商業利益。

條文的話主要看看《網路安全法》裡面個人信息保護的條款以及《最高人民法院、最高人民檢察院關於辦理侵犯公民個人信息刑事案件適用法律若干問題的解釋》就差不多了。


一個網路安全的多年從業者來試著回答一下這個問題

我從我熟悉的領域出發,首先三級等保的目的性是什麼?簡單說就是三部,所謂安全防護就是

「進不來」,「出不去」,「帶不走」,這是三個遞進式約束。

那麼,數據挖掘也可以套用,我個人總結就是

「挖掘到」,「脫敏使用」,「移花接木」

「挖掘到」,這個就不多說了,市面上的大數據公司多如牛毛,所謂的隱私是不存在的,公安部的指向性大資料庫是不對外的,但是99%的個人信息是完全可以通過公網信息進行數據碰撞得到的。

「脫敏使用」,所謂「脫敏」,就是規避掉敏感信息使用,「敏感信息」就是直接指向性信息,例如「手機號,身份證號」等,為什麼要談「脫敏」,因為你的獲取渠道一般是包含「敏感信息的」,比如商用常見通過探針收集數據的方式,在你手機接入免費wifi時候或者連接4g網路的時候,走在商用探針覆蓋範圍內,商用探針會截獲你手機的mac地址或者手機號,手機號有實名認證,和後台接入的大資料庫做數據碰可以獲取你的上網行為,消費習慣,偏好,從而有針對性的做出促銷,但是進行到這一步,商家還是不能直接給你發送推送信息。

「移花接木」,這個是最關鍵的一步,也是最容易讓人忽略的一步,當你接入免費wifi的時候,請注意下面有一個已經挑√的小方塊,後面寫著「我已閱讀並同意xxx」,並有些會讓你強制關注公眾號或者註冊會員,然後你就會收到商場的各種活動與推送信息了,這個可是通過你授權商家才推送的哦。

寫在最後:

技術是死的,人是活的,擦邊球的方法太多,舉不勝舉,法律是道德的底線,手中的技術也是雙刃劍,去年有人把定位技術賣給高利貸公司,造成了一幕幕慘案,所以人最終要面對的是自己的良心,這道題的選擇不是「技術與「法律」」,而是「利益」與「良心」

一切祝好

over


單純就「數據挖掘」而言,暫時還沒有成型的法律法規對這塊做約束,換句話說,無論你挖掘到什麼深度,就數據挖掘本身而言暫時都還沒有觸發法律的事實以及並不需要承擔任何責任。因此,你可以放心大膽的做數據挖掘工作。

但是,對於整個大數據時代而言,有一些是涉及到數據工作相關的,而非僅僅是圍繞數據挖掘的。主要有:

對於任何國家單位、事業單位尤其是國有控股相關企業,如果你在這裡企業內服務或第三方進入服務,那麼一般情況下,任何數據都不能以任何形式拷貝、留存、傳播以及在公開場合討論,例如複印、拍照、網上發帖、發朋友圈等。這是涉及到國家機密層面的信息,是敏感的。如果觸發這一個紅線,是要負相關法律責任的。當然,如果你從事相關服務,也會簽訂保密協議的。(即使不簽訂,你也要注意)。之前我們做國家電網的項目,就有同事泄露過PPT信息,結果非常嚴重。

對於一般經營企業來講,跟基本原則或數據會涉及到的法律或邊界主要是數據安全(也是不能任何傳播)、數據損壞(例如之前很多公司的DBA刪數據的事情)、數據入侵(老生常談的問題)等。例如:

  • 不能私自備份企業數據
  • 不能以任何形式植入相關破壞程序
  • 不能拿公司數據以任何形式提供給第三方
  • 不能將公司相關信息(尤其是涉及到核心競爭力的數據)泄露給第三方

另一個就是用戶隱私侵害了,依照我國現行法律規定,公民個人隱私受到侵犯,可以直接向人民法院起訴,要求司法機關保護自己的民事權利。這個暫時在中國還不太關注,知道就好。


網路安全法、刑法侵犯公民個人信息罪,規定了侵犯公民個人信息行為都違法犯罪行為。

「公民個人信息」包括姓名、身份證件號碼、通信通訊聯繫方式、住址、賬號密碼、財產狀況、行蹤軌跡等。

日過挖掘這些信息,有可能構成犯罪。


我覺得是挖到社會主義牆角的地步是違法的。


我父母在聽說「神經網路」(準確地說,也就是人工神經網路)這個熱詞之後興奮地對我說,你是學醫的,你這方面擅長!

現有答案只有 @王小強 明確地解釋了數據挖掘的含義,其他答案望文生義就開始強答。

數據挖掘是從已有的數據中發現先前沒有注意到的、難以察覺或發現成本很高的見解、信息,和數據收集、數據預處理、結果解釋和撰寫報告沒有關係。和強拆隱私大門,刨出你的秘密,還把數據七零八落公開暴露的「挖掘」字面聯想出的含義都完全不搭邊!

如果提問者的數據挖掘課程進行到一定程度都還沒有發現數據挖掘的定義,還是找一個更好的課程提供者吧。


網路安全法

不管營利不營利,只要不受被收集者同意,你就違法了。並且有相應處罰到個人。

網路營運者指各種藉由網路提供服務的企業或個人。

另外,網路安全法有一系列相關法律與執行細則,會在2017年底與2018年逐步實施。如數據安全管理法、大數據服務安全能力要求、數據安全能力成熟度模型。

列出網路安全法相關條文如下:

第四十條 網路運營者應當對其收集的用戶信息嚴格保密,並建立健全用戶信息保護制度。

第四十一條 網路運營者收集、使用個人信息,應當遵循合法、正當、必要的原則,公開收集、使用規則,明示收集、使用信息的目的、方式和範圍,並經被收集者同意。

網路運營者不得收集與其提供的服務無關的個人信息,不得違反法律、行政法規的規定和雙方的約定收集、使用個人信息,並應當依照法律、行政法規的規定和與用戶的約定,處理其保存的個人信息。

第四十二條 網路運營者不得泄露、篡改、毀損其收集的個人信息;未經被收集者同意,不得向他人提供個人信息。但是,經過處理無法識別特定個人且不能復原的除外

網路運營者應當採取技術措施和其他必要措施,確保其收集的個人信息安全,防止信息泄露、毀損、丟失。在發生或者可能發生個人信息泄露、毀損、丟失的情況時,應當立即採取補救措施,按照規定及時告知用戶並向有關主管部門報告。

第四十三條 個人發現網路運營者違反法律、行政法規的規定或者雙方的約定收集、使用其個人信息的,有權要求網路運營者刪除其個人信息;發現網路運營者收集、存儲的其個人信息有錯誤的,有權要求網路運營者予以更正。網路運營者應當採取措施予以刪除或者更正。

第四十四條 任何個人和組織不得竊取或者以其他非法方式獲取個人信息,不得非法出售或者非法向他人提供個人信息。

第四十五條 依法負有網路安全監督管理職責的部門及其工作人員,必須對在履行職責中知悉的個人信息、隱私和商業秘密嚴格保密,不得泄露、出售或者非法向他人提供。

第四十六條 任何個人和組織應當對其使用網路的行為負責,不得設立用於實施詐騙,傳授犯罪方法,製作或者銷售違禁物品、管制物品等違法犯罪活動的網站、通訊群組,不得利用網路發布涉及實施詐騙,製作或者銷售違禁物品、管制物品以及其他違法犯罪活動的信息。

第四十七條 網路運營者應當加強對其用戶發布的信息的管理,發現法律、行政法規禁止發布或者傳輸的信息的,應當立即停止傳輸該信息,採取消除等處置措施,防止信息擴散,保存有關記錄,並向有關主管部門報告。

第六十四條 網路運營者、網路產品或者服務的提供者違反本法第二十二條第三款、第四十一條至第四十三條規定,侵害個人信息依法得到保護的權利的,由有關主管部門責令改正,可以根據情節單處或者並處警告、沒收違法所得、處違法所得一倍以上十倍以下罰款,沒有違法所得的,處一百萬元以下罰款,對直接負責的主管人員和其他直接責任人員處一萬元以上十萬元以下罰款;情節嚴重的,並可以責令暫停相關業務、停業整頓、關閉網站、吊銷相關業務許可證或者吊銷營業執照。

違反本法第四十四條規定,竊取或者以其他非法方式獲取、非法出售或者非法向他人提供個人信息,尚不構成犯罪的,由公安機關沒收違法所得,並處違法所得一倍以上十倍以下罰款,沒有違法所得的,處一百萬元以下罰款。


啊哈哈哈哈,數據挖掘不是挖數據,是獲取數據中有用的信息。所以永遠不會違法。違法的是數據的來源,獲取數據的手段。要是做爬蟲,這就是個問題。


最近在學習蒙策爾特(Munzert,S.)的《基於R語言的自動數據收集:網路抓取和文本挖掘實用指南》,裡面9.3.3有討論數據爬取的行為禮儀,不過我還沒看到之里 先貼張書里的插圖,日後有什麼想法再回來說說。

圖9-10 網路抓取的禮儀手冊可能我回來的時候這裡已經有大神回答得很好了(●—●)


敏感數據不暴露或者脫敏數據就沒違法可能


什麼叫挖到什麼地步,數據挖掘本身都是基於公開信息進行操作的。就算有些公開信息具有敏感性,你挖出來了,只要你不用它干點啥,誰會管你怎麼挖。。。數據挖掘,你以為是挖礦,盜墓呢。。。


比如:
挖掘某些敏感數據到引起國家注意的地步,即使沒有明文法條,也要被特殊照顧了。

公開渠道能搜集到的數據也不都是可以隨意使用的,比如公民私人信息,比如因為企業疏忽或者企業網站漏洞而泄露的內部信息。


數據挖掘是基於公開數據的情況下,怎麼挖都不會觸犯法律。


中國的立法議會是人民代表大會,區人民代表大會、市人民代表大會、省全國人民代表大會,因為各種原因,跟國外的立法議員經常天天上班不同,很多人大代表每年開幾次會,所以我們的立法速度跟不上社會發展速度,立法機關都是等問題嚴重了才開始立法,或者反過來說,一些現實嚴重的問題,都還沒立法完成,何況還沒有大面積浮現的問題。

社會變化包括技術上的,比如大數據、人工智慧,這些都會實打實影響我們的生活,但目前都處於無法可依狀態,因為這些還算未來式,眼下很多更迫切的立法任務還沒完成。

所以很多事情在中國可以幹了再說,第一批發財了,第二批跟進被拉去槍斃。


推薦閱讀:

大數據時代,個人信息保護法律制度還有研究價值嗎?
如何看待蘋果中國員工非法獲取 iPhone 用戶信息並出售,涉案金額達 5000 萬元?
「我已認真閱讀並同意……」究竟有怎樣的法律效用?
老虎證券需要什麼互聯網資質嗎?
馬伯里訴麥迪遜案能產生的憲法學啟示有哪些?

TAG:法律 | 數據分析 | 個人隱私 | 大數據 |