談談大數據公司到底是如何「坑」進局子里喝茶的
公安部最近披露消息:自今年3月公安部部署開展打擊整治黑客攻擊破壞和網路侵犯公民個人信息犯罪專項行動以來,截至目前,全國共偵破侵犯公民個人信息案件和黑客攻擊破壞案件1800餘起,抓獲犯罪嫌疑人4800餘名,查獲各類公民個人信息500多億條。
是的,你沒看錯,500億條數據,平均分給全國人民13.79億可以每個人分36.25條……
喵了個咪的,又不是錢,分這個有啥用……簡單來說就是平均每個人可以泄露36個維度的數據……當然實際情況肯定不是這樣的,畢竟500億也沒說有多少重複的,也沒說數據維度。但是可以看出來情況已經比較嚴峻了。
讓我們看看今年近期的時間軸:
- 2016年11月,《中華人民共和國網路安全法》發布
- 2017年2月,央視記者報道:《網上『黑市』個人信息隨意買賣 查身份信息只需提供手機號》
- 2017年5月,清理行動開始,部分公司開始被調查和約談,「傳說」15家公司被調查
- 2017年5月24日,公安部發布公告:《公安部指揮破獲「2·17」侵犯公民個人信息案》
- 2017年5月26日,一本財經就得到消息,去數據堂諮詢公司是否被調查
- 2017年6月,《中華人民共和國網路安全法》正式實行
- 2017年6月-7月,一些媒體記者獲悉,調查的公司數量從15家增加至30家
- 2017年7月27日,中央網信辦、工信部、公安部、國家標準委四部門聯合啟動個人信息保護隱私條款專項工作
- 2017年8月,數據堂發布股票停牌公告
- 2017年9月,聯通大數據公司成立(稀有資源數據崛起)
各類公司在5月底開始停止各種數據服務,可靠或不可靠的網路消息有這些:
- 華道徵信——暫停不良信息、資產類的查詢服務;
- 同盾——停止「失聯人修復」服務;
- 中移在線——停止「移動三要素」的查詢服務;
- 學歷、戶口、車輛、住房、公積金等查詢服務和各種介面大量關停;
- 各類數據平台均暫停、下架、禁止查詢隱私類、部分電商類、版權類數據。
什麼原因造成這樣的結果呢?其實只要對數據圈子有一些了解的人都很清楚,就是因為數據被沒有遠見的人給「玩爛了」。很多人會說,這不是很多估值達到10、20個億的公司的人琢磨出來的商業模式么?怎麼會沒有遠見,你個傻兔子自己瞎說的吧……對此我只能說,這就是群體沉默帶來的結果,所有人都看到了這個泡沫,但是說出來的人被其他人無視或者壓制了,於是大家看著這個明顯的事實,沒人說話了。但是不說的東西,總會爆發的,一次又一次的案件,就把這個泡沫推向了爆破點,比如徐玉玉案。
徐玉玉案,又稱徐玉玉詐騙案、徐玉玉電信詐騙案、徐玉玉事件,是一起發生在中國山東臨沂的電信詐騙案件,被騙人徐玉玉被騙後心臟驟停,最終搶救無效死亡。案發後,公安部門成立專案組,對該案進行全面調查。8月26日,公安部表示對該案高度重視,並查明此案為六名犯罪嫌疑人所為。8月26日,福建公安機關將嫌犯陳福地、鄭金鋒抓獲,廣東公安機關將嫌犯黃進春抓獲;其餘嫌犯陳文輝、熊超、鄭賢聰在逃,公安部發布A級通緝令公開通緝。8月27日,隨著最後一名嫌犯鄭賢聰投案自首,該案全部涉案嫌疑人悉數到案。
這些案件,其實暴露出了一個明顯的產業,也就是大家說的「數據黑產」。按照「兩高」司法解釋,非法獲取、出售個人財產信息超過50條即可入刑。很多打著大數據帽子的公司,其實就是在掛著羊頭賣狗肉的做灰色產業。
大數據風控公司是對銀行和金融系統風控的一種補充和支持,出發點本身是好的,也有一批風頭正勁的公司,比如百融、同盾科技、集奧聚合、聚信立、量化派等。但是這裡有一個悲哀的地方,就是風控模型的建立,一定會基於大量用戶數據……不管是隱私的,還是非隱私的。本質上來說一定會侵犯用戶的隱私權,這是行業無可奈何地地方。但是好公司會有良好的體系盡量暴漲數據的隱私性、安全性、不可竊取性;不好的公司嘛,有錢能使鬼推磨……
數據獲取渠道很多,網路爬蟲、API對接、埋點採集、購買、黑客手段(拖庫、裝庫、SQL注入、APP軟體「加料」等)。越是網路公開數據,越是低價值數據,越不容易獲得的信息(需要通過背景人脈、錢才能獲得),就越有價值,而且為了避免高價值數據被二次傳播,一般都會將數據清洗(建模、BI可視化),輸出非原始數據或直接輸出報告給下家。
然而很多小公司,在錢是第一位的人性本貪婪的驅使下,就不管這些了,對他們來說,反正能掙多少算多少。於是數據就泛濫了,泛濫到什麼境界?曾經有一天有30多家小公司跑來問我有沒有電話號碼數據出售,這還不算個人來問我的(通常都是市場營銷人員或者公關人員),最後給我煩的乾脆拉黑。
我和別的很能寫文章的「老濕」不一樣,我不喜歡寫長篇……所以趕快進入我的結論吧。
那就是:
- 擺脫數據鏈條的前面低級且低價值的部分,在數據鏈條的後面苦下功夫,一邊深挖行業落地,另一邊提高技術壁壘;
- 我不認為數據交易中心是遠景,我認為這只是過度產物,遠景是數據服務交易中心,交易的東西不是數據,而是服務(採集服務、清洗服務、可視化服務、建模服務等)。
最近畫了一個數據產業鏈的分析圖,雖然只是一個簡單的圖,但是每個細節部分都可以極大地擴展。比如:
- 數據建模是數據處理部分的具體應用(即數據挖掘),建模需要根據行業深挖才能實現真正的落地;
- 數據清洗過程也是必須要符合行業內部流程和情況才能有效;
- 人工智慧一定會在數據行業有真正的應用,目前語義識別和圖像識別已經開始逐步落地並顯現出明顯的技術壁壘;
- 等等。
以前大多數時候公司只是要求數據採集快-全-准-穩,但是隨著公司對數據的應用層級的提高,對數據處理的需求和要求變成了真正的壁壘,這個壁壘不管是對服務能力還是技術能力上都有了更高的要求。在一個有前景的行業里做深挖,引爆一個亮點,再逐步擴展才能做到落地,也才能做好數據產業。
也許,我們真該反思自己了,我們不該叫大數據公司,因為太多的大數據大家都知道是虛偽的。也許也不該叫數據極客了,因為真正的極客太少太牛了。我自己只是茫茫IT苦逼男里的一個數據愛好者,我是「數據玩家」。(雖然玩的不夠好)
最近我主要研究數據鏈條的尾端部分,也就是數據的具體應用,包括公安、電商打假、網路取證、版權保護等等。歡迎這方面感興趣的網友交流。
數據交流QQ群:462346024
我的博客:www.geekerlee.com
推薦閱讀:
※AI技術講座精選:機器學習梯度下降演算法(包括其變式演算法)簡介
※大數據工程師需要學習哪些?
※大數據分析課程計劃
※「這一夜,數據死了」——總統大選給數字時代的一堂課