個性化-前言
01-26
本文是接下來系列文章的前言,文字敘述較多,且分析可能不夠到位及全面,請大家多多包涵!
信息時代的信息爆炸
- 1.1?雙刃劍
????互聯網從web1.0到web3.0(圖一),正慢慢推動著人類社會的發展,顛覆著原有產業形態,信息量也急劇膨脹,我們正處於一個高速發展的信息時代。人們獲取信息的方式被拓寬,特別是近5年移動互聯網的推波助瀾,整個互聯網虛擬社會很快便從信息匱乏發展到了信息爆炸。一方面,人們享受著互聯網信息發展帶來的智能與便捷,如信息無線化,看書讀報查資料全部可以在互聯網上完成;如交易形態發生變化,從線下交易正逐步被線上交易侵蝕;如出行發生變化,從招手叫車變成了手機叫車等待;但另一方面,由於利益的存在,互聯網上也充斥著各種無用信息與資源,如詐騙廣告、低智、無知言論,流氓軟體橫行,散發出濃濃的惡臭,且這些垃圾佔據了很高的比例,將某些有價值的信息埋沒其中。web4.0時代,各大公司正開始逐漸從企業內部去改變這種形態,因為這樣才能最大程度促進企業自身的發展。
- 圖一
- 1.2?馬太效應與長尾理論 ????互聯網時代下的信息及內容分發機制存在嚴重的馬太效應,有者愈有,強者愈強;熱門商品越熱門,新商品很難發現。2/8現象再次出現,20%的內容收到了74%的用戶交互,而這背後的原因不是用戶不喜歡或者不感興趣,而是用戶可能根本沒有看到,長尾內容非常多,但利用率卻不高。
- 1.3?屠龍寶刀:大數據下的信息經濟與體驗經濟 ????解決信息過載,知識潰泛,時間有限的利器就是大數據技術。體驗經濟狂掃全球的根本原因,就是因為互聯網紅利的消失(圖二),企業盤外資源增速有限,大家都開始精耕細作盤內資源,最大競爭力正由精細化運營構建。信息經濟時代正慢慢滲透進物質經濟,並為體驗經濟做了非常好的鋪墊;而這兩個時代的主基調一定是建立在大數據的基礎之上的,特別是互聯網產業的崛起與發展,伴生著海量數據,催生了「大數據+機器學習」模式。企業數據的收集與積累,底層硬體與軟體的支持,數據的互通與融合,產生了1+1>2的強網路效應。大數據的邊際成本開始趨於零,數據成為DT時代最好的生產資料。
- 圖二
- 1.4?信息化-數據化-智能化 ????體驗經濟正推動著數據化/智能化的發展。 ????面對海量信息,該如何選擇呢?–選擇爆炸,選擇恐懼,選擇焦慮。信息需要過濾,如何從海量數據中快速挖掘用戶感興趣的產品,並將無用無趣無聊的三無信息剔除的訴求,推動了個性化內容分發技術(搜索與推薦)的發展。而個性化內容分發的信息篩選與呈現工作主要通過四步來完成: ???? 1. 收集用戶或群體的行為數據或搜索數據;???? 2. 尋找合適的機器學習演算法構建用戶的興趣模型;
???? 3. 通過構建的用戶興趣模型預測未來用戶的感興趣的產品和內容;
???? 4. 過濾低質商品和內容並呈現給用戶。???這是一個龐大的系統工程,整個過程需要根據業務經驗,依託產品形態,利用演算法從數據中挖掘各種信息,最終幫助用戶感知,而不強迫TA思考。這裡涉及了一個重要概念「機器學習」,我們這裡簡短闡述,機器學習的三大核心點: ????1.基於過去的事實和數據,用來發現趨勢和模式 ; ????2.機器學習模型提供了對於結果的洞察力,機器學習幫助揭示未來的一個結果的概率而不僅僅是過去發生的事情 ;????3.歷史的數據和統計建模被用於概率進行預測;
????4.傳統數據分析旨在回答關於過去的事實,機器學習的目的是回答關於未來事件的可能性的問題! - 1.5 本專欄的方向????本專欄未來是本人的一些工作經驗的分享總結,將主要介紹個性化內容分發的各個環節,但由於理論與實踐經驗有限,其中有較多聱牙詰曲的地方,望大家多多批評指正。
- 1.6?其它 ????互聯網產業包含眾多機器學習任務,那到底什麼是機器學習,請收看專欄文章: 什麼是機器學習 - 知乎專欄
????而推薦系統的台前與幕後又是怎樣的,請收看專欄文章: 什麼是推薦系統(個性化內容分發)? - 知乎專欄
????未來專欄預告,可能的關鍵詞:什麼樣的產品適合推薦,如何做一款好的推薦產品,演算法工程師的日常,視覺窄化,推薦需要解決的問題,推薦產品應用舉例,推薦架構,特徵工程,模型選擇,實時推薦,用戶畫像,推薦排序,自適應召回,模型融合,數據處理,黑天鵝,偽相關,」胖」數據,nlp,強化學習,深度學習等。
推薦閱讀:
※重新理解Bias和Variance
※XGBoost/GBDT相關blog推薦
※為什麼深度學習突然在改變你的生活
※Python3《機器學習實戰》學習筆記(三):決策樹實戰篇之為自己配個隱形眼鏡
※【西瓜書】周志華《機器學習》學習筆記與習題探討(三)②