AI產品經理如何面對數據挖掘
來自專欄 LL人工智慧產品經理數據挖掘
經過多年互聯網和移動互聯網的飛猛發展,科技網路產品發展到焦慮的時間節點。一方面流量成本高到幾乎沒有投入產出比可言。另外一方面產品和企業同質化競爭激烈。
接下來的趨勢有兩股同方向的產品力量,將是產品經理和企業產品創新的機會點:
第一是:利用PC和移動互聯網積累的大數據做打破數據孤島類的產品和數據挖掘,數據分析類的產品。
第二是:在大數據的肩旁上,深度結合業務供應鏈場景設計10倍於以往產品體驗的AI演算法產品、AI賦能的智能軟硬體產品。
本文分別先從AI產品需求發現階段、再從AI產品需求設計製造階段對數據挖掘的利用,然後落地到數據挖掘具體的案例解析。最後得出LineLian的AI產品大數據觀點。
一、數據挖掘用於AI產品需求發現
需求的發現是產品經理和企業產品創新取得成功的關鍵,數據信息在產品的創新設計與製造中發揮越來越重要的作用,充分利用數據挖掘技術從產品市場需求發現、需求設計中提取相應的需求,從而控制和改善下一代產品的設計與製造。
目前,AI賦能的智能軟硬體整體產品的研製周期長,市場反應能力弱,創新度不夠等一系列因素控制了產品製造企業的生存和發展,不論是萬億市值的蘋果還是國內的華為小米一年旗艦智能手機只有一款。這個現象背後正是因為AI賦能的軟硬一體產品在需求發現到產品設計上有其特殊性,關於特殊性筆者在《成為AI產品經理》一門課上有講述。
因此,如何在最短的時間內開發出質量高、價格能被用戶接受的AI產品,已成為產品經理市場競爭的焦點,數據挖掘技術已經成為分析和發現需求,提供決策十分有效的工具,而需求發現速度快起來後可以給需求設計製造更多時間,所以必將有力地支持AI產品的創新設計和製造過程。
數據挖掘(Data Mining,簡稱DM)就是從大量的、不完全的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和需求的過程。
根據產品發現需求的不同,數據挖掘的任務主要分為以下 6 類:
(1)關聯分析需求,揭示隱藏在數據之間相互關係的一項挖掘潛在需求的數據挖掘任務。
例子:「尿布與啤酒」的故事。在一家超市裡,有一個有趣的現象:尿布和啤酒竟然擺在一起出售。但是,這種奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發生在美國沃爾瑪超市的真實案例,並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統,為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物需求進行了深層分析,想了解顧客經常一起購買的商品都有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細的原始交易數據。在這些原始交易數據的基礎上,沃爾瑪利用關聯規則對這些數據進行分析和挖掘。得出了一個令人意外的發現:「跟尿布一起被購買最多的商品竟是啤酒!」經過大量實際調查和分析,揭示了一個隱藏在「尿布與啤酒」背後的美國人的一種需求模式:在美國,一些年輕的父親下班以後要經常到超市去買嬰兒尿布,而他們中有30%~40%的人同時也會為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班後為小孩買尿布,而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按照常規思維模式,尿布與啤酒風馬牛不相及,若不是藉助關聯規則進行挖掘和分析,沃爾瑪是不可能發現數據之間存在的這一有價值的需求。
以前企業的信息管理系統由於缺乏數據挖掘功能,最多只能統計一些數據,從表面上似乎合理,但實際上根本不能反映出本質的情況,例如,通過傳統的信息管理系統,我們得出某一種紅酒在超市的銷售額排名倒數第一位,按照以往的做法,該紅酒肯定會停止銷售,但是通過對所有銷售數據進行關聯分析,我們會發現消費額最高的客戶中有25%常常買這種紅酒,如果停止出售這種紅酒,必然會引起這些高端客戶的不滿。
關聯分析就是發現交易資料庫中不同商品之間的內在的聯繫,利用關聯規則找出顧客購買行為模式,如購買了某一商品對其它商品的影響。例如,它能發現資料庫中如「90%的顧客在一次購買活動中購買商品X的同時購買商品Y」之類的問題。發現這樣的規則可以應用於商品貨架設計、庫存安排以及根據購買模式對用戶進行需求分析等。
用於關聯規則發現的主要對象是事務型資料庫,其中針對的應用則是商品銷售數據。如果對這些歷史數據進行分析,則可以對顧客的購買行為提供極有價值的信息。例如,可以幫助商家如何擺放貨架上的商品,如何幫助商家規劃市場等。總之,從事務數據中發現關聯規則,對於改進商業活動的決策非常重要。
(2)序列發現需求,是指確定數據之間與時間相關的序列模式,利用該模式可對未來的相關行為進行預測。
例子:數據挖掘中序列發現的需求分析應用比如顧客購買行為分析、網路訪問模式的分析。對一家完善的大型零售企業來說,往往擁有固定會員。會員可以購買較低價格商品,享受更加優惠的售後服務等等。會員應是經常在某一家店鋪購物的消費者。因此經歷較長時間的會員其購物成為按時間的購物序列,而不同會員就可能存在相同的購物序列。比如兩個都喜歡購買新科技產品的會員,銷售記錄中就會記錄他們每次購買的科技產品,從而可以將個人的喜好推薦給另一個人,這也形成交叉銷售。
(3)聚類分析需求,是指依賴樣本間關聯的量度標準將其自動分成幾個群組,且使同一群組內的樣本相似,而屬於不同群組的樣本相異的一組方法。
例子:基於數據挖掘的聚類分析,可以藉助大數據的優勢,發現數據背後的需求。利用起點學院"成為AI產品經理"在線開放課程學習者的網路學習過程記錄,採用數據挖掘工具對網路學習者行為進行聚類分析,研究發現:根據學習特徵,網路學習者可以分為高沉浸性型、較高沉浸性型、中沉浸性型、低沉浸性型四種群體;學習行為與學習效果密切相關,沉浸性高的學習者學習效果往往較好。LineLian作為《成為AI產品經理》課程老師藉助技術工具,對學習者進行不斷更新、實時、循環的聚類分析,及時發現學習者的個體及群體學習特徵,因材施教,推送適應性的個性化服務,並給予及時的學習預警與恰當的教學干預。
(4)分類,是指找出一個類別的概念描述,它代表了這個類別數據的整體信息,一般用規則或決
策樹模式表示。
例子:分類發現需求,首先應該將分類與聚類分開。很多數據產品經理在學習數據方法之初,容易將聚類和分類搞混淆。其實聚類屬於無監督學習範疇(unsupervised learning),也可稱作觀察式學習過程,與分類不同,分類依賴已有既定的先驗知識。例如我們成年後,很清楚世界是由男人和女人組成的,所以我們在建廁所的時候,會把廁所分為男廁所和女廁所,這就是「分類」;而當我們剛生下來,我們並不知道什麼是男人,什麼是女人,通過後天對生活的觀察,我們發現有一類人他們有鬍子,而有一類人她們頭髮比較長(當然,我的這個舉例已經顯然不符合當今世界的發展了,你們明白就行),於是我們就把有鬍子的人分為 一類人,把長頭髮的分為另一類人,然後「研究」發現,原來有鬍子的叫男人,有長頭髮的叫女人,這個過程就是「聚類」。
(5)偏差檢測,就是從數據分析中發現某些異常情況是否重要,從而獲得有用的需求。
例子:一批數據中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數據的計算分析過程中,對結果會帶來不良影響;重視異常值的出現,分析其產生的原因,常常成為發現需求進而改進決策的契機。例如A君是機車愛好者騎摩托不帶安全帽,他會說他周圍的朋友都不帶安全帽,更刺激更能感受空氣觸感而且周圍朋友都很安全。相反某某著名機車選手帶了安全帽損失性命的例子。大數據挖掘樣本是基於從大樣本的數據來看,不帶安全帽騎機車比帶安全帽整體不安全。下論斷要從統計整體上來看。揪住一個異常需求沒有意義。數據產品經理知道這一點以後就可以在諸如非金融財產型產品需求里對某些異常需求可以緩一些解決。
(6)預測,就是利用歷史數據找出變化規律,建立模型,並用此模型來預測未來需求等。
例子:通過數挖得到預測的例子非常多,這裡從行業方面舉幾個例子,例如電力行業通過數挖到不同行業在未來對電力的不同,進而更好的做好對各個行業電力需求的供應。例如物流行業通過對庫存需求的挖掘調配貨運司機。例如新零售企業通過數挖準備商家和商品備貨等。
二、數據挖掘用於AI產品設計
在產品的設計與製造過程中,利用數據挖掘可得產品設計的創新,提高產品質量,加速產品的製造過程。
數據挖掘在AI產品設計與製造系統中的主要過程如下。
1、模式發現
在產品的設計和製造系統數據中隱含了重要的模式,比如購買次數較多的顧客特徵,對促銷感興趣的顧客特徵以及不購買顧客特徵等分析,數據挖掘就是對隱含在數據中模式的深度分析。
2、趨勢預測
數據挖掘不僅能夠提取靜態的模式,也能預測動態的發展趨勢,目前時間序列挖掘是一個研究的熱點,動態的趨勢能夠反映顧客興趣的改變,從而使企業對發展趨勢做出相應的市場決策。
3、數據的降維
數據的降維也叫做主成份分析,現代資料庫中包含了交易信息的特徵,不相關的數據條目和特徵可以從數據集中消除,數據降維的主要作用是選擇關鍵的數據進行分析。
4、可視化產品製造
數據可視化主要旨在藉助於圖表,圖,表格等形化手段,清晰有效地傳達與溝通信息。
根據AI產品全生命周期考慮,產品設計與開發過程可劃分為:產品需求分析(MRD)、概念設計(Featurelist設計)、詳細設計(PRD設計)、工藝設計、樣品試製、生產製造、銷售與售後服務等階段。每個階段和環節之間都存在著反饋和迭代過程,但其額度對不同設計類型有所不同 , 基於並行工程的AI產品設計與開發過程如下圖 :
因為AI產品是站在傳統產品肩旁上發展而來,尤其是基於移動互聯網的發展累積的大數據的基礎上而實現迅猛發展。故此僅針對上圖中的兩個跟傳統產品不同的點進行講解。
(第一):AI產品特別是軟硬一體產品一般是先進行上市及先用樣品上市看市場情況再進行批量製造。
這是AI產品製造的特點,傳統的商業模式為先製造,後銷售,再消費,企業為消費者提供產品,消費者則是被動的產品接受者。
但在AI賦能的時代背景下則呈現一種新型商業模式,即先個性化定製,再製造,後消費,用戶先提出個性化需求,企業再為用戶提供個性化服務,這樣可以極大地提高用戶的參與度,也能使得企業真正地去理解和思考用戶的需求。
(第二):AI產品是為了更好地滿足客戶的需要,進而贏得市場,增加企業的競爭力,因此,比如在市場分析中考慮客戶真正需要的產品特徵、產品的那些特徵最重要等,客戶需求最好能與設計規劃產品進行集成,另外,需求可以很好地幫助設計師採取適當的產品開發策略。開發出滿足客戶需要的AI產品。
AI時代工廠是智能製造的載體和集中體現,用戶可以直接從智能工廠的用戶交互定製平台定製產品,參與到產品的個性化定製過程中,全球任何地方的用戶都可以根據自己的個性喜好,自由選擇產品的款式,顏色和性能等,提交訂單直接下達到工廠"智能工廠可以實現用戶通過網路系統對定製生產的全流程實時互聯互通,掌握供應鏈情況,知曉製造進度,追蹤貨物交付。
在AI製造的生產方式下,產品設計流程的主要步驟是,需求,設計,銷售,生產,用戶希望通過定製平台自行設計或是選擇所需要的產品,不願接受沒有選擇性的設計方案。
這一過程可以實現的基礎在於三點:
一是用戶提出產品的設計需求,交由設計師來完成;
二是用戶根據設計師提供的產品設計方案,自行選擇以滿足設計需求;
三是對成型的設計產品進行選擇,獲取設計方案。
用戶通過企業的定製平台參與到產品的設計。生產和交付的全流程,通過對不同的產品模塊進行選擇與組合,構建出符合自己個性的特色產品,極大地簡化了AI產品的設計過程。
5、產品設計
產品設計是在有限的時空範圍內,在特定的物質條件下,為了滿足一定的需求而進行的一種創造性思維活動的實踐過程,設計具有創造性、複雜性和不確定性,其中包括分析、綜合和評價等過程,設計過程中的每一個行為都對應於這三維空間中的一個點,如下圖所示:
基於數據挖掘的全息AI產品概念設計框架,主要考慮產品數據與環境數據之間的相互作用,發現其中隱含的需求。
數據挖掘運用遺傳演算法、決策樹演算法在新產品開發中。要在產品設計中進行創新,就要對過去的設計經驗和數據信息進行總結、分解與組合,數據挖掘技術對設計知識的分析,有利於產品設計的創新,使之實現新的需求。
三、大數據挖掘方法案例解析
舉例子:京東數據挖掘系統設計實現的例子
產品經理或者產品運營人員提出需求,主要目的是獲取給定商鋪的url,通過系統分析,直接
將商鋪的商品信息,及評論中對商品評價的關鍵詞直接呈現給消費者,使消費者對商品信息一目了然,從而節約消費者大量時間。
技術人員需要根據上述需求進行如下操作步驟:
(1)、性能需求評估。
(2)、然後搭建開發環境例如:(Python3.0+Pycharm5.7+Redis4.0+Window10)。
(3)、資料庫設計:在技術進行資料庫設計的時候,產品經理最好配好技術人員進行表設計。例如這個案例中的商品抓取表和商品分析結果表。因為商品抓取記錄表中需要明確商品的欄位。同理商品分析結果表中的欄位和備註等。
(4)、數據爬取模塊設計。一般採用分散式抓取。
(5)、數據爬取模塊實現。
(6)、數據分析模塊實現,以百富帝純棉四件套商品為例,客戶只需輸入該商品的url,即可開始分析,該商品不同顏色購買數量關係。購買渠道佔比。購買用戶的等級分布。
至此數據數據挖掘完成,已將該商品的全部有用信息即商品評價"顏色銷量"購買時間"購買渠道和用戶等級分別展示給了用戶。
除了京東的例子外數據挖掘的例子還有如下
1、惡意軟體的智能檢測,在大數據時代下,在惡意軟體檢測中數據挖掘技術得到廣泛的應用。惡意軟體嚴重損害到網路和計算機,惡意軟體的檢查依賴於簽名資料庫(signature atabase,SD),通過SD,對文件進行比較和檢查,如果位元組數相等,則可疑文件將被識別為惡意文件。有些基於有標籤的惡意軟體檢測的主題,集中在一個模糊的環境下,進而,無法進行惡意軟體行為的動態修改,無法識別隱藏的惡意軟體。相反地,基於行為的惡意軟體檢測就可以找到惡意文件的真實行為。而如果採用基於數據挖掘技術的分類方法,就可以根據每個惡意軟體的特徵和行為進行檢測,從而檢測到惡意軟體的存在。
2、信用卡的違約預測
金融產品經理有很多創新性產品是圍繞著信用卡或者類信用卡類產品來做產品的。例如:花唄、京東白條等。在辦理這類信用卡之前,銀行或者企業首先需要對申請人進行細緻調查,根據申請人的實際情況判斷是否有能力來償還所貸金額,AI產品採用灰狼優化演算法計算神經網路的初始權值和閾值,一種改進的模糊神經網路的AI演算法,通過建立的信用卡客戶的違約預測模型,與目前其他的預測方法進行比較,得到較好的預測結果,進一步,驗證了模糊神經網路在信用卡客戶的預測上具有較好的魯棒性、準確性和高效性。採用有效的數據挖掘技術,針對信用卡類客戶屬性和消費行為的海量數據進行分析,可以更好的維護優質客戶,消除違約客戶的風險行為,為信用卡等金融業務價值的提升提供了技術上的保障。
3、AI醫療診斷
乳腺癌的診斷。乳腺腫瘤是女性惡性腫瘤中最常見的腫瘤,影響婦女的身體和精神健康,甚至威脅生命。20世紀以來,全世界範圍內乳腺癌的患病率均有所增加,特別是歐洲和北美地區,分別占歐洲和北美女性惡性腫瘤發病率的第一和第二位。目前,世界女性乳腺癌在癌症中的發病率最高,據美國疾病預防中心統計,早期乳腺癌的治癒率可高達97%,進展期的治癒率僅為40%。因此,越早發現乳腺癌,治癒效果越好,即「早發現,早治療」。
在大數據時代下,醫療方面的數據呈現出數量大、類型多、處理方法複雜等特點,數據挖掘技術對這些問題的處理起到了至關重要的作用。威斯康星大學醫院Wolberg提供的乳腺腫瘤分析結果顯示,乳腺腫瘤的特徵可以由9 個參數來表示。
針對疾病的智能診斷,數據挖掘具有4個應用角度:在醫院信息系統中的應用、在疾病助診斷中的應用、在藥物開發中的應用、在遺傳學方面的應用。
4、教育大數據的挖掘,前兩年,南京理工大學的「暖心飯卡工程」受到來自各界的關注。南京理工大學教育發展基金會工作人員對學生在日常生活中的數據進行了調查和數據的採集,該項調查涉及的共有16000餘名南京理工大學當前在校學習的本科生,採集的數據為在9月中旬至11月中旬期間學生的飯卡刷卡記錄,將每個月平均在食堂消費60次以上,消費總額不足420元的學生確立為補助對象,不需要學生申報,直接將補助打入學生的飯卡。這次針對學生生活行為的數據挖掘,不僅在教育大數據的基礎上實現了「精準扶貧」,而且對學生真正做到了「人文關懷」,體現出了數據的價值性。
四、大數據挖掘的數據獲取方法
大公司已經積累了大量的數據,目前是打通數據孤島和挖掘數據,然後分析和應用,而沒有數據的公司適合優先發力研究稀疏數據下的AI認知能力的開發。例如綠色AI的技術。通過稀疏數據小樣本和演算法的精妙設計而實現精準的需求判斷和高效的產品設計製造。
隨著AI賦能製造時代的到來,95後,00後,正在成為消費新主張的群體,他們對個性消費,智能消費,體驗消費越來越重視,消費終端的變化必然會帶來消費趨勢的顯著變化。
為了獲取消費者需求就需要運用數據挖掘。如何在保護消費者隱私要求越來越嚴謹同時自己公司又缺乏大數據的情況下進行數據獲取呢?方法如下:
(1)產品外部大數據分析
隨著大數據的急速膨脹,其對於企業越來越重要,現代企業需要具有大數據思維,對外界的相關大數據進行提取、存儲和分析,例如,卡夫食品公司通過大數據分析工具,對上億條社交網站帖子上的相關話題進行內容分析,研究得出顧客的主要關注點在於健康、素食和安全,通過分析研製,最後生產出全新的產品打開了孕婦消費者市場,創造了新的業績。
(2) 企業內部數據挖掘分析
可以對企業內部的客戶,產品資料庫進行整理分析,有效地分析客戶信息,產品信息以及行為數據,進而得到客戶的需求信息,也可以在公司網站或是APP上建立留言區,使得用戶對產品有任何的意見和建議都能發表在上面,進而企業可以獲取有價值的客戶信息,例如,企業可以利用內部網站數據分析,在活動前期預測本店熱銷產品,從而能確保產品的供應和物流的快速運轉。
(3)企業定製平台獲取(網站+移動終端)
企業可以開發產品定製的交互平台,用戶在企業的定製平台上可以瀏覽所需產品的外形信息和功能信息,可以根據個人喜好自由選擇產品的外觀和部件等,通過選定可以看到最終產品的展示效果圖,確定後提交個性化需求信息,企業還可以開設個性定製的智能門店,用戶通過產品導購介紹,根據自己喜好選擇不同零部件組合,和產品導購確定後,提交個性化定製訂單,這樣可以使企業能快速的響應客戶的個性需求,同時也讓客戶能參與到自己的產品定製設計過程中來。
五、LineLian的AI產品大數據觀
AI產品經理首先要有數據挖掘需求思維,然後在AI產品設計製造中鞏固對大數據的落地運用。並明白數據挖掘是數據分析最常用的手段。而在數據挖掘的過程中會有新的需求的發現。
人工智慧的構建基礎是大數據。在此基礎之上,才是自然語言演算法組件、知識圖譜組件與機器學習組件的演算法平台建設。AI時代的產品經理得先明白技術的原理,然後協同技術共同打造優秀的AI產品。未來是AI時代,AI是站在大數據的肩膀上的!
推薦閱讀:
※Datalore初體驗:JetBrains的雲端機器學習開發環境
※《Scikit-Learn與TensorFlow機器學習實用指南》第3章 分類
※世界盃預測,其實很簡單
※觀點:傳統機器學習尚處於因果層級底層,達成完備AI的7個工具
※張全蛋告訴你什麼是異常檢測(Anomaly Detection)