大數據-基於Spark的機器學習-智能客戶系統項目實戰

項目背景:

1、現在很多平台客戶關係管理系統都是使用傳統的CRM,所有的信息全靠手工錄入,用戶尋找上下游企業或者信息只能靠手工去查找並且標註。

2、大數據時代的到來,人工智慧,雲計算,先進的分析,用機器去替代人工的部分,從 2016 年趨勢看,機器學習和人工智慧 (AI) 將在未來幾年內將會徹底改變 CRM。

因此我們對CRM進行了改造,主要有如下部分:

1、企業信息、商品信息來自互聯網,機器學習去自動統計分析並且分類。

2、用戶錄入的商品信息和新從互聯網爬來的商品信息全部通過機器學習計算的模型去分類。

3、機器學習自動計算企業和供求信息上下游。

4、機器學習每隔一段時間自動去優化計算模型。

根據圖識,項目將分為三個部分。整個項目基本思路是如何通過爬蟲爬取大量數據放到Hbase,然後通過ETL工具初步轉化篩選將數據存到mongodb,抽取mongodb的數據進行清洗處理算出模型放到hdfs。後續進來數據通過模型運算出數據的類型。項目系統主要包括前端+後端+機器學習,前端採用React Native,Native,後端採用Dubbo+Spring+java,機器學習採用Spark進行實現,本項目機器學習-spark代碼運行在mesos上。

本課程我們只針對以上圖示的淺藍色部分內容(即與機器學習相關的內容),通過用真實的智能客戶項目系統作為案例(案例附帶源碼,可以直接做二次開發),主要根據項目實例穿講機器學習以及相關知識,包括有:數據提取,數據清洗以及分詞,數據特徵值提取、機器學習模型計算、數據分類等等,進行詳細講解。

本課程所需掌握的技術:java、scala、IK、Hdfs、Spark ml、Spark Streaming、Spark SQL、Kafka、Zookeeper、Mongodb、Spring-Data-Mongodb,由於每個技術需要掌握的程度不一樣,對於我們用到的一些開源技術,課程中將會是簡單介紹如何使用,不會著重講解。課程重點講解spark ml、spark Streaming,以及如何使用這些技術進行項目的實戰,貫穿項目系統並且最後串聯所有技術。spark基於2.0.1版本講解

來源:大數據-基於Spark的機器學習-智能客戶系統項目實戰

推薦閱讀:

大數據計數原理1+0=1這你都不會算(四)No.52
數據嗨客 | 第10期:模型選擇與評價
我們每天面對的屏幕正悄悄改變世界
大數據跨界,從這裡開始
Hadoop如何處理?如何增強Hadoop 安全?

TAG:大數據 | 機器學習 | Spark |