個人永久性免費-Excel催化劑功能第15波-接入AI人工智慧NLP自然語言處理
上回提到現在是概念化時代,馬雲爸爸們天天演講各樣的概念,IT世界也在講ABC時代(A-AI人工智慧,B-BigData大數據,C-Cloud Computing雲計算),在2017年,大把大佬們都大談特談人工智慧,天貓精靈、小愛同學等智能音箱也走進我們生活了。今天告訴大家一個大好消息,連玩Excel的同學們也可以大談特談AI了人工智慧,Excel催化劑把整套AI引進來,大家可以在Excel上開心地玩耍起許多過去想都不敢想的事情,對非結構化的數據進行結構化分析。
文章出處說明
原文在簡書上發表,再同步到Excel催化劑微信公眾號或其他平台上,文章後續有修改和更新將在簡書上操作, 其他平台不作同步修改更新,因此建議閱讀其他出處的文章時,儘可能跳轉回簡書平台上查看。
視頻演示
https://v.qq.com/x/page/z0624o5lxyr.html
功能介紹
人工智慧涉及很大的領域,有語音識別、自然語言處理、視頻圖像識別等,本次接入的AI人工智慧,針對Excel較有使用價值的文本自然語言處理方面,後續有機會再挖掘其他語音、圖像是否有在Excel中使用場景再酌情增加。本次更新的功能在於接入了人工智慧,真正實現人工智慧是BAT們幫我們做好的,我們只是用他們做好的成果,小量使用還在免費的限度內,若要大量使用,需要向BAT們交類似水煤電般的使用費用。本次用到的收費性API有百度翻譯API和百度AI自然語言API。因Excel催化劑僅實現了功能部分,後期大家使用時請記得自行申請APPKey來使用,插件自帶的APPKey只是測試用途,不能滿足大量人員一起使用的。
API調用服務免費範圍
百度翻譯調用服務免費範圍
詳細功能之翻譯功能
翻譯功能使用的API為百度翻譯API,月總免費流量為200萬字元數,如上圖,簡單測試一下,流量已經使用了2.5萬,使用時記得申請自己的API,不要使用插件自帶的開發測試的API。
操作步驟
類似之前介紹的圖片插入功能,先選擇要翻譯的單元格區域,然後點擊【接入人工智慧】=》【翻譯功能】,即彈出相應的設置窗體。
- 源語言,若提供的原文有兩種語言,最好設置一下,若只有一種語言,程序可自行識別
- 目標語言,必選,根據所需要翻譯的語種進行選擇,語種十分豐富,點開下拉可查看到。
- 目標單元格偏移,類似之前插入圖片,是根據原文的單元格向左右或上下偏移的位置而設定,如下圖是把翻譯結果放在B列,原文A列的右邊1列。
翻譯設置
2
正式大量使用前務必點擊AppKey設置,到百度翻譯網頁上進行註冊申請相應的AppKey,填寫到相應的位置,如下圖所示。
- 翻譯效果
翻譯
詳細功能之中文分詞
中文分詞暫未使用百度AI介面來獲取,使用本地版的結巴類庫實現,使用多少都不產生費用,分詞效果還算可以,並配置有自定義詞典,方便自行維護特有詞語,如我需要對Excel催化劑 這個詞做分詞,不希望默認的把它分為兩個詞 Excel和催化劑,這種效果需要在自定義詞典中維護。
詳細操作步驟
- 數據準備,和前幾次分享一樣,數據區域要符合規範性(無斷行斷列)。且需新增一列標識數據記錄的唯一性,為後期分詞後可以溯源是哪條記錄的待分詞列產生的分詞結果,有資料庫一對多關係的知識或熟練Vlookup函數的使用就很好理解。(若源數據可能不好找到組合多列的結果為唯一列,如下圖的訂單編號+商品SKU組成唯一列,可手工對其簡單進行序號編號構造唯一列標識)
分詞數據源
- 選擇要分詞的數據區域,可點擊數據區域任一單元格即可,點擊按鈕【接入人工智慧】=》【中文分詞】,即可彈出設置窗體如下所示
中文分詞設置
- 當前數據源信息,可查看選擇的數據區域是否和預期一樣,同樣可實現和上幾次類似的,隱藏行的數據將不進行處理。
- 點擊下拉框選取唯一標識列和待中文分詞列,讓程序知道數據源中哪些列是對應上此兩列的。
- 配置自定義詞典 若要增加自定義詞,點擊此按鈕,將打開【自定義詞典表.xlsx】文件,在【自定義詞典表】工作表中按格式添加即可,詞頻和詞性的定義見批註解釋。【結巴詞性表】定義了詞性是否要過濾,可自行調整或最終在結果表裡再手工調整也可。
添加自定義詞
添加自定義詞-詞性定義
- 點擊分詞操作即可完成。數據生成導出到新的智能表還是現有智能表的區別,見上篇購物籃分析文章里所解釋的。結果表中,已經可見有分詞列、詞性列和詞頻數三列,是否過濾是根據自定義詞典里定義的帶過來,有了此結果表數據,再使用Vlookup或Powerpivot數據建模的方式,把源表和結果表進行關聯起來,可根據多個維度來做分詞的詞頻分析,如按商品年份或按商品類別來看各自的詞頻,實現動態互動式的分析報表。
中文分詞結果表
- 有了分詞後,再做一個當下時尚的詞雲效果,詞雲製作很多在線的網頁版工具,下圖為https://wordart.com/網站做出的效果,可快速地發現用戶的評價中,對質量、面料、穿著舒適度是比較關注的。
詞雲
詳細功能之評論觀點提取
雖說詞雲可以較好地對中文字元串進行較為準確的切割,但中文世界裡,一個意思可由許多的詞來表達,增加了分析的複雜度,如面料和布料其實是一個意思,單單分詞後的效果不能太理想,且分詞下來,也沒法把握到一個單元的評論中所表達的情感如何,所以用真正的人工智慧去識別短句內包含的關鍵信息和引信息傳達的情感極性如何,還是挺有必要的。
詳細操作步驟
和以上分詞步驟大體一致,先選擇數據區域,數據區域先做好唯一列的準備,然後配置過程中也是唯一列和待處理文本列的人工處理映射關係
評論觀點提取配置
- 評論行業類型 需根據待評論處理的來源,選擇相應的行業,如餐飲、3C、購物等。
- AppKey設置 此處的設置和前面提及的翻譯功能使用的不一樣,整個人工智慧功能,需用到兩處AppKey,翻譯是一處,評論這裡是另外一處,請務必在大量使用前進行註冊申請。
AI自然語言AppKey設置
- 點擊【觀點提取】後即可出下圖的結果表效果,理想情況下,一句評論和多個觀點時,會出現多條記錄,如SO1P1所示,同時提到質量和上身效果兩個維度。但同時也存在一些有觀點但提取不出來的情況,不能在結果表中顯示,這些都是百度雲API提供的結果,希望它越來越智能,提取效果越來越好和準確吧。
評論觀點提取結果表
詳細功能之情感傾向分析
和以上評論觀點提取也較為類似,操作步驟幾乎相同,此處不再重複羅列
情感傾向分析只對一句話的情感進行量化分析,顯示此句話表達的是消極、中性還是積極的情感。有可能一句話既有消極的部分,也有積極的部分,然後最終它會計算出一個極性分類及此極性的判斷是可信度(置信度),同時也給出了積極和消極的概率數作參考,詳細如下圖所示。情感分析
總結
此次Excel催化劑藉助外界人工智慧的研究成果,將其接入到Excel中,給Excel賦予更加智能靈活的數據處理能力,即把現實世界中特別是電商時代下產生的大量的非結構化數據,對其進行切割分詞、評論關鍵信息提取標準化,及對評論內容進行量化的情感極性標註等,給Excel後續的數據分析帶來了可分析的維度和指標進行統計分析對比,實現分析非結構化數據的最終目標。同時也開闊了大家對Excel的認識,它不僅僅是一款不合時的小型的製表小工具,給予它相應的催化劑,它也同樣在新時代綻放出無限精彩!無需藉助其他工具實現且實現方法接近智能化,任何Excel普通用戶即可輕易駕馭!
系列文章
Excel催化劑安裝過程詳解及安裝失敗解決方法 - 簡書https://www.jianshu.com/p/4efcee38175a
Excel催化劑功能第1波-工作表導航 - 簡書 https://www.jianshu.com/p/d9b2ae29cebeExcel催化劑功能第2波-數字格式設置 - 簡書 https://www.jianshu.com/p/a758ac3e77e2Excel催化劑功能第3波-與PowerbiDesktop互通互聯 - 簡書https://www.jianshu.com/p/e05460ad407dExcel催化劑功能第4波-一大波自定義函數高級應用,重新定義Excel函數的學習和使用方法 - 簡書 https://www.jianshu.com/p/534803771c20Excel催化劑功能第5波-使用DAX查詢從PowerbiDeskTop中獲取數據源 - 簡書https://www.jianshu.com/p/21b2ca8fd2b8Excel催化劑功能第6波-導出PowerbiDesktop模型數據字典 - 簡書https://www.jianshu.com/p/bc26a8dcdfceExcel催化劑功能第7波-智能選區功能 - 簡書 https://www.jianshu.com/p/146748e484d5Excel催化劑功能第8波-快速可視化數據 - 簡書 https://www.jianshu.com/p/ce7cca2baf89
Excel催化劑功能第9波-數據透視表自動設置 - 簡書https://www.jianshu.com/p/f872ace9aa90Excel催化劑功能第10波-快速排列工作表圖形對象 - 簡書https://www.jianshu.com/p/eab71f2969a6Excel催化劑功能第11波-快速批量插入圖片 - 簡書https://www.jianshu.com/p/9a3d9aa7ba7eExcel催化劑功能第12波-快速生成、讀取、導出條形碼二維碼 - 簡書https://www.jianshu.com/p/76c6856bec12Excel催化劑功能第13波-一鍵生成自由報表 - 簡書https://www.jianshu.com/p/af0ac9ce1819Excel催化劑功能第14波-一鍵生成零售購物籃分析 - 簡書https://www.jianshu.com/p/35014c17dff2關於Excel催化劑
Excel催化劑先是一微信公眾號的名稱,後來順其名稱,正式推出了Excel插件,插件將持續性地更新,更新的周期視本人的時間而定爭取一周能夠上線一個大功能模塊。Excel催化劑插件承諾個人用戶永久性免費使用!
Excel催化劑插件使用最新的布署技術,實現一次安裝,日後所有更新自動更新完成,無需重複關注更新動態,手動下載安裝包重新安裝,只需一次安裝即可隨時保持最新版本!
Excel催化劑插件下載鏈接:https://pan.baidu.com/s/1eT2znYM
因插件使用VSTO開發技術完成,插件的安裝需要電腦滿足相關的環境配置才能運行,且需可連接外網的方式實現自動更新機制,若下載安裝過程中有任何疑問或需要離線版安裝等,盡量不單獨私聊詢問,加QQ群可高效解決(群內已彙集了VSTO開發、Powerbi技術、Sqlserver商業智能等方面的國內頂尖大牛人物,進群的好處不用多說了)
http://qm.qq.com/cgi-bin/qm/qr?k=-IhOJdSwpVlfVwo8RoZj0uw_SE5jypOq (二維碼自動識別)
Excel催化劑插件交流群群二維碼.png
取名催化劑,因Excel本身的強大,並非所有人能夠立馬享受到,大部分人還是在被Excel軟體所虐的階段,就是頭腦里很清晰想達到的效果,而且高手們也已經實現出來,就是自己怎麼弄都弄不出來,或者更糟的是還不知道Excel能夠做什麼而停留在不斷地重複、機械、手工地在做著數據,耗費著無數的青春年華歲月。所以催生了是否可以作為一種媒介,讓廣大的Excel用戶們可以瞬間點燃Excel的爆點,無需苦苦地掙扎地沒日沒夜的技巧學習、高級複雜函數的燒腦,最終走向了從入門到放棄的道路。
最後Excel功能強大,其實還需樹立一個觀點,不是所有事情都要交給Excel去完成,也不是所有事情Excel都是十分勝任的,外面的世界仍然是一個廣闊的世界,Excel只是其中一枚耀眼的明星,還有其他更多同樣精彩強大的技術、工具等。*Excel催化劑也將借力這些其他技術,讓Excel能夠發揮更強大的爆發!
關於Excel催化劑作者
姓名:李偉堅,從事數據分析工作多年(BI方向),一名同樣在路上的學習者。
技術路線從一名普通用戶,通過Excel軟體的學習,從此走向數據世界,非科班IT專業人士。歷經重重難關,終於在數據的道路上達到技術平原期,學習眾多的知識不再太吃力,同時也形成了自己的一套數據解決方案(數據採集、數據加工清洗、數據多維建模、數據報表展示等)。擅長技術領域:Excel等Office家族軟體、VBA&VSTO的二次開發、Sqlserver資料庫技術、Sqlserver的商業智能BI技術、Powerbi技術、雲伺服器布署技術等等。
2018年開始職業生涯作了重大調整,從原來的正職工作,轉為自由職業者,暫無固定收入,暫對前面道路不太明朗,苦重新回到正職工作,對Excel催化劑的運營和開發必定受到很大的影響(正職工作時間內不可能維護也不可能隨便把工作時間內的成果公佈於外,工作外的時間也十分有限,因已而立之年,家庭責任重大)。
和廣大擁護者一同期盼:Excel催化劑一直能運行下去,我所惠及的群體們能夠給予支持(多留言鼓勵下、轉發下朋友圈推薦、小額打賞下和最重點的可以和所在公司及同行推薦推薦,讓我的技術可以在貴司發揮價值,實現雙贏(初步設想可以數據顧問的方式或一些小型項目開發的方式合作)。)
推薦閱讀:
※NLP 自然語言處理國際會議(轉)
※數據集大全:25個深度學習的開放數據集
※Learning Explanatory Rules from Noisy Data 閱讀筆記4
※【機器閱讀理解】Fast and Accurate Reading Comprehension by Combining Self-Attention and Convolution
※吳恩達 DeepLearning.ai 課程提煉筆記(5-2)序列模型 --- NLP和詞嵌入