如何使用機器學習對文本進行自動分類
來自專欄數據應用學院4 人贊了文章
前言
數字化已經改變了我們處理、分析信息的方式。網上的信息現在以指數速度增長,網頁、電子郵件、期刊、電子書、學習資料、新聞和社交媒體等都充斥著大量的文字信息。為了能夠快速地應對不斷增長的體量,自動化處理顯得越發重要。
文字分類能夠智能地將不同的文章分類,它運用自動化的機器學習技術,整個過程高效簡潔。近年來人工智慧和機器學習發展迅速,為我們做出了極大的貢獻。他們的身影無處不在,正如Jeff Bezos(亞馬遜總裁)在股東年報中指出: 「在過去的幾十年里,只要程序員能夠清晰地寫下任務處理的規則和演算法,計算機就能夠準確地自動執行。而機器學習的功勞在於,它使得那些不是那麼清晰的任務也可以以同樣的方式被計算機自動執行。」本文將重點討論文字分類,在之前的文章中,我們已經談及背後的技術和技術的應用。本文將進一步陳述我們的成果。我們會討論技術、應用、如何定製以及在使用我們的文字自動分類API過程中的分段問題。意圖、情緒和情感分析是文字分類的最重要的部分。在機器學習的擁躉之中,這些技術最為流行。因為它們每個單獨都能構成一個大主題,所以對於每種分析,我們都開發了相應的分類器。不論文字有沒有打好標籤,我們都可以幫你分類。標記好的文字數據和沒有標記的都有各自的應用範圍。
監督文字分類
如果要做監督分類,你首先要準確地定義你需要的分類結果,然後遵循『訓練和測試』的原則。在訓練階段,把數據和標籤傳入模型,使得模型的預測結果盡量接近已有的標籤。在測試階段,把新的數據輸入,觀察模型的預測和真實的結果的差距,進行評價。應用之一是垃圾郵件探測。每一封新來的郵件都會被自動分類,分類的依據是郵件的內容。語言種類的探測、情感、情緒和意圖分析都屬於監督學習的範圍。一些特殊的應用包括分析百萬級別的文字後進行緊急情況預測,這其實是一個字元串匹配的過程。我們提出了一個公眾交通系統來探測這種情況的存在。在成千上萬的數據中,尋找到及其罕見的緊急情況,要求模型有極高的精度。我們需要一個特殊的損失函數,並對訓練數據進行合理的取樣,還需要若干個模型,每一個都在前一個的基礎上優化來解決問題。
監督學習基本上可以看做讓計算機模擬人的決策方式。計算機演算法接收到一定量的標註訓練數據,然後產出一個人工智慧模型。這個模型會進一步被用在沒有被標註的數據上,用來預測這些數據的標籤,從而自動完成工作。我們提供的幾個API就來自監督學習。我們的文本分類器能夠識別150個一般性的話題。
無監督文本分類
當數據沒有標註時,我們需要進行無監督學習。演算法會尋找語言的自然內涵結構。但請注意,對於計算機而言的自然內涵並非人們通常理解語言的邏輯內涵。演算法在數據中尋找相似模型和結構,然後把相似模式的文本聚在一起,每個聚類就代表一個類別的文本。以網頁搜索為例,計算機通過人的搜索關鍵詞來將網頁分為相關的與不相關的,將相關的那些呈現給搜索者。每一個數據點都被嵌入高維空間,你可以在Tensorboard中看到它們。在文字相似性的基礎上,數據發掘工作能夠找出相似的數據點。相似的相鄰的數據聚在一起就成為了一類。無監督學習在挖掘數據中的洞見時非常簡潔易用。你可以隨意地更改設置,畢竟你不用提供標記數據。所以任何語言的文字都能夠直接適用。
定製文本分類
很多時候,進行機器學習的瓶頸在於沒有那麼多訓練數據。許多人想用AI進行標記,但是這是雞與蛋的問題。定製文本分類就成為了你在沒有足夠訓練集情況下能夠得到自己的分類器的方法。在ParallelDots上最新的研究中,我們提出了不需要訓練集的方法:演算法在大量的隨機數據上學習句子和類別的關係,將關係一般化,擴展到其他數據上。我們稱之為『訓練一次,普遍可用。』我們還提出了幾種神經網路演算法,它們使用我們上面提出的方法,得到了不錯的結果。其中最好的方法是LSTM模型。關鍵就在於如果句子和類別之前的關係可以模型化,新句子的關係也能夠被預測出來。
如何創建一個定製文本分類器?
你需要註冊一個ParallelDots賬號,登錄進入控制盤。按下『+』,創建第一個分類器。然後定義一些你需要的類別。請注意,為了更好的效果,你需要定義互斥的類別。
想要檢查你的分類準確度,你可以分析一小部分數據同時稍微改變你的分類要求,然後發布。一旦發布,你會得到一個應用和它的id,意味著你可以調用API了。考慮到數據標記和準備是一大難題,定製分類器會是成本低廉的一個選擇。我們還相信它會降低企業使用機器學習的門檻,使得工業界的許多問題更加容易。作為一個AI研究組,我們持續推出最前沿的科技,帶來更快更高效的解決方案。文本分類將是未來極有潛力的科技。隨著網際網路上的數據越來越多,機器學習演算法將成為信息分類的一個重要利器。機器智慧的未來令人興奮,請訂閱我們,我們將與你們分享更多信息。
推薦閱讀:
※Rust Learning Notes(一)
※ICML 2018最佳論文公布,復旦成果入圍最佳論文提名獎
※世界盃預測,其實很簡單
※【Python進階教程】常用機器學習python庫簡介
※[轉載]《機器學習基石》作業2
TAG:機器學習 | 深度學習DeepLearning | 數據挖掘 |