手把手教你快速構建自定義分類器

本文由 「AI前線」原創,原文鏈接:手把手教你快速構建自定義分類器

作者|Shashank Gupta

譯者|劉志勇

編輯|Emily

AI 前線導讀:」對於數據挖掘來說,分類是一種非常重要的方法。分類器就是在已有數據的基礎上學會一個分類函數或者構建出的一個分類模型。這個函數或模型能夠把資料庫中的數據記錄映射到給定類別中的某一個,從而可以應用數據預測。今天,AI 前線就給大家帶來了由 Towards Data Science 的 Shashank Gupta 撰寫的一篇文章,題為《介紹自定義分類器——在沒有任何培訓數據的情況下構建自己的文本分類模型 》(Introducing Custom Classifier?—?Build Your Own Text Classification Model Without Any Training Data)[1],給大家介紹了如何利用 ParallelDots 公司提供的 AI 驅動的 Web 服務,在沒有任何訓練數據的情況下,快速構建屬於自己的文本分類器。」

介紹

機器學習最成功的範例之一是監督學習(supervised learning),它允許您通過從大量訓練實例中學習來構建泛化模型。監督學習廣泛應用於自然語言處理(Natural Language Processing,NLP),構建多類或多標籤的文本分類器,用於解決垃圾郵件檢測、情感分析、表情分析、客戶意向分析等多種用例。任何熟悉構建文本分類模型過程的人都知道,它包含以下三個步驟:

準備訓練數據:訓練數據(也稱為標記數據)是特定領域的語料庫,它是用分類器預期分類的標籤手工標註的。

訓練文本分類模型:然後選擇合適的機器學習演算法來訓練標記數據集上的模型。我們已經在之前的博文《Breakthrough Research Papers and Models for Sentiment Analysis》[2] 中介紹了構建情感分析模型的一些技巧。

測試和驗證:標記的數據集的一部分被留出用於測試和驗證已訓練的模型以評估其泛化能力。

當我們沒有足夠的標記數據來訓練可靠的模型時,傳統的監督學習範式就會崩潰。現實世界中的文本分類項目常常面臨最大的障礙,即訪問大量數據並手動注釋數據。結果,大多數實際項目都滯留在第一步。那些成功邁過第一步的人們經常發現他們的數據要麼不夠充分,要麼偏向某些類,導致 AI 模型出現偏差。

什麼是自定義分類器?

深度學習的許多研究都是為了從更少的數據中學習更好的表徵,而一個令人興奮的領域是零樣本學習(Zero-shot learning)。引用 Ian Goodfellow 在 Quora 的回答:「即使沒有收到任何訓練案例,零樣本學習也能解決任務。」換句話說,設想一下在不提供任何帶有情感標籤的推文的訓練例子的情況下,預測推特表達的情緒。

ParallelDots 的內部研究團隊提出了他們自己的「零樣本學習」的文本分類模式,並發表了一篇研究論文《一次訓練,隨處測試:文本分類的零樣本學習》(Train Once, Test Anywhere: Zero-shot Learning For Text Classification)[3]。

另外,我們要履行承諾,讓人工智慧觸手可及。我們決定將這一激動人心的研究成果轉化為商業應用,因此,我們推出了一個新的 API,使您能夠利用零樣本學習的全部功能,為您的文本分類提供用例。我們稱之為自定義分類器,因為它可以讓你在自定義類別上構建你的文本分類器。這是我們開發尖端 AI 解決方案的革命性的一步,讓用戶無需構建任何訓練數據即可開發和集成自定義文本分類模型。

通過實例學習--構建示例文本分類模型

由於不需要訓練數據,因此它也降低了建立文本分類模型所需的成本和時間。有了所有的背景知識,讓我們嘗試在操作中查看自定義分類器。在下圖所示自定義分類器演示 [4] 屏幕截圖中,我們選取了一個體育新聞標題並定義了五個類別,我們要把這個標題分為:世界政治、體育、宗教、娛樂、商業。

從結果中可以看出,體育類別的概率得分最高,因此也是我們輸入文本最有可能的類別。請注意,我們在測試的時候定義了類別,而底層的 AI 模型並沒有對它們進行明確的訓練。接下來,我們試著進一步將體育類別分為足球、高爾夫等不同類別,看看我們的分類器是否可以理解它們。

我們再次看到,分類器在沒有明確訓練的情況下準確地識別了體育類別。我希望現在您已經開始了解這項技術的潛力。作為最後一步,我們試著進一步將我們的足球類別劃分成全球各地的不同類型的聯賽,看看我們的分類器是否能夠正確地預測同樣的情況。

確實不可思議!我們的分類器正確地挑出了聯賽。

綜上所述,「自定義分類器」可以讓您對文本分類的未來有一個粗略的了解,在這種分類中,很少或沒有必要的訓練示例可以可靠地將一段文本分類為自定義的定義類別。這種能力將為無數休眠的文本分析項目打開了無限的可能性,並賦予它們新的生機,由於缺乏訓練數據或訓練資源,這一項目將永遠不能見天日。

設置自定義分類器

設置自定義分類器非常簡單,可以通過以下三個簡單步驟來完成:

  1. paralleldots.com/ 註冊免費的 ParallelDots API 帳戶並登錄到控制面板。
  2. 導航到控制面板中的自定義分類器部分,提供示例文本並定義一些類別來分析文本。默認情況下,您將處於測試模式,您可以隨意多次調整您的類別列表,而無需花費任何費用。
  3. 一旦您對分類準確性感到滿意,請單擊「Publish」按鈕來部署分類器以供生產使用,並獲取分類器 ID。一旦發布,您就可以通過 API 端點訪問您的自定義分類器。

自定義分類器的 API 文檔可以在 paralleldots.com/docs 找到。專門為 Microsoft Excel 提供的載入項功能即將推出。

在這篇博文中,我們介紹了文本分類中的一個新範例,希望我們的用戶能夠從中受益。我們已經看到一些激動人心的用例被我們的用戶通過自定義分類器解決,比如招聘信息分類、新聞文章分類、處理開放式調查反饋等等。通常,分析原始數據的第一步就是將其分類到您關心的類別中,並隨著時間的推移監控這些趨勢以獲取可行的見解。

自定義分類相較標準文本分類的優勢

在分析客戶語音等非結構化數據時,像情感分析這樣的標準文本分類模型並不總是足以獲得整體視圖。另一方面,自定義分類器可以使您能夠將這些數據分類為我們所關心的更細微的類別。例如,通過自定義分類器,快餐連鎖店主可以通過社交媒體,將從她的顧客的反饋分類,包括價格、環境、員工行為、食品質量等類別,更好地了解她需要改進哪些方面的業務。使用簡單的情緒分析,她可能知道自己的業務整體如何,但也可能會遺漏關鍵的趨勢,比如員工的行為和客流量之間的關聯。自定義分類器的潛力在於,將文本分類為情感標籤(正面、負面或中性)[5],這樣您不僅可以知道產品有多少負面的反饋,而且也可以了解到用戶在那些負面評論中提到的內容。

我們相信自定義分類器可以讓沒有數據科學背景的用戶構建、部署他們自己的分類器,並在他們的競爭者中獲得優勢。它還將幫助企業從根本上轉變為數據驅動型組織,最終加速人工智慧和機器學習的產業化進程。您也可以訪問以下網址探索更多的文本分類博客。

blog.paralleldots.com/c

ParallelDots AI API 是由 ParallelDots 公司提供的深度學習驅動的 Web 服務,可以理解大量的非結構化文本和可視內容,從而為您的產品提供支持。

參考文本:

[1] Introducing Custom Classifier?—?Build Your Own Text Classification Model Without Any Training Data

towardsdatascience.com/

[2] Breakthrough Research Papers and Models for Sentiment Analysis

blog.paralleldots.com/d

[3] TRAIN ONCE, TEST ANYWHERE: ZERO-SHOT LEARNING FOR TEXT CLASSIFICATION

paralleldots.xyz/Zero-S

[4] Custom Classifier DEMO

paralleldots.xyz/Zero-S

[5] Analyze the sentiment of content on social networks, customer feedbacks and surveys

paralleldots.com/sentim

更多乾貨內容,可關注AI前線,ID:ai-front,後台回復「AI」、「TF」、「大數據」可獲得《AI前線》系列PDF迷你書和技能圖譜。

推薦閱讀:

數據挖掘和網路爬蟲有什麼關聯區別?
R 包 `ezdf`的講解
視角觀察:四個話題讀懂大數據醫療

TAG:數據挖掘 | 分類 |