南京大學周志華教授綜述論文:弱監督學習
文章選自NSR,作者:周志華,機器之心編譯
在《國家科學評論》(National Science Review, NSR) 2018 年 1 月份出版的機器學習專題期刊中,介紹了南京大學周志華教授發表的一篇論文《A brief introduction to weakly supervised learning》。機器之心經授權對此論文部分內容做了編譯介紹,更完整內容可查看英文論文原文。
摘要:監督學習技術通過學習大量訓練樣本來構建預測模型,其中每個訓練樣本都有一個標籤標明其真值輸出。儘管當前的技術已經取得了巨大的成功,但是值得注意的是,由於數據標註過程的高成本,很多任務很難獲得如全部真值標籤這樣的強監督信息。因此,能夠使用弱監督的機器學習技術是可取的。本文綜述了弱監督學習的一些研究進展,主要關注三種弱監督類型:不完全監督:只有一部分訓練數據具備標籤;不確切監督:訓練數據只具備粗粒度標籤;以及不準確監督:給出的標籤並不總是真值。
機器學習在各種任務中取得了巨大成功,特別是在分類和回歸等監督學習任務中。預測模型是從包含大量訓練樣本的訓練數據集中學習,每個訓練樣本對應一個事件或對象。訓練樣本由兩部分組成:一個描述事件/對象的特徵向量(或示例),以及一個表示真值輸出的標籤。在分類任務中,標籤表示訓練樣本所屬的類別;在回歸任務中,標籤是一個與樣本對應的實數值。大多數成功的技術,如深度學習 [1],都需要含有真值標籤的大規模訓練數據集,然而,在許多任務中,由於數據標註過程的成本極高,很難獲得強監督信息。因此,研究者十分希望獲得能夠在弱監督前提下工作的機器學習技巧。
通常來說,弱監督可以分為三類。第一類是不完全監督(incomplete supervision),即,只有訓練集的一個(通常很小的)子集是有標籤的,其他數據則沒有標籤。這種情況發生在各類任務中。例如,在圖像分類任務中,真值標籤由人類標註者給出的。從互聯網上獲取巨量圖片很容易,然而考慮到標記的人工成本,只有一個小子集的圖像能夠被標註。第二類是不確切監督(inexact supervision),即,圖像只有粗粒度的標籤。第三種是不準確的監督(inaccurate supervision),模型給出的標籤不總是真值。出現這種情況的常見原因有,圖片標註者不小心或比較疲倦,或者某些圖片就是難以分類。
弱監督學習是一個總括性的術語,涵蓋了嘗試通過較弱的監督來學習並構建預測模型的各種研究。在本文中,我們將討論這一研究領域的一些進展,重點放在以不完整、不確切和不準確的監督進行學習的研究。我們將把不同類型的弱監督分開,但值得一提的是,在實際操作中,幾種弱監督經常同時發生。為簡單起見,在本文中我們以包含兩個可交換類 Y 和 N 的二元分類為例。形式化表達為,在強監督學習條件下,監督學習的任務是從訓練數據集
中學習
,其中
是特徵空間,
,
,以及
。
我們假設
是根據未知的獨立同分布 D 生成的;換言之,
是 i.i.d. 樣本。
圖 1 提供了我們將在本文中討論的三種弱監督類型的示例。
圖 1:三種典型的弱監督類型的示例。長條表示特徵向量; 紅色/藍色標記標籤;「?」意味著標籤可能不準確。中間子圖描繪了一些混合類型弱監督的情況。
不完全監督
不完全監督考慮那些我們只擁有少量有標註數據的情況,這些有標註數據並不足以訓練出好的模型,但是我們擁有大量未標註數據可供使用。形式化表達為,模型的任務是從訓練數據集
中學習
,其中訓練集中有 l 個有標註訓練樣本(即給出
的樣本)和 u = m - l 個未標註樣本;其他條件與具有強監督的監督學習相同,如摘要最後的定義。為便於討論,我們也將 l 個有標註示例稱為「標註數據」,將 u 個未標註示例稱為「未標註數據」。
能夠實現此目標的主要兩類技巧,即,主動學習 [2] 和半監督學習 [3-5]。
主動學習假設存在一個「神諭」(oracle),比如一位人類專家,能夠向他查詢選定的未標註示例的真值標籤。
相比之下,半監督式學習試圖在有標註數據之外,自動開發無標註數據以提高學習效果,這個過程不需要人工干預。存在一種特殊的半監督學習,稱為直推式學習(transductive learning);直推式學習和(純)半監督學習的主要區別在於,它們對測試數據,即訓練過的模型需要進行預測的數據,假設有所不同。直推式學習持有「封閉世界」假設,即,測試數據是事先給出的、目標是優化測試數據的性能;換言之,未標註數據正是測試數據。純半監督式學習則持有「開放世界」假設,即,測試數據是未知的,未標註數據不一定是測試數據。圖 2 直觀地表示了主動學習、(純)半監督學習和直推式學習之間的差異。
圖 2:主動學習、(純)半監督學習和直推式學習
不確切監督
不確切監督關注於給定了監督信息,但信息不夠精確的場景。一個典型的場景是僅有粗粒度的標籤信息可用。例如,在藥物活性預測 [40] 的問題中,其目標是建立一個模型學習已知分子的知識,來預測一個新的分子是否適合製造一種特定藥物。一個分子可以有很多的低能量形狀,而這些分子是否能用於製藥取決於這些分子是否具有某些特殊的形狀。然而即使對於已知的分子,人類專家也僅知道該分子是否適合製藥,而不知道其中決定性的分子形狀是什麼。
形式化表達為,該任務是從訓練數據集
中學習
,其中
被稱為一個包。
,
是一個示例,m_i 是示例 X_i 的數量,
。
X_i 是一個 positive 包,即 y_i=Y,如果存在 x_ip 是正的,同時
是未知的。其目標是為未見過的包預測標籤。該方法被稱為多示例學習 [40,41]。
已經有許多有效的演算法被開發出來並應用於多示例學習。實際上,幾乎所有的有監督學習演算法都有對等的多示例演算法。大多數演算法試圖調整單示例監督學習演算法,使其適配多示例表示,主要是將其關注點從對示例的識別轉移到對包的識別 [42];一些其他演算法試圖通過表示變換,調整多示例表示使其適配單示例演算法 [43,44]。還有一種類型 [45],將演算法分為三類:一個整合了示例級響應的示例空間範式,一個把 包 視作一個整體的 包 空間範式,以及一個在嵌入特徵空間中進行學習的嵌入空間範式中。請注意,這些示例通常被視為 i.i.d. 樣本,然而,[46] 表明,多示例學習中的示例不應該被認為是獨立的,儘管這些包可以被視為 i.i.d. 樣本,並且已經有一些有效的演算法是基於此見解進行開發的 [47]。
多示例學習已成功應用於各種任務,如圖像分類/檢索/注釋 [48-50],文本分類 [51,52],垃圾郵件檢測 [53],醫學診斷 [54],面部/對象檢測 [55,56],對象類別發現 [57],對象跟蹤 [58] 等。在這些任務中,將真實對象(例如一幅圖像或一個文本文檔)視為一個包是很自然的。然而,不同於藥物活性預測這類包中包含天然示例(分子的各種形狀)的例子,需要為每個包生成示例。包生成器制定如何生成示例來構成包。通常情況下,可以從圖像中提取許多小的圖像塊作為其示例,而章節/段落甚至句子可以用作文本文檔的示例。儘管包生成器對學習效果有重要影響,但最近才出現關於圖像包生成器的全面研究 [59],研究揭示了一些簡單的密集取樣包生成器比一些複雜的生成器性能更好。圖 5 顯示了兩個簡單而有效的圖像包生成器。
圖 5 圖像包生成器。假設每張圖像的大小為 8×8,每個小塊的大小為 2×2。單小塊(SB)生成器將每個由 4 個小塊組成的圖像塊視為一個示例,通過不重疊地滑動為每張圖像生成 16 個圖像示例。有鄰近的單小塊生成器(SBN)將由 20 個小塊組成的圖像塊作為一個示例,通過有重疊地滑動來為圖像生成 9 個示例。
多示例學習的初始目標是為未見過的包預測標籤;然而,已有研究嘗試識別那些之所以讓正包變正的關鍵示例(key instance)[31,60]。這在諸如沒有細粒度標記訓練數據的感興趣區域定位的任務中特別有用。值得注意的是,標準的多示例學習 [40] 假定每一個正包必須包含一個關鍵示例,而還有其它研究假定不存在關鍵示例,每一個示例都對包標籤有貢獻 [61,62];甚至假定存在多個概念,而僅當一個包包含滿足所有概念的示例時,該包才是正的 [63]。可以在文獻 [41] 中找到更多的變體。
早期的理論結果 [64-66] 表明多示例學習對於包中每個示例都由不同的規則分類的異質(heterogeneous)案例來說,是很難的,對於以相同的規則分類所有示例的同質性(homogeneous)案例就是可學習的。幸運的是,幾乎所有的實際多示例任務都屬於同質性案例。這些分析假定 bag 中的示例是獨立的。而不假定示例的獨立性的分析更具挑戰性,這類研究也出現得較晚,其揭示了在同質性類中,至少存在某些可以用包間的任意分布來學習的案例 [67]。儘管如此,與其在演算法和應用上的繁榮發展相反,多示例學習的理論研究成果非常少,因為分析的難度太大。
某些在包中任意分布的示例是可學習的 [67]。儘管如此,與在演算法和應用上的繁榮發展相反,多示例學習的理論研究成果非常少,因為分析的難度太大。
不準確監督
不準確監督關注於監督信息不總是真值的場景,也就是說,有部分信息會出現錯誤。其形式基本和引言最後部分的表示相同,除了訓練數據集中的 y_i 可能是不準確的。
一個典型的場景是在有標籤雜訊的情況下進行學習 [68]。目前已有很多理論研究 [69-71],其中大多數假定存在隨機的分類雜訊,即標籤受隨機雜訊影響。在實踐中,基本的思想是識別潛在的誤分類樣本 [72],然後嘗試進行修正。例如,數據編輯(data-editing)方法 [73] 構建了相對鄰域圖(relative neighborhood graph),其中每一個節點對應一個訓練樣本,而連接兩個不同標籤的節點的邊被稱為切邊(cut edge)。然後,測量 一個切邊的權重統計量,直覺上,如果一個示例連接了太多的切邊,則該示例是可疑的。可疑的示例要麼被刪除,要麼被重新標記,如圖 6 所示。值得注意的是,這種方法通常依賴於諮詢鄰域信息;由於當數據很稀疏時,鄰域識別將變得更不可靠,因此,在高維特徵空間中該方法的可靠性將變弱。
圖 6:識別和刪除/重標記可疑的數據點
近期出現的有趣的不準確監督的場景是眾包模式 [74],這是一種流行的將工作外包給個人的範式。對於機器學習來說,用眾包模式為訓練數據收集標籤是一種經濟的方式。具體來說,未標記的數據被外包給大量的工人來標記。在著名的眾包系統 Amazon Mechanical Turk 上,用戶可以提交一項任務,例如將圖片標註為「樹」或「非樹」,然後職工完成工作以獲取少量報酬。通常這些工人來自世界各地,每個人都可以執行多個任務。這些職工通常互相獨立,報酬不高,並通過自己的判斷標記數據。這些職工的標記質量參差不齊,但標記質量信息對於用戶來說是不可見的,因為工人的身份是保密的。在這些職工中可能存在「垃圾製造者」,幾乎用隨機的標籤來標記數據(例如,用機器替代人類賺取報酬),或「反抗者」,故意給出錯誤的標籤。此外,某些任務可能對一些人來說太難而無法完成。使用眾包返回的不準確監督信息來保證學習性能是非常困難的。
很多研究嘗試用眾包標籤推斷真值標籤。多數人投票策略得到了集成方法 [35] 的理論支持,在實踐中得到了廣泛使用並有很好的表現 [75,76],因此通常作為基線標準。如果預期可以對工人質量和任務難度建模,那麼通過為不同的工人在不同的任務上設置權重,則可以獲得更好的效果。為此,一些方法嘗試構建概率模型然後使用 EM 演算法進行評估 [77,78]。人們也使用了極小極大熵方法 [35]。概率模型可以用於移除垃圾製造者 [79]。近期人們給出了移除低質量工人的一般理論條件 [80]。
在機器學習中,眾包通常用於收集標籤,在實踐中,模型的最終性能,而不是這些標籤的質量,才是更重要的。目前已有很多關於從低能老師和眾包標籤學習的研究 [81,82],這和用帶雜訊標籤學習是很接近的。但其中的區別在於,對於眾包設定而言,人們可以方便地、重複地對某個示例提取眾包標籤。因此,在眾包數據學習中,考慮經濟性和最小化眾包標籤的充分數量是很重要的,即有效眾包學習的最小代價 [83]。很多研究專註於任務分配和預算分配,嘗試在準確率和標註開銷之間取得平衡。為此,非適應性的任務分配機制(離線分配任務 [84,85])和適應性機制(在線分配任務 [86,87])都得到了在理論支持下的研究。需要注意的是,多數研究採用了 Dawid–Skene 模型 [88],其假設不同任務的潛在成本是相同的,而沒有探索更複雜的成本設置。
設計一個有效的眾包協議也是很重要的。在文獻 [89] 中提供了「不確定」選項,從而使工人在不確定的時候不被迫使給出確定的標籤。該選項可以幫助標記的可靠性獲得有理論支持 [90] 的提升。在文獻 [91] 中提出了一種「double or nothing」的激勵兼容機制,以確保工人能提供基於其自己的信心的標註,誠實地工作。在假定每位工人都希望最大化他們的報酬的前提下,該協議被證實可以避免垃圾製造者的出現。
結論
監督學習技術在具備強監督信息(如大量具備真值標籤的訓練樣本)的情況中取得了很大成功。然而,在實際任務中,收集監督信息需要大量成本,因此,使用弱監督學習通常是更好的方式。
本文主要介紹三種典型的弱監督:不完全、不確切和不準確監督。儘管三者可以分開討論,但是實踐中它們通常同時出現,如圖 1 所示,以往研究中也討論過此類「混合」案例 [52,92,93]。此外,還存在其他類型的弱監督。例如,主要通過強化學習方法解決 [94] 的延時監督也屬於弱監督。由於篇幅限制,本文實際上扮演了更多文獻索引而非文獻綜述的角色。對細節感興趣的讀者請閱讀對應參考文獻。近期越來越多的研究者關注弱監督學習,如部分監督學習主要關注不完全監督學習 [95],同時也有很多關於弱監督的其他討論 [96,97]。
為了簡化討論,本文主要關注二分類,儘管大部分討論經過稍微改動就可以擴展到多類別或回歸學習。注意,多類別任務中可能會出現更複雜的情景 [98]。如果考慮到多標籤學習 [99],即每個樣本同時關聯到多個標籤的任務,則情況更加複雜。以不完全監督為例,除了標註/非標註示例以外,多標籤任務可能遇到部分標註示例,即訓練示例中,只有部分標籤是真值 [100]。即使只考慮標註/未標註數據,其設計選項也比單標籤設置多。如對於積極學習而言,給出一個非標註示例,在多標籤任務中可以要求給出該示例的所有標籤 [101]、特定標籤 [102],或一對標籤的相關性排序 [103]。然而,不管是哪種數據和任務,弱監督學習都變得越來越重要。
英文原文 2017 年 8 月發表於《國家科學評論》(National Science Review, NSR),原標題為「A brief introduction to weakly supervised learning」。《國家科學評論》是科學出版社旗下期刊,與牛津大學出版社聯合出版。機器之心經《國家科學評論》和牛津大學出版社授權刊發該論文文中文翻譯。
原文英文鏈接:https://doi.org/10.1093/nsr/nwx106
推薦閱讀:
※Learning Explanatory Rules from Noisy Data 閱讀筆記0
※機器學習基石筆記11:邏輯斯蒂(Logistic)回歸 下
※反向傳播演算法和梯度下降理解
※從建立清晰的步驟開始——Machine Learning Project Checklist
※機器學習基石筆記4:機器學習可行性論證 上