支持向量機技術在搜索引擎中的地位重要嗎?應用廣泛嗎?
感謝邀請。由於該演算法相對於其它挖掘演算法來看屬於比較新的演算法(上世紀90年代),在研究領域還是比較熱的,在應用領域是否廣泛目前為知。其實目前監督學習演算法還是比較適合某個領域內的,很難說能分類全部數據,如果能的話,我們在百度或者谷歌上搜出來的東西就會帶類標了,呵呵。之前我做過一段時間輿情系統,文本分類是用樸素貝葉斯做的,效果基本跟SVM持平。我覺得最重要的是要保證你訓練分類器的數據要標註準確。感謝邀請!自己也是剛剛進入這個領域, 希望自己所學能夠起到一點作用!
支持向量機作為一種分類器, 廣泛適用於各類分類問題, 使用者只用將需要分類的類別實例, 一一抽象成等長的特徵向量即可訓練向量機, 完成分類任務。
即使在傳統的搜索引擎中, 支持向量機也可以得到使用, 例如網頁的分類。
比如利用源碼長度, tidy之後的行數, 連接數, 圖片鏈接數, 標籤最大深度等特徵對網頁進行分類, 可以較為精確的區分門戶主頁, 新聞頁, 圖片頁, 論壇主頁, 論壇帖子等不同類別的頁面, 以提高用戶體驗。這之後還有一些延伸的應用比如, 用序列標註演算法(如CRF)對網頁一些區域進行劃分, 精確抽取網頁中的正文段, 標題, 相關鏈接區域。近幾年來, 一種基於「實體」的搜索引擎日漸風靡, 例如微軟的人立方, 盤古搜索等實體搜索引擎。這些基於實體的引擎主要的亮點是拋棄關鍵字檢索, 將用戶搜素的實體實例進行高效準確的信息聚合, 將相關實體實例及其屬性以友好的方式展現個用戶, 以一種「返回即可用」的理念, 免去用戶自行在大量的返回中尋找有趣的信息的工作。
而這種基於實體的搜索, 用於實體間關係抽取的工作的方法就包含支持向量機, 這也是支持向量機在搜索引擎上運用較為廣泛的地方。 這是一種基於特徵的實體關係抽取方式, 簡而言之就是將一句話中的兩個實體的上下文環境及其自身的相關屬性進行抽象, 最終目的是抽象成一個特徵向量, 這些特徵可能包括句法依存關係及路徑, 語義信息, 詞性, 上下文距離等。具有相似上下文特徵的若干對實體對會被分成同一類實體關係。這種技術的關鍵是特徵的選取, 之所以需要謹慎的選取特徵, 我自己認為主要有兩點原因:
一、沒有辦法用有限的特徵完全描述出一個實例, 永遠不可能。二、即便我們完成了上一條工作。 當然, 那是不可能的, 我們的硬體也沒有能力進行如此龐大的運算。基於上面所屬的原因, 應用支持向量機實現實體關係的做法本身就對精度做出了妥協, 因為在進行大量訓練和統計之前, 誰也不知道自己選取的特徵是否合理, 而且該選取什麼作為特徵, 選取多少特徵, 沒有絕對的標準, 因為選取特徵的過程, 是一個絕對主觀的過程。因此, 雖然支持向量機的實體關係抽取辦法實現相對簡單, 但是大多數人目前傾向使用kernel的方法。 因為我對kernel在實體關係抽取上的應用還沒有足夠的認知, 這裡就不獻醜了, 請教相關高手能夠指點迷津。
另外, 支持向量機也可以做輿情判斷, 特別是在短文本領域有較好的效果。 搜索引擎可以將相關消息, 或者諮詢新聞的評論或者是其轉發微博進行情感分析, 生成輿情圖像展示給用戶, 可以讓用戶直觀的了解網民對於一件事情的看法, 以提高用戶體驗。
總體而言, 支持向量機在搜索引擎上雖然用處廣泛, 但如果單純使用的話, 難以保證精度或者是效果, 說到底, 其本質是用一條回歸線去劃分點的模型, 從本質上就容忍了誤差, 個人覺得難以單純的用這門技術開發商業應用。
推薦閱讀:
※機器學習演算法實踐-SVM中的SMO演算法
※關於支持向量機的數學問題?
※BAT機器學習面試1000題系列(181-185題)
TAG:SVM |