基於語義的智能Web挖掘技術研究
摘要:目前,基於語義的Web挖掘技術結合了語義Web與Web挖掘兩個領域,並且在一定程度上促進了各自的發展。本文介紹了語義網與Web挖掘、智能代理相關概念的體系構造,並且提出了基於語義的Web挖掘信息體系模型構建智能採集體系的代理框架,通過分析表明該體系模型在一定程度上提升了信息獲取的智能水平。
關鍵詞:語義;web挖掘;智能技術
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)08-0147-01
1研究概述
Web挖掘與傳統數據挖掘不同,能夠有效挖掘互聯網上非構造化異構Web文檔集合。Web挖掘的內容的類型通常是內容、構造挖掘與使用記錄挖掘。
伴隨社會經濟與相關資料相關技術的全面發展,搜索活動已被整合到社會經濟的各個角落。相關資料搜索產業作為國內外蓬勃發展的產業,已成為社會經濟體系的重要組成部分。相關資料搜索行業具有廣泛的工作範圍,如政策搜索、管理搜索、工程搜索、相關技術搜索、專業搜索等。各類搜索活動都體現了現代搜索的重要功能之一——科學決策。但是,伴隨大數據時代的到來,相關資料的存在方式發生了巨大的變化,數據結構與傳輸方式多樣化的多樣性,使得傳統的相關資料搜索服務,客戶滿意度低,自發化程度不高,難以滿足組織與個人的需求。豐富的知識元素與智力是隱藏在巨大而多樣化的相關資料背後的,但卻沒有及時發現與有效利用,這嚴重影響了相關資料搜索活動的效率。本文在觀察解析文本與網路語義智能搜索服務模式與系統體系結構、文本與網路語義觀察解析方法與人工智慧相關技術在搜索服務中的應用的基礎上,提出了提高搜索服務智能化水平的建議。
2在多主體框架下構建信息智能獲得體系模型
在文本與Web語義觀察解析基礎上構建對象本體知識元素庫。經過自然語言處理,並將非結構化文本數據觀察解析為可操作的相關資料,使用結構化文本數據中的數據挖掘相關技術與工具提取相關知識元素,結合機器學習與自然語言處理相關技術相結合,實現了基於公理/規則的自發對象本體學習,並構建了領域對象本體。基於對象本體知識元素基礎構建,將對象本體知識元素運用到領域知識元素的形式化,明確地對資源深度組織與利用,基於知識元素庫的實現,以提供語義支持;基於對象本體知識元素庫對文本與Web資源的語義注釋,經過對目標文檔的語義標註自發分類索引,實現網路資源與域對象本體的匹配映射。
代理是一種智能軟體實體,能夠在特定的環境中與相關的代理進行通信。代理人通常擁有自主權、社會性、主動與被動的反應能力、自我適應能力與機動性。
基於Web挖掘與語義Web的理論,利用智能代理技術建立了信息智能採集體系模型(agbase-basedsem iantic-ieb),並且對其進行了分析。這個體系模型包含了以下如圖1所示。
基於對象本體知識元素庫的交互指導模式如圖所示。觀察解析使用者的初始需求,建立自發啟發式與規則,智能地引導使用者索引相關資料,實現使用者需求挖掘;在過程中動態交互,不斷使用對象本體知識元素庫推論,使用自然語言觀察解析相關技術,結合對象本體知識元素庫,實現使用者的自發解析與查詢擴展,使使用者在索引相關資料問題的過程中自發識別、診斷、交互搜索,設置使用者問題與搜索系統相關閾值,進行邊界篩選來解決問題;經過知識元素管理、積累與動態更新搜索服務知識元素、相關技術與流程,搜索服務伴隨使用者、資源與相關技術的變化而發展。建立搜索與轉發機制,及時搜索與解決系統不能解決的問題。
對象本體代理的主要任務是維護對象本體庫,以更新與共享對象本體知識元素。對象本體代理使用對象本體的語義知識元素,並擴展查詢請求,即語義處理,語義過濾與結果集群處理是為了提高返回相關資料的相關性。我們還能夠利用Web挖掘相關技術來輔助對象本體論學習來豐富與擴充對象本體論資料庫。
使用者代理與對象本體代理與索引代理進行交互,以完成使用者的查詢請求的提交、概念提取與返回結果的可視化,以及使用者的評價與反饋。當使用者代理接收到使用者的查詢請求時,它使用對象本體代理來執行語義擴展與其他處理,然後將處理過的查詢請求發送給索引代理以獲取相關資料。使用者代理處理返回的結果並執行可視化處理,同時學習使用者的反饋與評估。
RDF資料庫主要是從數據源中存儲相關資料採集代理,並以RDF格式、資源數據單元、三元組(AOV)形式、挖掘數據預處理(如語義標註等)的屬性與屬性值,同時也為對象本體學習做準備。對象本體庫是該系統的核心部分,它提供了共享的語義知識元素,並澄清了RDF數據的概念、關係與推論規則。它是對象本體學習與集成的基礎,為其他代理提供了共享的語義支持,並存儲與管理了對象本體代理所發現的新對象本體。
協調代理是多代理系統的重要組成部分,主要負責協調相關資料獲取代理、對象本體代理、挖掘代理、搜索代理等各種代理行為,並使對象本體RDF資料庫與代理實現有效的數據傳輸與交互。
運用概率推論與證據推論,模糊推論,如不可控性推論方法,定量表達人們的主觀判斷與處理,在搜索服務的過程中解決知識元素的不可控性,不可控性相關資料的計算,以及不確定的資源語義解釋;利用可靠性的方法,主觀的Bayes方法在代表與測量、匹配演算法與閾值選擇不可控性的搜索質量評價指標體系中,解決了證據組合與結論不可控性綜合問題的不可控性,定性與定量觀察解析的結合效應;以d-s證據理論為基礎,對搜索結果的可信度進行了評價,並對推論過程進行了解釋。
3結論
在當前階段,使用語義Web挖掘能夠有效地提升信息獲取的智能程度。本文以語義Web挖掘信息體系模型為基礎,在智能採集體系中應用智能代理技術,在一定程度上使用了代理通信與協調機制,提升了整個體系與智能層的性能。但體系模型需要在實踐中進一步完善,下一步是繼續研究本體的自動學習演算法與多個代理協調機制,優化Web挖掘基於語義信息的智能採集體系模型。
基於語義的智能Web挖掘技術研究_點點文摘網推薦閱讀:
※為什麼詹姆斯?卡梅隆團隊的深潛器下潛深度達到萬米,蛟龍號只有 7000 米?
※SpaceX火箭的優勢在哪裡?
※屠呦呦偉大之處,是為全人類抗瘧疾事業從0突破到1 | 科技袁人
※有什么尖货值得推荐?
※RFID定位、UWB定位、WIFI定位哪種更適合汽車維修店