語義搜索的核心價值是什麼?是搜索引擎的未來方向嗎?
語義搜索不應該作為一個獨立的概念來對待。搜索技術其實一直在發展,語義搜索僅僅是搜索引擎技術發展的一個方向而已。 Google Baidu這類搜索引擎本身就採用了大量的語義搜索技術...最近幾年有若干公司號稱用語義搜索的技術來挑戰Google 但是實際上都是曇花一現..比如 powerset(被微軟收購) http://hakia.com也有一些專門的問答網站基於語義搜索來構造,比如 wolframalpha 還有前端時間IBM吵的很火的的waston也可以算是語義搜索的一個例子..
理想的、完美的語義搜索,與現有的搜索形態相比,就是全自動和半自動的差別,發展到極致,比如科幻片中的人機對話,還是很令人嚮往的。
如果說「未來」的話,肯定是方向之一,當然這個未來可能很長。
在這個過程中,針對主流需求,通過簡單的模式匹配,創造介於兩者之間的體驗,將日益流行,尤其在垂直搜索中。試一下下面兩個例子,你就明白了 1. http://s.etao.com/search?q=%D7%EE%B1%E3%D2%CB%B5%C4%CA%D6%BB%FA 2. http://s.taobao.com/search?q=%B1%B1%BE%A9%B5%BD%D6%A3%D6%DD%B5%C4%BB%FA%C6%B1這個問題請容我做一下離題的回答吧。給自己思考的事情是,為什麼像「語義搜索」、「社會化搜索」、「情境搜索」、「智能推薦」這些彷彿在10年前的教科書也好、科幻片也好,突然這幾年這麼熱,突然誰提了誰做了點就像新大陸一樣。所謂理解本質需求提供精準答案難道不是搜索一直所求的么。
就搜索的技術而言,總覺得這些年也沒有實際的突破。(求技術達人拍)所謂的搜索新方向新領域新突破更像是搜索本身這個廚子廚藝沒有更精湛,只是更嫻熟,但是隨著整體信息化程度加深,食物原料大大豐富了。1. 基於自然語言處理、pagerank的傳統搜索改進進入邊際效益較低期,這個領域的產品和技術相對更有時間去探索新東西。2. 用戶需求識別,資源識別這些本身傳統搜索就會用到的技術積累得越來越成熟。其實現在所謂knowledge graph用到的東西都是在老搜索中找得到影子的,比如相關搜索。當然,還有個條件是——3. 資源,各路資源的結構化不斷加強(渠道可能是UGC機制的保障和多年各領域的人肉)。我們各種在Knowledge graph里看到的驚艷匹配我很懷疑幾分是技術上的高深處理,幾分是資源本身結構化就很強,搜索做的是簡單tag匹配的事情(近來還有個小震撼就是麵包旅行這樣的app建數據的過程中也注意嚴苛的結構化)4. 虛擬資源形態的豐富,比如微博以前是沒有的。沒有這玩意自然也沒人研究所謂實時微博搜索。
5. 實體資源的信息化加深,隨著信息化的發展,更多實體內容擁有可被搜索的數字化信息。6. 移動發展極大延展了搜索可使用的場景,積累了移動領域信息,並且可用於個人決策。在這個問題時我曾經回答過:http://www.zhihu.com/question/19663670
英文搜索比中文搜索個人感覺在做語義這方面要簡單一些,當然,本人沒有接觸過英文SEO,同時英語成績也不強。但是中文的話,比較麻煩。因為本來中文就講究一個含蓄,很多比較直白的東西感覺講出來比較露骨,那就含蓄一下。英文與中文比,英文你在文本框內輸入的詞越多得到的結果越相關,而中文則不一定,因為那個操蛋的分詞。所以說,分詞的終極版本就是語義分析。當然,這個只限定於中文搜索,外文的咱沒有研究過。到時候人們使用搜引的時候,就不是像現在這樣,而應該是在文本框中輸入你想要得到的結果的描述。比如說,我想找一個做圖片的素材,那麼我在文本框中輸入:給人一種憂鬱感覺的圖片。返回的結果中就應該會有我心中所想要的那種。而不是像現在百度圖片裡面出現的那些。好歹沒有出現羊駝,真是阿彌陀佛了擁有智能、理解語義是信息技術發展的目標,其價值遠大於信息搜索,因為如果計算機能像人一樣理解語義,它不僅可以直接給出所需的信息還可以給出完美的服務。語義的處理和理解其用途與搜索有交叉但並不完全一致。
當前的搜索引擎只是語義理解發展不完善的過渡產物,有點像電話發明前的電報,電話發明前曾有很多人覺得「電報已經足夠好了, 沒有人會用電話這樣的東西」,但電話才更接近人們的真實需求。搜索引擎希望逐步擁有智能,google搞knowledge search,百度推了框計算,都在一步步向前走。當前的搜索引擎是自然語言處理的技術和資源最集中的地方,但是未來的語義搜索不一定屬於當前的搜索引擎,就像電報沒有發展成電話,擁有可視電話多年研究的ATT卻讓iphone之類的智能手機引領了潮流。
現在的路才剛開始,未來的語義搜索是什麼形式現在還很難說,就像汽車剛發明時連方向盤都沒有。未來的語義搜索將在很大範圍取代今天這樣的搜索引擎但不會徹底取代,就像電話對於電報,汽車對於蒸汽機車。語義的理解和處理擁有比當前搜索引擎更廣泛的應用範圍,IBM和apple這些非搜索引擎公司現在反而走在了語義搜索的前列,現在沒有任何羈絆的小公司或創業者也有很多機會。
未來的互聯網應該是服務和智能的結合,而不像現在的信息加搜索的模式。無論是語義網還是倒排索引都是技術手段, 實際上現在無論搜索引擎還是智能問答都同時採用了多類技術,關鍵還在於市場環境和需求。現有的搜索引擎是伴隨著html的擴張逐步發展起來的,隨著當前移動、服務、社交協作的發展,是不是有些需求和環境正在孕育下一代的語義搜索呢?關於語義的定義是不一樣的
姚旭跟吳琦的回答都是從語義網出發,呂濤則是從語義相關性出發從廣義角度說,語義最終目的都是希望計算機能夠讀懂人類語言,但這個目的何日能實現在目前來看是無法預測的,因為基於統計的人工智慧都只能反應一些淺的語義知識。語義網的初衷是良好的,期望把非結構化的互聯網組織成為結構化本體。不去評價語義網是否能夠成功也很難預測。
語義相似度定義同樣多樣化,這是在當前技術可以實現的前提下,很多互聯網創新應用的原始驅動力之一,當然也包括搜索。目標挺高上大,但只要最基本的中文分詞沒有突破,這行的一切努力都跟siri一樣,騙外行的
語義識別技術如果成熟了對機器人產業的影響都大於搜索產業。搜索的最後一步自然地融入了人的判斷。
語義搜索難點在於應用的多樣性以及對語義的定義。對於不用的應用,語義的定義是不一樣的。語義的相關性可以通過關鍵字來度量,可以通過時間的接近程度來衡量還可以通過空間的接近性來衡量。比如"紅燒肉怎麼做?" "如何做紅燒肉" "紅燒肉的做法",這種就屬於關鍵字來衡量,用潛在語義索引(LSI)技術就可以實現,LSI技術可以識別近義詞,盡量避免一詞多義和近義詞對搜索結果帶來的影響。而衡量文件系統中文件之間的語義相關性,可以通過文件名的關鍵字,可以通過文本內容的關鍵字,可以通過用戶給文件打的標籤中的關鍵字,但是上述關鍵字度量開銷都比較大,當前探索中的一種方法是通過文件的元數據,包括文件屬性和文件的provenance,比如文件的訪問時間,存儲位置,文件大小,文件之間的provenance關係等等。當前基於語義的查詢,相關研究比較多,但是並沒有一種「one fits all」的解決方案,主要還是和具體應用和實現目標有關。
1 自然語言處理和信息提取技術將互聯網上非結構化數據轉化為結構化數據 2 以實體和事件為中心進行跨文本的信息聚合3 信息網路建立和查詢 可視化這是我們目前的工作 跨越文本進行知識捜索
剛才想起語義搜索這件事,是因為意識到對同樣事物的描述有千差萬別。
一開始想到的辦法是收集每個人對相同事物的描述,這樣就可以通過不同描述得到相同事物,但是這樣費時費力;
後來想到的辦法覺得還算蠻簡單的,只是似乎只能是瀏覽器廠家更容易進行:獲取用戶搜索的關鍵詞,還有後續訪問的網站以及相應停留時間和長時間停留的內容,然後機器就可以學習到停留在相同內容的不同來源關鍵字了。
所以從我這種外行的角度來看,語義搜索更像是搜索自己腦子裡面的一個東西,只不過是藉助了別人的腦子,別人的關鍵字,以及別人的後續行為。
如果用戶可以這樣問:
「流通A股&<1億股的主營收入增長率&>35%的市盈率10-30的股票」
「凈利潤大於10億元的每股收益大於0.6元的中小企業板股」
對用戶意圖的理解並轉化相應的指令實現精準數據的返回。
而非簡單的關鍵字匹配。
關注語義搜索: 知言視頻580
1、語義搜索的核心是基於用戶的搜索。 理解用戶的搜索行為和動機,而不是基於關鍵詞去簡單搜索,在原有關鍵詞的基礎之上,根據用戶情景以及意圖分析,將最適合用戶的信息推送給他。
2、智能是未來的趨勢,隨著大數據熱潮的逼近,技術發展、市場需求、用戶反饋、等等方面包括服務已經很難滿足用戶的新想法,所以要通過數據挖掘,分析用戶信息,來做到精準化營銷及服務。 總結:好比在原有一鍋炒的基礎上,改為了精品小炒,那麼每一套菜更能符合細分人群的胃口!provenance system,persistent identification和file management system
語義搜索不止應用於語義搜索引擎,它可以應用在各領域,比如問答網站可以用語義搜索來實現自動問答或問答推薦。所以,語義搜索的核心價值是提高計算機的自然語言處理的能力從而提高勞動生產力。而它會不會是搜索引擎未來的未來,這很難說,「未來」可能是10年,100年,或1000年。
簡單的說就是「讓機器、軟體……理解人類語言(表面),從而讓機器、軟體……更好的為人類服務(究極目標,語義網真正的核心價值)」必須是搜索引擎的未來方向:1、對比一下幾年前的搜索結果質量和現在的搜索結果質量。這個結果不光是搜索引擎的努力,還有一大批SEOer的努力(可能其中很多人不是SEOer);2、之前看過的一段文字,忘了出處:「設想一下,如果是首先出現搜索引擎,然後出現網站,那麼現在會是什麼樣子?」——搜索引擎會制定網站標準,這個標準應該就是如何做一個能讓搜索引擎看得懂的網站……
個人感覺是的,因為就我周圍來看的話 很多同學並不怎麼會用搜索引擎:我通常如果要獲得更多信息的話只能以自己需要的問題來關鍵詞+空格+第二個關鍵詞來為搜索引擎提供關鍵詞,同時在遇到某個問題的時候搜索關鍵詞的時候需要考慮別人會怎麼問這個問題而不是以自己的方式表達,但是周圍的很多人都是不了解這樣的基本的搜索機制 直接向搜索引擎提問,很多時候獲得的信息不全面。
搜索的智能化未來趨勢
Iphone上面的siri已經作出了表率
推薦閱讀: