標籤:

知識圖譜前沿課程(蘇州大學站)報告PPT

知識圖譜前沿課程(蘇州大學站)報告PPT

來自專欄 知識工場

知識圖譜前沿技術課程(蘇州大學站)報告PPT下載可前往 Workshop 2017

知識圖譜表達了各類實體、概念及其之間的各種語義關係,成為了大數據時代知識表示的主要形態之一。知識圖譜是目前人工智慧領域的一個重要支撐,已經在諸如智能問答、搜索、推薦等具體領域得到很好的應用。

蘇州大學先進數據分析研究中心是2013年7月成立的蘇州大學校級研究中心。現有教授3人,副教授5人,重點從事大數據和高性能海量實時數據分析研究,專註於資料庫、信息檢索、智能分析、數據質量管理、雲計算與信息服務等方向的研發工作,目前正在開展對知識圖譜構建、精化和應用等各方面的研究。

為此舉辦此次知識圖譜前沿技術課程,邀請了復旦大學、中科院軟體所、北京大學、華東師範大學、蘇州大學等高校著名學者,及騰訊、中興通訊、智言科技等業界領先企業代表,共濟一堂,開堂授課,交流研討。旨在集中展示知識圖譜的當前在學術界和工業界的進展,討論現有主要問題,為下一步知識圖譜方向的研究工作做好規劃。歡迎廣大師生、研究人員參與。

活動時間

12月02日(周六)

9:00 - 17:30

活動地點

蘇州大學本部(姑蘇區幹將路333號) 敬賢堂

乘計程車請在幹將東路333號蘇州大學校本部北門下車,進入時告知保安參加本次會議。或者搭乘地鐵1號線從相門站1號口出右轉,步行至會場。

報名方式

本課程不收取任何費用,與會人員食宿自理。為更好為大家提供服務,需在線報名,並在與會時簽到。請點擊「閱讀原文」進行報名。

日程安排

1、組織者簡介

李直旭 蘇州大學

李直旭,2013年畢業於澳大利亞昆士蘭大學,獲計算機科學博士學位。現為蘇州大學計算機學院特聘副教授,碩導,江蘇省「雙創」博士入選者。研究方向為數據質量,眾包技術和知識圖譜。現為CCF資料庫專委會通訊委員,人工智慧學會智能服務專委會委員。IEEE TKDE, WWWJ等期刊長期審稿人,已發表論文50餘篇。

2、報告人簡介

肖仰華 復旦大學

肖仰華博士,復旦大學計算機學院副教授、博導,復旦大學知識工場實驗室創始人、負責人,上海市互聯網大數據工程技術中心副主任,兼任多家規模企業高級顧問或首席科學家。主要研究興趣包括知識圖譜、大數據管理與挖掘。在SIGMOD,VLDB, ICDE, IJCAI, AAAI等國際頂級學術會議發表論文100多篇。領導構建國內首個知識庫雲服務平台(知識工場平台kw.fudan.edu.cn),以API形式對外服務4億次。

報告題目:大規模概念圖譜構建與應用

報告摘要:

概念是人類認知世界的基石,是思維活動藉以開展的基本單元。建立概念分類體系,並為數以千萬計的實體建立概念圖譜,是讓機器具備認知能力的至關重要的一步。傳統概念分類體系大都由專家手工構建、質量精良,但是構建代價高昂,規模有限。本報告結合知識工場實驗研發的大規模英文概念圖譜ProbasePlus以及當前最大規模的中文概念圖譜CN-Probase,介紹大規模高質量概念圖譜的自動化構建方法,並介紹大規模概念圖譜的應用場景以及相應的關鍵技術。

韓先培 中科院軟體所

韓先培,博士,中國科學院軟體研究所副研究員。主要研究方向是信息抽取、知識庫構建、語義計算以及智能問答系統。在ACL、SIGIR、AAAI、EMNLP等重要國際會議發表論文30餘篇。韓先培是中國中文信息學會語言與知識計算專業委員會副主任及中國中文信息學會青年工作委員會執行委員。於2016年獲得中國中文信息學會漢王青年創新獎一等獎,入選2017-2019中國科協青年人才托舉計劃。

報告題目:面向知識圖譜構建的信息抽取

報告摘要:

語義關係描述了實體及概念之間的關聯與交互,是人類知識的核心組成部分。構建知識圖譜的核心任務之一是從Web文本中抽取海量的語義關係。同時,每一段有意義的文本都描述了一組實體(時間、地點、人物、事件)以及這些實體相互之間的關聯和交互,如何抽取文本中的實體和它們之間的語義關係也就成為了理解文本意義的基礎。

針對上述任務,本報告將介紹近年來文本語義關係抽取技術上的相關進展,特別關注如何在Web環境下構建一個高性能的語義關係抽取系統。具體內容包括自擴展技術、遠距離監督技術、半監督技術和自學習技術。同時本報告也對關係抽取技術在知識圖譜和智能問答系統中的作用做一些個人思考。

鄒磊 北京大學

鄒磊,北京大學計算機科學技術研究所副教授、國家自然科學基金委優秀青年基金項目獲得者,北京大學大數據科學研究中心主任助理。目前的主要研究領域包括圖資料庫,RDF知識圖譜,尤其是基於圖的RDF數據管理。鄒磊及其團隊構建了面向海量RDF知識圖譜數據(超過100億三元組規模)的開源圖資料庫系統。鄒磊已經發表了30餘篇國內外學術論文,包括資料庫領域國際頂級期刊/會議論文(SIGMOD,VLDB等)近20餘篇;其論文被引用超過1200多次(根據Google Scholar的統計),單篇最高被引用298餘次。鄒磊獲得2009年中國計算機學會優秀博士學位論文提名獎和2014年中國計算機學會自然科學二等獎(排名第一)。

報告題目:面向知識圖譜的自然語言問答研究

報告摘要:

自然語言問答(QA)是指利用各種技術和數據對用戶提出的自然語言問題直接給出問題答案。QA任務根據所依賴的數據形態可以分成三類,分別是基於知識庫的問答(KB-QA)、基於文檔的問答(DB-QA)和社區問答(C-QA)。本次報告主要關注面向知識圖譜的問答系統。知識圖譜是目前知識庫的一種常見的表達形式,是以圖形(Graph)的方式來展現「實體」、實體「屬性」,以及實體之間的「關係」。近年來隨著大數據,人工智慧等概念與技術的興起,知識圖譜和KB-QA相關的研究工作和工業應用逐漸引起重視。例如由Amazon收購的EVI系統(原名為TrueKnowledge)[1],就是一種面向開放領域的結構化知識的問答系統。Facebook定義的Facebook Social Graph,用於連接社交網路的用戶,用戶分享的照片,電影,評論;在所構建的Social Graph基礎上,Facebook推出了Graph Search(圖搜索)功能,即將用戶的自然語言問題,轉化為面向Social Graph上的圖搜索問題,從而回答用戶的自然語言問題。另外越來越多的chatbot(聊天機器人)產品中也引入了面向知識圖譜的問答功能,使得chatbot和人交互時用戶可以獲得更多知識方面的回答。 IBM的Watson系統在參加智力問答節目《危險邊緣》(Jeopardy)的比賽時,也同樣採用DBpedia和Yago知識圖譜數據來回答某些自然語言問題。本次報告主要介紹目前學術界和工業界面向知識圖譜問答的主要關鍵技術和我們組在面向知識圖譜的自然語言問答系統方面的工作gAnswer。

林欣 華東師範大學

林欣,男,博士,現擔任華東師範大學計算機系副教授。目前主要致力於異構大數據管理研究。先後在該領域發表論文30餘篇,其中近三年在中國計算機學會推薦的A類頂級期刊TKDE和A類會議ICDE發表論文8篇。2011年入選首批「香江學者計劃」,赴香港浸會大學從事為期2年的訪問研究。2014年回國後入選上海市「浦江人才計劃」。現擔任SCI雜誌《Frontier of Computer Science》青年副主編,擔任TKDE、TPDS等權威學術期刊的審稿人,並多次擔任WAIM,ICPADS等國際會議的PC member。

報告題目:知識圖譜的眾包構建與精化

報告摘要:

知識圖譜的構建是知識圖譜領域中最受關注,也是最難的問題之一。由於語料來源雜亂不堪、自然語言處理技術存在瓶頸,完全靠機器並不能實現覆蓋度和準確率雙高。在構建的過程中,加入眾包可以實現知識圖譜的精化, 尤其在對計算機難以完成而人較容易完成的任務中,如實體對齊、範式匹配和關係判定等,眾 包可以發揮更大的作用。本次課程從眾包的基本原理展開,講授其中若干關鍵子問題,如眾包問題設計、質量控制等。結合知識圖譜構建中面臨的若干問題,分析各個眾包的例子,討論深智眾包的設計原則。

陳文亮 蘇州大學

陳文亮是蘇州大學計算機科學與技術學院教授。2013年1月回國加入蘇州大學計算機科學與技術學院。2005年-2010年在日本國立情報通信研究所擔任專家研究員。2011年-2012年在新加坡國立信息通訊研究院擔任研究科學家。目前擔任中國中文信息學會知識與計算專委會委員、中國中文信息學會青年工作委員會委員、江蘇省計算機學會青年工作委員會副主任委員、蘇州計算機學會理事會秘書長。在研主持江蘇省高校自然科學研究重大項目一項、國家自然科學基金一項,大型產業項目一項。主要研究領域包含語言分析、推薦系統、信息抽取、知識圖譜。目前主要專註於建設基礎語言分析平台和構建知識圖譜。

報告題目:基於噪音訓練數據的中文信息抽取研究

報告摘要:

中文信息抽取任務面臨最大問題是缺乏相應人工標註語料,特別是在一些新領域和新應用里。如何有效利用一些噪音數據用於構建高性能系統成為迫在眉睫的問題。本報告將介紹:1)基於眾包噪音數據的中文實體識別。利用蘇州大學的自然語言處理任務標註系統(SNAP),普通標註人員可以完成多種實體類別的標註任務。這些眾包數據和專家標註相比獲取代價較低但存在大量的不一致標註。基於這種眾包噪音數據,我們有效地搭建了中文實體識別系統,並在對話和電商領域測試中取得良好效果。2)基於遠程監督數據的關係抽取。遠程監督通過將知識庫用於非結構化文本對齊來自動構建大規模訓練數據,從而減輕對人工構建數據的依賴程度。在構建語料過程中,僅僅利用實體名稱進行對齊,而不同實體在不同關係下應該具有更加豐富多樣的語義表示,因此會造成錯誤標註等問題。針對該問題,我們提出基於句法上下文的實體表示來豐富實體在不同關係模式下的語義,並結合神經網路模型處理關係抽取任務。

賴坤鋒 騰訊

賴坤鋒博士,2013年畢業於香港理工大學,當前為騰訊MIG移動瀏覽產品部自然語言處理團隊的負責人。主要研究興趣包括:自然語言處理,用戶畫像,以及個性化推薦技術等。曾經在TMM,CIKM,NossDav,以及ICC等國際頂級會議發表文章。

鈄偉雨 騰訊

鈄偉雨,男,騰訊手機QQ瀏覽器知識圖譜組負責人。2010年加入騰訊,主要專註于海量後台架構設計與開發,知識圖譜的構建,包括大型爬蟲網路設計,圖存儲,在線引擎,推理引擎,信息抽取,關係挖掘等。

報告題目:騰訊大規模知識圖譜的構建與在自然語言理解中的應用

報告摘要:

知識圖譜旨在描述真實世界中存在的各種實體、概念以及它們之間的關聯關係,在語義搜索、智能問答、知識發現,個性化推薦等領域得到了廣泛應用,隨著人工智慧技術的發展,知識圖譜將扮演著越來越重要的角色。本報告結合騰訊手機QQ瀏覽器業務,介紹大規模高質量知識圖譜的自動化構建方法,圖存儲及圖譜開放平台的搭建,並介紹大規模知識圖譜在騰訊手機QQ瀏覽器資訊業務上的應用。

陳虹 中興通訊

陳虹,中興通訊股份有限公司,NLP技術預研高級工程師,認知智能項目經理,長期專註於人工智慧、智能問答、知識圖譜和NLP等方向的研究,並且在NLP落地產品實際應用有6年以上的豐富項目經驗,目前已有多款智能客服、語音助手等產品上線商用;同時也是公司大數據與人工智慧委員會專家委員和NLP組組長、公司南京研究院人工智慧委員會常務委員,江蘇省大數據專委會委員和江蘇省人工智慧協會會員,發表專利和論文十餘篇。

報告題目:Application and thinking of knowledge graph and its variants in industry practice (知識圖譜及其「變種」在行業實踐中的應用與思考)

報告摘要:知識是人工智慧時代的基石,而知識圖譜是蘊含人類大量先驗知識的寶庫,有人將其比喻為「通往強人工智慧之路的石油」,可見其不可或缺的地位。知識圖譜的應用價值在於,它能夠改變現有的信息檢索方式,一方面通過推理實現概念檢索;另一方面以圖形化方式向用戶展示經過分類整理的結構化知識。在數據多維異構、領域模式多樣化等現狀中,將知識圖譜的價值最大化,工業界責無旁貸。

本報告將介紹知識圖譜在行業實踐中的應用場景,面對不同的場景,現有的知識圖譜scheme是否具有普適性?針對特定場景,工業界需要如何「定製」自己的知識圖譜,從而形成哪些「變種」?同時知識圖譜還有哪些疑難問題是需要學術界和工業界共同探索研究的?

周柳陽 智言科技

周柳陽博士,2014年畢業於香港城市大學,畢業後於某大數據公司負責基於深度學習的語義理解和智能推理的產品化等工作。2016年作為聯合創始人成立了智言科技有限公司。智言科技是一家專註於深度學習和文本語義理解技術突破的人工智慧公司,致力於智能對話技術的研發和創新,以知識圖譜構建整個問答體系,為企業提供更懂用戶需求的智能問答系統,以用於智能客服、虛擬助理、智能家居等對話交互場景。智言科技的研發團隊博士佔比為30%,與國內外高校保持緊密的學術合作,其人工智慧語義理解平台(Webot),為企業提供國際領先、定製化的語義理解解決方案。目前,智言科技的產品已在互聯網金融、在線教育、保險、在線旅遊等新興行業以及物流等傳統行業落地。

報告題目:知識圖譜在工業界智能問答系統中的應用

報告摘要:

基於知識圖譜的智能問答受到工業界和學術界的大力關注,其在提高企業效率、變革交互方式等方面發揮著重要作用。在企業實際落地的過程中,面臨著初期數據缺少(冷啟動)以及在獲取大量數據後模型持續更新等問題。此外,客戶數據的多樣性、業務邏輯的複雜性,使得單一的基於結構化數據(知識圖譜)的問答難以覆蓋所有業務場景。本報告首先詳細介紹智言科技在冷啟動時,如何使用無監督方法落地單輪、多輪對話、圖譜構建和基於圖譜的問答系統。此外,在獲取一定量的標註數據後,該報告進一步介紹了基於深度神經網路的模型在語義匹配、知識圖譜構建、對話管理以及非結構化文本問答等方面的落地實施。最後,會簡要的討論如何在生產環境中持續優化模型。

主辦單位

蘇州大學先進數據分析研究中心

ada.suda.edu.cn

復旦大學知識工場實驗室

kw.fudan.edu.cn

贊助單位

國家自然科學基金

推薦閱讀:

知識圖譜技術如何落地金融行業?
報名 | CMU在讀博士生熊辰炎:基於知識圖譜和深度學習的文本表示和搜索
超詳細解讀:神經語義解析的結構化表示學習 | 附代碼分析
16.關於靠譜那回事

TAG:知識圖譜 |