文本情感分析有什麼好資料、網站、工具推薦呢?
文本情感分析的基礎在於自然語言處理、情感詞典、機器學習方法等內容。以下是我總結的一些資源。
詞典資源:
SentiWordNet《知網》中文版中文情感極性詞典 NTUSD
情感辭彙本體下載自然語言處理工具和平台:
哈爾濱工業大學社會計算與信息檢索研究中心isnowfy/snownlp · GitHub漢語分詞:
自然語言處理與信息檢索共享平台 NLPIR.orgfxsjy/jieba · GitHub語料資源:
信息分類與情感發現課程:
斯坦福大學自然語言處理第七課「情感分析(Sentiment Analysis)」網站和博客:
Text Classification for Sentiment AnalysisSecond Try: Sentiment Analysis in Python : Andy BrombergBasic Sentiment Analysis with Python論文:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.244.9480rep=rep1type=pdf工具:
建議使用Python. 集成上述所有功能,簡單易學。自己寫過一個博客,基本有簡單實現上述步驟,厚臉皮貼出。
Explore in Data分享下我知道的,雖然還了解得不多…自己做的東西只是中文的,所以對英文的文本分析不太熟悉,而且演算法的東西也涉及得很少。拋磚引玉求推薦更多,尤其是博客和論壇。
資料:這本書記得也是在知乎看到的,可以當做教材參考http://book.douban.com/subject/5373023/;以文本挖掘、情感分析、觀點挖掘等關鍵詞搜索論文,綜述和應用類都可以看一些;情報類的期刊,如《情報雜誌》、《圖書館情報學》等也會涉及到這方面的內容。網站:我愛自然語言處理 NLP的演算法和模型為主武大瀋陽的博客 思路和應用,也有部分工具分享語料庫語言學在線 語料和語言學的論壇,理論、工具和編程開發方面的問題都可以討論
工具:ROST 虛擬學習團隊 就是武大瀋陽出的,傻瓜式但功能很強大語料庫在線 語料庫資源各位資料都很豐富啊,稍稍補充一下
兩種方向,
一個是通過匹配情感詞,然後搭配前後出現的「不」「非」等,給予記分,比如正面為加,負面為減等。最終判斷結果的正負,其中可以自己設定閾值,調整權重,輔助其他內容,比如表情,等。這個需要的資料是情感詞庫,網上一查就能找到,內地有一版,台灣大學有一版,都不錯。一個就是挖掘方法了,通過標註的褒義句和貶義句,用詞袋或者其他語料特徵訓練,建立分類器,然後work
這個需要的材料是標註庫,我今天恰好看到一版可以試試,是p?y?t?hon的snownlp的包,安裝後,有個情感文件夾,裡面有標誌的語料txt兩種方法,第一種結果往往比較好看,但是進步空間有限,遇到複雜語句就沒法做了,第二種更符合數據挖掘的精神,但是難度更高,往往效果比如第一種好看,挑自己喜歡的動手吧
先說開放工具部分吧.
這部分主要有三四個開放的玩家.
- 百度AI開放平台. 情感傾向分析-NLP-百度AI
- 騰訊文智. 騰訊文智中文語義平台-首頁
- 波森NLP. 首頁 - BosonNLP
- 衍數科技. ACNLP Demo
要說哪個好, 個人覺得是百度的. 免費, 隨便調用, 且支持開發語言比較多.
- 百度的: 支持API調用+6種語言的SDK
免費調用量大概是: 10w/天
調用也超級簡單, 幾行代碼搞定
2. 騰訊文智
易用性也不錯, 就是略微有點小氣
對, 也有免費調用次包, 一共5w次.
支持API及SDK調用方式, 不過文檔組織有點亂, 完整的步驟不好找, 得有耐心.
調用上還是很簡單的:
3. 波森NLP
我還沒體驗完, 稍等.
OM的方法其實不算太多,模型也都不複雜這篇綜述還不錯,可以看看:http://www.cse.iitb.ac.in/~pb/cs626-449-2009/prev-years-other-things-nlp/sentiment-analysis-opinion-mining-pang-lee-omsa-published.pdf但是這篇坑爹之處在於沒有目錄。。。
騰訊文智騰訊文智是一個語義分析開放平台,它基於並行計算和分散式爬蟲系統,給用戶提供語義分析OpenAPI。用戶通過短短几行代碼即可調用文智API,實現語義分析功能。文智的主要應用場景包括輿情監控、個性化推薦、語義搜索等。
1核心優勢
分析精準
千億級的互聯網語料,10年專註的語義分析研究,加上眾多騰訊產品的應用經驗,奠定了文智API精準分析的基礎。
服務高效
服務支撐高效穩定,同時配備完善及時的開發者支持。
介面全面
一站解決中文語義分析需求,集合詞法、句法、篇章、下載模塊,同時更多API也將不斷推出。
調用簡單
API調用簡單方便,支持多種編程語言,短短几行代碼即可獲取分析結果。
2API功能簡介
分詞/命名實體識別
提供智能分詞(基本詞和短語)、詞性標註、命名實體識別功能。用戶只需簡單的調用API介面即可獲取結果,無需擔心諸如新詞發現、歧義消除、調用性能等詞法分析難題。該功能在微信公共賬號搜索,應用寶搜索上的運用均取得了良好的效果。
情感分析
該功能能夠分析文本在情感上的傾向,判別文本屬於正向,中性或負向。它在輿情監控、話題監督、口碑分析等領域十分有價值。該功能已服務於騰訊質量開放平台的遊戲口碑監控,日調用超過5千萬次。
主題分類
為用戶提供自動文本分類服務,平台已對文本分類的模型演算法進行了封裝,用戶只需提供待分類的文本數據,而不必關注具體的實現,通過平台就能得到提供文本的所屬類別。目前平台能識別類別囊括了求職招聘、影視、音樂、健康養生、財經、廣告推廣、犯罪、政治等40多個類別,且演算法支持快速迭代更新已有類別及增加新類別。
關鍵詞提取
基於關鍵詞抽取平台, 為用戶實現諸如新聞內容關鍵詞自動提取、評論關鍵詞提取等提供基礎服務。支持用戶自定義詞典,提高在垂直領域的抽取效果。目前已經接入的業務包括騰訊新聞客戶端、手機騰訊網等。
同義詞
為用戶提供同義詞查詢服務,搜索團隊通過全網數據挖掘出海量同義詞,並持續對數據、模型等進行迭代更新,保證同義詞的效果始終與時俱進。用戶也可以通過提供產品專有的數據,與我們合作打造專屬的同義詞庫。同義詞服務作為搜索引擎檢索串理解的基本功能,目前已經應用在視頻、音樂、應用寶、群搜、商圈等數百個產品中。
糾錯
能夠實現對短文本的自動糾錯功能,長文本的自動糾錯也即將推出。用戶只需要提供業務數據和日誌, 無需關注技術細節和更新流程, 就可以享受到業務自身定製的糾錯服務, 甚至不提供業務數據,享受通用的糾錯服務。 目前已經接入的業務包括音樂、視頻、應用寶、雲搜等, 評測效果均好於競品。
轉碼
分為兩大類:網頁轉碼和網頁名片。網頁轉碼將在PC機上展示的二維頁面轉換為適合在手機等移動端設備上展示的一維頁面,方便用戶在移動端閱讀。網頁名片將頁面簡化為主體圖片、標題、摘要的組合,以「卡片」的形式展示給大眾,適合做頁面的分享、收藏、推廣等。用戶只需要提交網頁的 url ,就能獲取我們的轉碼服務,方便、快捷。當前,網頁轉碼已為公司QQ、qzone、微雲、微博、正文吧等平台提供服務。
下載抽取
基於分散式爬蟲系統, 用戶只需提供一個url即可輕鬆完成數據抓取, 也可與下載團隊合作打造專有的定向抓取服務。分散式爬蟲系統通過對全網url進行精準調度、智能壓力挖掘、自適應頁面更新周期預測,可以實現自動路由、url作弊識別、智能主題抓取等功能。水平的架構設計使得系統可以進行任意的擴展,同時結合公司海量運營的經驗,在系統監控、運營告警等方面都不斷進行完善使得系統可以穩定高效運行。
3調用快速上手指南
騰訊雲文智中文語義平台以SDK模塊的方式提供服務,多種編程語言都可以輕鬆使用。在正式使用之前,您需要首先在騰訊雲上註冊文智賬號。
調用示例
這裡將以一個簡單的情感分析任務為例,介紹騰訊雲sdk文智模塊的使用。
首先請在騰訊雲官方sdk下載地址下載或更新最新版本的sdk,本次以php-sdk為例,修改demo.php文件,修改點如下:
a)SecretId,SecretKey改為自己騰訊雲上相應的值,這裡查看:登錄 - 騰訊雲b)$package=array("offset"=&>0,"limit"=&>3); 改為: $package = array("content"=&>"李亞鵬挺王菲:加油!孩兒他娘。"); 說明:這是文智情感分析介面的參數。c)$a=$cvm-&>DescribeInstances($package);
改為: $a = $wenzhi-&>TextSentiment($package); 說明:這是文智模塊的相關介面,具體請查看介面列表:API - 騰訊雲平台說明文檔d)其他所有地方的$cvm改為$wenzhi,即替換為文智模塊。
修改後的demo.php如下:
&
error_reporting(E_ALL
^ E_NOTICE);
require_once
"./src/QcloudApi/QcloudApi.php";
$config =
array("SecretId" =&> "你在騰訊雲上的SecretId",
"SecretKey"
=&> "你在騰訊雲上的SecretKey",
"RequestMethod"
=&> "POST",
"DefaultRegion"
=&> "gz");
$wenzhi =
QcloudApi::load(QcloudApi::MODULE_WENZHI, $config);
$package =
array("content"=&>"李亞鵬挺王菲:加油!孩兒他娘。");
$a =
$wenzhi-&>TextSentiment($package);
if ($a ===
false) {
$error =
$wenzhi-&>getError();
echo "Error
code:" . $error-&>getCode() . ".
";
echo
"message:" . $error-&>getMessage() . ".
";
echo
"ext:" . var_export($error-&>getExt(), true) . ".
";
} else {
var_dump($a);
}
echo
"
Request:" . $wenzhi-&>getLastRequest();
echo
"
Response:" . $wenzhi-&>getLastResponse();
echo
"
";
轉個廣告,本人無任何利益關係個人參與過CCF之前的某個專題培訓,對把握一下領域的前沿方向還是有益處的
歡迎參加中國計算機學會《學科前沿講習班》
第67期 情感分析與深度學習
2016年5月28-29日北京
尊敬的ADL學員***先生:
人類在語言交流過程中通常富含豐富的情感信息,如何自動理解人類語言語音信息中的情感語義一直是自然語言處理與人工智慧領域的研究熱點與難點,情感分析技術在輿情分析與情報挖掘、電子商務與精準營銷等領域具有廣泛的應用前景。同時,在微軟小冰等聊天機器人或個人助理產品中,情感分析技術也是實現友好人機對話與情感交互的關鍵技術之一。近年來,隨著社交媒體大數據以及深度學習浪潮的崛起,情感分析技術無論是在研究還是應用上均取得了明顯的進展,成為推動人工智慧產業發展的重要驅動力之一。
本期CCF學科前沿講習班《情感分析與深度學習》圍繞文本情感分類與觀點挖掘、基於深度學習的情感分析、多模態情感計算等專題技術,邀請相關領域的專家學者做主題報告。這些報告將系統介紹情感分析與計算的基礎理論、方法和應用,重點介紹深度學習等前沿技術在該領域取得的最新進展,探討相關技術的未來發展趨勢。本講習班旨在幫助學員快速入門情感分析技術,了解學科熱點以及深度學習在情感分析中的應用方法,開闊科研視野,增進學術交流和增強實踐能力。學術主任:萬小軍 北京大學研究員
黃民烈 清華大學副教授
您是ADL老學員,特通知您,並優惠參加,詳見後。
期待您的參加或推薦兩位年輕老師或博士生來參加。這是一次了解情感分析與深度學習與頂級專家面對面交流的很好機會。
詳情請點擊:《情感分析與深度學習講習班簡介》
如果有意參加,請將附後的報名表填好後直接發給我們即可(adl@ccf.org.cn)
盼復!
中國計算機學會
2016年5月9日
特邀講者
劉兵 美國伊利諾斯芝加哥大學教授
報告題目:情感分析:觀點、情情緒挖掘
陶建華 中科院自動化所模式識別國家重點實驗室研究員
報告題目:情感計算研究的現狀與挑戰
秦兵 哈爾濱工業大學教授
報告題目:基於表示學習的文本情感深層語義分析
邱錫鵬 復旦大學副教授
報告題目:深度學習與自然語言處理
黃民烈 清華大學副教授
報告題目:基於統計約束的情感分析方法
萬小軍 北京大學研究員
報告題目:跨語言情感分析:現狀與挑戰
時間:2016年5月28-29日
上課地點:北京中科院計算所(北京海淀區科學院南路6號)註冊費:
1、
5月22日前註冊並繳費:CCF會員1300元,入會不滿三個月者:1500元(不含會費);非會員1700元。2、
現場繳費:會員、非會員均2000元。3、 CCF單位會員的人士參加,按CCF會員標準收費(由單位統一辦理)。
註:註冊費含資料和2天的午餐。優惠辦法:
1、同一單位一次有5人報名者,第6個人免註冊費(無論會員與否,僅對提前註冊者有效,當天註冊不予受理)
2、單位可購買年度卡,20人次起售,CCF單位會員每人次1300元,非CCF會員單位每人次1500元。年度卡當年有效。優惠辦法1有效。 3、對於推薦新學員參加的學員,CCF視具體情況給予獎勵。食宿及交通自理
繳費方式:
郵局匯款:北京2704信箱,郵編:100190 收款人:中國計算機學會
銀行轉賬:開戶行:北京銀行北京大學支行; 戶名:中國計算機學會 賬號:01090519 5001 201
097 020 28請務必註明:姓名+ADL67
報名方式:
即日起至2016年5月22日,報名者請點擊以下鏈接進入報名系統: ADL67期情感分析與深度學習報名表 ,按報名先後錄取,報滿為止。學會秘書處將用E-mail聯繫確認,之後繳費。
聯繫人:左茜
E-Mail: adl@ccf.org.cn電話:010- 6260 0321 -16 /187 0100
9590
這裡自我介紹一下吧,語憶科技是國內可以說最領先的中文文本多維情緒引擎提供商~
我們官網: http://yuyidata.com
目前在中文環境下的文本理解技術,主要可以做到判斷文本的情感極性(積極/消極)。然而這只是文本情緒理解領域內的第一步,技術完善性很低。只有極少數企業能做到基於中文文本的多維情緒能力。這裡拿我們舉個栗子~ 語憶科技是由一位哥倫比亞大學人工智慧碩士所創建的,我們專註於中文文本的多維情感解析技術,能對12種細節情緒(如興奮、喜悅、悲傷、憤怒等)作深度解析,並同時能夠對長文本中的具體關鍵詞(如長篇小說中的某個人物)進行情緒判斷,實現了從第一步到第三步的跨越。
如上圖所示,目前最新的情感解析引擎可以通過某一句語句,如「今天是個好日子,心情不錯」 先進行常規的二維正負極判斷——情感極性值。然而還提供了情感濃度判斷,告訴你其感情激烈程度。接下來是最核心的多維細節情緒提煉,如上圖所示。
下面再舉幾個栗子:
從上圖可以看到,最新的情感解析引擎不僅可以提取關鍵詞(觀點)還可以對關鍵詞進行情緒解析。如「我對套餐挺滿意,就是價格有些貴」這句話,對「套餐」和「價格」兩個關鍵詞分別求取的情感值是不同的。
然而最終有一個問題是逃不掉的,那邊是準確率。這裡可以提一下,語憶科技所提供的的情緒解析引擎經過某985/211大學認證,準確率高達90%
任何細節問題歡迎聯繫我們,也可以訪問我們的官網 http://yuyidata.com ~ 我們鼓勵任何形式的溝通
有一個很好用的傻瓜軟體,rost content mining,可以做一些基本的文本挖掘
nltk工具包是自然語言處理的好實驗工具
最近剛好在做文本分析項目,國外文本分析系統用的有所了解是verint文本分析系統,可以訪問他們官網了解。
基於文本分類,加上依存句法分析等,處理否定關係,轉折關係等引起的情感極性偏移
先來自我介紹一下,本人現為某國有媒體互聯網數據分析師,每天都要面對大量的新聞稿件,並要對這些新聞數據進行處理分析,主要的目的是探討新聞稿件的傳播規律,新聞稿件的傳播情況受到諸多因素的影響,一般可以分為三大類:稿件自身的質量、新聞的傳播渠道、社會環境及偶然機遇;其中稿件自身資料和傳播渠道是影響稿件傳播效果最為重要也最能控制的因素。社會環境及偶然機遇包括政治、科技、社會的變化等,這些在一定時間段是基本一致的,但也不排除偶發性的刺激。
在這裡主要說說稿件自身質量對稿件傳播效果的影響。
眾所周知,稿件質量的高低直接影響到傳播的效果。那麼什麼樣的稿件傳播效果好呢?就這一個問題的解決也是相當難的!
要解決這個問題必須用到相關的新聞稿件分析方法,按照新聞內容載體的不同主要涉及文本分析、圖像分析、語音分析和視頻分析,當前最主要的新聞呈現方式是文本加圖片,語音視頻也漸漸多了起來,所以文本分析是最為主要的。
文本分析可以從兩個層面進行:文本的自然屬性和文本的文化屬性。文本的自然屬性很好理解,就是一篇文章發布出來後用了什麼字體、有多少字數、是否有加粗、行間距段間距是多少、有多少段落等等;文本的文化屬性,由於「文化」的涵義特別廣,這裡用到的「文化」二字主要新聞文本的內容所包含的詞義、文意、情感、態度等偏向對人傳播過程中的心理成分。
文本的自然屬性分析相對較簡單,也不是文本分析的重點,文本的文化屬性分析才是最重要的也是最難的,其中涉及到詞義分析、文意分析、情感分析、態度分析等等。
那麼就回到了樓主的問題,文本情感分析如何做呢?其實除了文本情感分析,詞義、文意、態度分析用到的方法基本相當,當前的解決方法是通過此對字詞標註和類比運算,利用統計學方法的計算機演算法解決,但這個技術在當前仍然是不成熟的,自然語言處理在這方面的探索還有很長的路要走。
如果你的確感興趣或者有需要,可以去百度雲申請調用自然語言處理API介面,在國內來說百度做的還是比較先進的。
如果你想學習文本分析的方法,那麼你需要屬性高級統計學、R語言、Python、機器學習和自然語言處理的一些知識,要學會這些東西需要較長的時間,相關的資料和工具在網上很多的,你可以自行查詢。
我是夏默生,你可以加我的微信和我探討更多(微信:yqhou1992)
上述內容如有不當,敬請各位斧正!
實在找不到資源,還可以制定要求讓人工去標註,我們就專門提供人工標註服務,:)
推薦閱讀: