文本情感分析 文本情感分析

文本情感分析

  • 期刊名字:軟件學(xué)報
  • 文件大?。?85kb
  • 論文作者:趙妍妍,秦兵,劉挺
  • 作者單位:哈爾濱工業(yè)大學(xué)
  • 更新時(shí)間:2020-09-25
  • 下載次數:次
論文簡(jiǎn)介

ISSN 1000-9825, CODEN RUXUEWE-mail: jos@iscas.ac.cnJournal of Sofware, VoL.21, No.8, August 2010, Pp.1834-1848htp://www.jos.org.cndoi: 10.3724/SP.J.100 .2010.03832TelFax: +86-10-62562563。by Institute of Sofware, the Chinese Academy of Sciences. All rights reserved.文本情感分析趙妍妍,秦兵,劉挺(哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院信息檢索研究中心,黑龍江哈爾濱150001)Sentiment AnalysisZHAO Yan-Yan*,QIN Bing, LIU Ting(Center for Information Retrieval, Schoo of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)+ Corresponding author; E-mail: yyzhao@ir hit.edu.cnZhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834-1848. htp://www.jos.org.cn/1000-9825/3832.htmAbstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentimentanalysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentimentretrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, theapplications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstreammethods and recent progress in this field, making detailed comparison and analysis.Key words: .sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval andsummarization; evaluation; corpus摘要:對文本情感分析的研究現狀與進(jìn)展進(jìn)行了總結.首先將文本情感分析歸納為3項主要任務(wù),即情感信息抽取、情感信息分類(lèi)以及情感信息的檢索與歸納,并對它們進(jìn)行了細致的介紹和分析;進(jìn)而介紹了文本情感分析的國內外評測和資源建設情況;最后介紹了文本情感分析的應用.重在對文本情感分析研究的主流方法和前沿進(jìn)展進(jìn)行概括。比較和分析.關(guān)鍵詞:文本情感分析;情感信息抽取;情感信息分類(lèi);情感信息的檢索與歸納;評測;資源建設中圖法分類(lèi)號: TP391文獻標識碼: A隨著(zhù)Web2.0的蓬勃發(fā)展,互聯(lián)網(wǎng)逐漸倡導“以用戶(hù)為中心,用戶(hù)參與”的開(kāi)放式構架理念.互聯(lián)網(wǎng)用戶(hù)由單純的“讀"網(wǎng)頁(yè),開(kāi)始向“寫(xiě)"網(wǎng)頁(yè)、“共同建設"互聯(lián)網(wǎng)發(fā)展,并由被動(dòng)地接收互聯(lián)網(wǎng)信息向主動(dòng)創(chuàng )造互聯(lián)網(wǎng)信息邁進(jìn).因此,互聯(lián)網(wǎng)(如博客和論壇)上產(chǎn)生了大量的用戶(hù)參與的、對于諸如人物、事件、產(chǎn)品等有價(jià)值的評論信息.這些評論信息表達了人們的各種情感色彩和情感傾向性,如喜、怒、哀、樂(lè )和批評、贊揚等.基于此,潛在的用戶(hù)就可以通過(guò)瀏覽這些主觀(guān)色彩的評論來(lái)了解大眾輿論對于某-事件或產(chǎn)品的看法.由于越來(lái)越多的用戶(hù)樂(lè )于在互聯(lián)網(wǎng)上分享自己的觀(guān)點(diǎn)或體驗,這類(lèi)評論信息迅速膨脹中國煤化工河上海量信息的收集和處理,因此迫切需要計算機幫助用戶(hù)快速獲取和整理這些相:MYHCNMHG-1ent analysis)技術(shù)應●Supported by the National Natural Science Foundation of China under Grant Nos.60803093, 60975055 (國家自然科學(xué)基金); theNational High-Tech Research and Development Plan of China under Grant No.2008AA01Z144 (國家高技術(shù)研究發(fā)展計劃(863))Received 2009-08-14; Revised 2009-12-25; Accepted 2010-03-11趙妍妍等:文本情感分析1835運而生(本文中提及的情感分析,都是指文本情感分析).文本情感分析又稱(chēng)意見(jiàn)挖掘,簡(jiǎn)單而言,是對帶有情感色彩的主觀(guān)性文本進(jìn)行分析、處理、歸納和推理的過(guò)程.最初的情感分析源自前人對帶有情感色彩的詞語(yǔ)的分析",如,“美好"是帶有褒義色彩的詞語(yǔ),而“五陋”是帶有貶義色彩的詞語(yǔ).隨著(zhù)互聯(lián)網(wǎng)上大量的帶有情感色彩的主觀(guān)性文本的出現,研究者們逐漸從簡(jiǎn)單的情感詞語(yǔ)的分析研究過(guò)渡到更為復雜的情感句研究以及情感篇章的研究基于此,按照處理文本的粒度不同,情感分析可分為詞語(yǔ)級、短語(yǔ)級、句子級、篇章級以及多篇章級等幾個(gè)研究層次21按照處理文本的類(lèi)別不同,可分為基于新聞評論的情感分析和基于產(chǎn)品評論的情感分析.其中,前者處理的文本主要是新聞評論,如情感句“他堅定地認為臺灣是中國不可分割的一部分”,表明了觀(guān)點(diǎn)持有者“他”對于事件“臺灣歸屬問(wèn)題"的立場(chǎng);后者處理的主要是網(wǎng)絡(luò )在線(xiàn)的產(chǎn)品評論文本,如“Polo的外觀(guān)很時(shí)尚",表明了對評價(jià)對象“Polo的外觀(guān)”的評價(jià)“時(shí)尚"是褒義的.由于基于產(chǎn)品評論的情感分析可以幫助用戶(hù)了解某-產(chǎn)品在大眾心目中的口碑,因此受到很多消費者和商業(yè)網(wǎng)站的青睞.而基于新聞評論的情感分析多用于輿情監控和信息預測中,是國內外評測中重要的評測任務(wù).情感分析涉及多項非常有挑戰性的研究任務(wù).本文綜合已有的研究成果,將情感分析歸納為3項層層遞進(jìn)的研究任務(wù),即情感信息的抽取、情感信息的分類(lèi)以及情感信息的檢索與歸納,如圖1所示.Search: Canon 4D! SummarizationCanon 4D用起來(lái)不錯這個(gè)數碼相機的鏡頭Sentiment retrieval and非常不錯.但就是照summarization相的時(shí)候快門(mén)太響.Bypurpose I M 8By grainSentiment, Subjctivity analysisWord levelPhrase levelclassificationPolarity clssifcationDocument levelOpinion holderPolarity word]Appraisal expressionSentiment extraction我不錯相片質(zhì)量不錯相片質(zhì)量Fig.1 Research framework of sentiment analysis圖1情感分析的研究框架情感信息抽取是情感分析的最底層的任務(wù),它旨在抽取情感評論文本中有意義的信息單元.其目的在于將無(wú)結構化的情感文本轉化為計算機容易識別和處理的結構化文本,繼而供情感分析上層的研究和應用服務(wù).如將情感句“我覺(jué)得Canon的相片質(zhì)量不錯”轉化為如圖1所示的結構化文本形式情感信息分類(lèi)則利用底層情感信息抽取的結果將情感文本單元分為若干類(lèi)別,供用戶(hù)查看,如分為褒、貶兩類(lèi)或者其他更細致的情感類(lèi)別(如喜、怒、哀、樂(lè )等).按照不同的分類(lèi)目的,可分為主客觀(guān)分析和褒貶分析;按照不同的分類(lèi)粒度,可分為詞語(yǔ)級、短語(yǔ)級、篇章級等多種情感分類(lèi)任務(wù).這些分類(lèi)任務(wù)在情感分析初期吸引了大量的研究者.最高層的情感信息的檢索與歸納可以看作與用戶(hù)直接交互的接口,著(zhù)重強調檢索和歸納兩項應用.該層次的研究主要在前兩項任務(wù)即情感信息抽取和分類(lèi)的結果的基礎上進(jìn)行進(jìn)-步的加工處理.情感分析是一個(gè)新興的研究課題,具有很大的研究?jì)r(jià)值和應用價(jià)值B-51.鑒于此,該研究課題受到國內外越來(lái)越多的研究機構的重視.本文在接下來(lái)的部分首先分別詳細闡述情感分析的3個(gè)主要研究任務(wù),重點(diǎn)針對各任務(wù)的主流方法和前沿進(jìn)展進(jìn)行對比分析;接著(zhù)介紹國內外主流的評測會(huì )議以及現有的資源建設情況;然后介紹情感分析的幾個(gè)重要應用點(diǎn);最后,展望情感分析技術(shù)的發(fā)展起中國煤化工1情感信息抽取"TYHCNMHG情感信息抽取旨在抽取情感文本中有價(jià)值的情感信息,它可以看作情感分析的基礎任務(wù).-直以來(lái),學(xué)術(shù)界對它興趣不減.縱觀(guān)目前的研究現狀,有價(jià)值的情感信息單元主要有評價(jià)詞語(yǔ)(如優(yōu)秀、好用)、評價(jià)對象(如GPS.1836Journal of Software 軟件學(xué)報Vol.21, No.8, August 2010屏幕分辨率)、觀(guān)點(diǎn)持有者(如國家政府、臺灣當局)等.在對大量的情感文本進(jìn)行分析之后,不少研究者發(fā)現,某些組合搭配對于情感分析的上層任務(wù)如情感信息分類(lèi)以及情感信息的檢索與歸納有更直接的幫助,如評價(jià)搭配(評價(jià)對象和評價(jià)詞語(yǔ)的搭配,如屏幕分辨率-高)、評價(jià)短語(yǔ)(程度副詞及其修飾的評價(jià)詞語(yǔ)的搭配,如不怎么-好)等.下面本文將-一介紹目前情感信息抽取的具體任務(wù)及其主要實(shí)現技術(shù),1.1評價(jià)詞語(yǔ)的抽取和判別評價(jià)詞語(yǔ)又稱(chēng)極性詞、情感詞,特指帶有情感傾向性的詞語(yǔ).顯然,評價(jià)詞語(yǔ)在情感文本中處于舉足輕重的地位,評價(jià)詞語(yǔ)的識別和極性判斷在情感分析領(lǐng)域創(chuàng )建伊始就引起了人們極大的興致.基于前人大量的研究工作,評價(jià)詞語(yǔ)的抽取和判別往往是一一個(gè)一體化的工作,主要分為基于語(yǔ)料庫和基于詞典兩種方法|(.基于語(yǔ)料庫的評價(jià)詞語(yǔ)抽取和判別主要是利用大語(yǔ)料庫的統計特性,觀(guān)察一些現象來(lái)挖掘語(yǔ)料庫中的評價(jià)詞語(yǔ)并判斷極性早期的一些學(xué)者發(fā)現,出連詞(如and或but)連接的兩個(gè)形容詞的極性往往存在--定的關(guān)聯(lián)性,如and連接的形容詞(如lovely and beautiful)極性相同,然而but連接的形容詞(如lovely but unnatura)極性相反基于這種現象,Hatzivasiloglou和McKeown!"從大語(yǔ)料庫華爾街日報(Wall Street JournaI)中發(fā)捌出大量的形容詞性的評價(jià)詞語(yǔ).Wiebe等人7]沿襲了較為相似的工作,他們使用了一種柑似度分布的詞聚類(lèi)方法在大語(yǔ)料庫上完成了形容詞性的評價(jià)詞語(yǔ)的獲取.然而,以上的兩種方法僅將評價(jià)詞語(yǔ)的詞性局限于形容詞詞性,卻忽略了其他詞性的評價(jià)詞語(yǔ).為了避免評價(jià)詞語(yǔ)詞性的限制,Riloff等人8)手工制定-些模板并選取種子評價(jià)詞語(yǔ),使用迭代的方法獲取了名詞詞性的評價(jià)詞語(yǔ).隨后,Turmey和Littman!9)提 出了點(diǎn)互信息(point mutualinformation)的方法判別某個(gè)詞語(yǔ)是否是評價(jià)詞語(yǔ).這種方法適用于各種詞性的評價(jià)詞語(yǔ)的識別,但是較為依賴(lài)種子褒/貶詞語(yǔ)集合.鑒于此,基于語(yǔ)料庫的方法最大的優(yōu)點(diǎn)在于簡(jiǎn)單易行,缺點(diǎn)則在于可利用的評論語(yǔ)料庫有限,同時(shí)評價(jià)詞語(yǔ)在大語(yǔ)料庫中的分布等現象并不容易歸納.基于詞典的評價(jià)詞語(yǔ)抽取及判別方法主要是使用詞典中的詞語(yǔ)之間的詞義聯(lián)系來(lái)挖掘評價(jià)詞語(yǔ).這里的詞典一般是指使用WordNet或HowNet等.很自然地,有學(xué)者想到利用詞典將手工采集的種f評價(jià)詞語(yǔ)進(jìn)行擴展來(lái)獲取大量的評價(jià)詞語(yǔ)10-1.這種方法簡(jiǎn)單易行,但是較依賴(lài)f種子評價(jià)詞語(yǔ)的個(gè)數和質(zhì)量,并且容易由于一些詞語(yǔ)的多義性而引入噪聲.為了避免詞語(yǔ)的多義性,一部分學(xué)者使用詞典中詞語(yǔ)的注釋信息米完成評價(jià)詞語(yǔ)的識別與極性判斷(13-16.此外,-些學(xué)者7]沿用了Turey等人的點(diǎn)互信息的方法9),通過(guò)計算WordNet中的所有形容詞與種子褒義詞代表good和貶義詞bad之間的關(guān)聯(lián)度值來(lái)識別出評價(jià)詞語(yǔ)然而,并非所有語(yǔ)種的情感資源都像英文-樣豐富,對于某些詞典資源非常稀缺的語(yǔ)種,有學(xué)者將詞典資源豐富的語(yǔ)種的情感詞典翻譯到資源較少的語(yǔ)種中18,如將英文的情感詞典翻譯成中文,供中文情感分析應用.但是實(shí)驗顯示,不少評價(jià)詞語(yǔ)在經(jīng)過(guò)翻譯之后極性發(fā)生了改變這也印證了Wiebe 在文獻[19]中所指出的“詞語(yǔ)的詞義和其極性有一-定的關(guān)系,但是相同的詞義并不一定有相同的極性”.鑒于此,基于詞典的方法的優(yōu)點(diǎn)在于獲取的評價(jià)詞語(yǔ)的規模非??捎^(guān),但是由于很多詞存在一-詞多義現象,構建的情感詞典往往含有較多的歧義詞,如詞語(yǔ)“好”在大多數情況下表現為“優(yōu)秀”的意思,但在某些情況下扮演修飾成分(如“他跑得好快啊!").此外,還有一部分學(xué)者采用基于圖的方法來(lái)識別評價(jià)詞語(yǔ)的極性[6.20].具體來(lái)說(shuō),該方法將要分類(lèi)的詞語(yǔ)作為圖上的點(diǎn),利用詞語(yǔ)之間的聯(lián)系形成邊來(lái)構建圖,繼而采用各種基于圖的迭代算法(propagationalgorithm)來(lái)完成詞語(yǔ)的分類(lèi).如,有學(xué)者考察圖中兩個(gè)詞語(yǔ)的注釋信息而構建圖[20),繼而使用Spin模型對圖中的點(diǎn)迭代地進(jìn)行概率計算,得出每個(gè)詞語(yǔ)的極性.還有-些學(xué)者嘗試使用多種圖模型(),如最小切分模型(mincuts).隨機最小切分模型(randomized mincuts)、 標簽迭代模型(label propagation)等完成評價(jià)詞語(yǔ)的褒貶分類(lèi).實(shí)驗證實(shí)了基于圖的方法的有效性基于圖的方法是一種新穎的方法,它可以靈活地將詞語(yǔ)間的各種聯(lián)系作為特征融入圖中,繼而進(jìn)行迭代計算然而,尋找更為有效的詞語(yǔ)間特征以及如何選取圖管法是信俎漚λ研究的問(wèn)題.中國煤化工1.2評價(jià)對象的抽取MYH.CNMHG,評價(jià)對象是指某段評論中所討論的主題,具體表現為評論x本中計價(jià)例謝所修仰的對象,如新聞評論中的某個(gè)事件/話(huà)題或者產(chǎn)品評論中某種產(chǎn)品的屬性(如“屏幕")等.現有的研究大部分集中于產(chǎn)品領(lǐng)域的評價(jià)對象趙妍妍等:文本情感分析1837的抽取,他們大多將評價(jià)對象限定在名詞或名詞短語(yǔ)(候選評價(jià)對象)的范疇內,進(jìn)而對它們進(jìn)行進(jìn)-步的識別.一部分學(xué)者使用基于規則/模板的方法抽取評價(jià)對象.規則的制定通常要基于一系列的語(yǔ)言分析與預處理過(guò)程,如詞性標注、命名實(shí)體識別、句法分析等相應地,制定的規則也包括詞序列規則、詞性規則以及句法規則等形式.Y[21]使用3條限制等級逐漸遞進(jìn)的詞性規則從候選評價(jià)對象中抽取出真正的評價(jià)對象.還有的學(xué)者22.23使用關(guān)聯(lián)規則挖掘的方法或是基于句法分析的結果叫找出頻繁出現的候選評價(jià)對象,繼而使用兩種剪枝方法去除錯誤樣例.然而,這些方法僅能找出頻繁的評價(jià)對象.為了發(fā)掘出非頻繁的評價(jià)對象,有學(xué)者嘗試使用含有評價(jià)詞語(yǔ)和評價(jià)對象槽(slot)的詞序列模板12.此類(lèi)方法最主要的優(yōu)點(diǎn)在于針對性強,可以直接針對待解決的問(wèn)題或特定的語(yǔ)言現象制定規則/模板;而其缺點(diǎn)則在于規則/模板的可擴展性差,人工編寫(xiě)的工作量大,成本較高.有學(xué)者1(29)從另--個(gè)角度詮釋了評價(jià)對象的抽取.他們將評價(jià)對象看作產(chǎn)品屬性的--種表現形式(如對數碼相機領(lǐng)城而言,"相機的大小”是數碼相機的一個(gè)屬性,而“相機滑蓋”是數碼相機的一一個(gè)組成部分),繼而考察候選評價(jià)對象與領(lǐng)域指示詞(如“整體部分”關(guān)系指示詞“scannerhas")之間的關(guān)聯(lián)度來(lái)獲取真正的評價(jià)對象.實(shí)驗結果表明,這種方法取得了較好的實(shí)驗效果,超過(guò)了基于規則/模板的方法,但難點(diǎn)在于領(lǐng)域指示詞的獲取.近年來(lái),隨著(zhù)話(huà)題模型(topicmodel)26,2]的逐漸興起,很多學(xué)者將其應用到情感分析領(lǐng)域.由于評價(jià)對象是蘊涵于情感文本中的某些話(huà)題,因此可以使用話(huà)題模型來(lái)評價(jià)對象的識別.有學(xué)者(28采用多粒度的話(huà)題模型挖掘產(chǎn)品領(lǐng)域情感文本中的評價(jià)對象,并將相似的評價(jià)對象進(jìn)行聚類(lèi).這種方法理論上能夠提高評價(jià)對象抽取的召回率.但遺館的是,還沒(méi)有實(shí)驗將這種方法與上述傳統的基于名詞短語(yǔ)的方法進(jìn)行對比.此外,還有--部分學(xué)者從事新聞評論文本中的話(huà)題評價(jià)對象的抽取[29.30).如,對于情感句“所有人都認為政府應該加強改普醫療衛生條件",抽取話(huà)題評價(jià)對象“政府應該加強改善醫療衛生條件".1.3觀(guān)點(diǎn)持有者抽取觀(guān)點(diǎn)持有者的抽取在基于新聞評論的情感分析中顯得尤為重要,它是觀(guān)點(diǎn)/評論的隸屬者,如新聞評論句“我國政府堅定不移的認為臺灣是中國領(lǐng)土不可分割的一部分”中的“我國政府”.很自然地,人們會(huì )想到評論中的觀(guān)點(diǎn)持有者一般是由命名實(shí)體(如人名或機構名)組成,因此可以借助于命名實(shí)體識別技術(shù)來(lái)獲取觀(guān)點(diǎn)持有者[3.此外,還有學(xué)者曾嘗試借助語(yǔ)義角色標注來(lái)完成觀(guān)點(diǎn)持有者的抽取(29.但是這些方法較為依賴(lài)自然語(yǔ)言處理的基礎技術(shù),有較低的語(yǔ)言覆蓋現象和較差的領(lǐng)域適應性.還有人將觀(guān)點(diǎn)持有者的抽取定義為分類(lèi)任務(wù),這種方法的關(guān)鍵在于分類(lèi)器和特征的選取.如Choi將其看作一個(gè)序列標注問(wèn)題([32,并使用CRF(conditional random field)模型融合各種特征來(lái)完成觀(guān)點(diǎn)持有者的抽取.相似地,Kim!"將所有名詞短語(yǔ)都視為候選觀(guān)點(diǎn)持有者,使用ME(maximum entropy)模型來(lái)進(jìn)行計算.以上的方法將觀(guān)點(diǎn)持有者的抽取當作-一個(gè)獨立的任務(wù).通過(guò)觀(guān)察許多研究者發(fā)現,觀(guān)點(diǎn)持有者-般是與觀(guān)點(diǎn)同時(shí)出現的,所以可以將觀(guān)點(diǎn)和觀(guān)點(diǎn)持有者的識別作為一個(gè)任務(wù)同時(shí)解決.Bethardl33)在抽取出情感句中的觀(guān)點(diǎn)單元(多是由一些短語(yǔ)組成)之后,分析句中觀(guān)點(diǎn)和動(dòng)詞的句法關(guān)系,即可同步獲取觀(guān)點(diǎn)持有者.由于產(chǎn)品評論中--般默認觀(guān)點(diǎn)持有者是用戶(hù)本身,因此鮮有研究者在產(chǎn)品評論領(lǐng)域研究這一任務(wù).1.4組合評價(jià)單元的抽取評價(jià)詞語(yǔ)在情感分析中的作用是不言而喻的然而在某些情況下,單獨的評價(jià)詞語(yǔ)存在-定的歧義性,如評價(jià)詞語(yǔ)“高"在以下3個(gè)句子中的使用:●Sen 1:凱越的油耗真高.●Sen2:捷達的性?xún)r(jià)比相當高.●Sen 3:這輛車(chē)有1 米多高.中國煤化工Sen 1 和Sen 2是情感句,但是評價(jià)詞語(yǔ)"高"在修飾不同的MHC N M H G性.如,"“高"在Sen 1中表示貶義,而在Sen2中則表示褒義.此外,評價(jià)詞語(yǔ)往往也會(huì )出現在非情感句中,如Sen3.因此,僅考慮單獨的評價(jià)詞語(yǔ)在情感分析中的應用是遠遠不夠的.研究者們發(fā)現,有些包含評價(jià)詞語(yǔ)的“組合評價(jià)單元"(如組合“油1838Journal of Sofware軟件學(xué)報Vol.21, No.8, August 2010耗-高”、“相當-高")對于處理情感分析的上層任務(wù)更有幫助.下面將具體來(lái)介紹各種形式的組合評價(jià)單元.1.4.1主觀(guān)表達式的抽取主觀(guān)表達式(subjectiveclues)是指表示情感文本單元主觀(guān)性的詞語(yǔ)或詞組第1.1節的評價(jià)詞語(yǔ)是主觀(guān)表達式的一部分.此外,某些訶語(yǔ)的組合(如villageidiot或getoutofhere)也能很明顯地標識文本的主觀(guān)性,雖然它們中的任何一個(gè)詞語(yǔ)單獨可能都并非評價(jià)詞語(yǔ)如何獲取這些有意義的詞組是主觀(guān)表達式抽取的重點(diǎn).Wiebe和Wilson是這項任務(wù)的引領(lǐng)者1341近幾年來(lái),他們挖掘大量的主觀(guān)表達式形成主觀(guān)表達式庫,并基于此完成文本的主客觀(guān)分類(lèi)和褒貶分類(lèi).具體來(lái)說(shuō),他們首先從語(yǔ)料中抽取出所有的n元詞語(yǔ)/詞組(1≤n≤4)作為候選主觀(guān)表達式;繼而通過(guò)對比訓練語(yǔ)料中的標準的主觀(guān)表達式,為每個(gè)候選主觀(guān)表達式計算出可能成為主觀(guān)表達式的概率;最后通過(guò)對概率值的分析,獲得這些主觀(guān)表達式Wiebe和Wilson]3)在隨后的工作中又引入了“主觀(guān)表達式密度"協(xié)助判斷主觀(guān)表達式.2004年Wiebe和Wilson將他們前期的工作進(jìn)行了總結6),從不同的語(yǔ)料中擴充了大量的主觀(guān)表達式,主要包括手工收集的一部分主觀(guān)表達式以及自動(dòng)從標注/未標注語(yǔ)料中學(xué)習而來(lái)的一部分主觀(guān)表達式.此外,他們首次利用句法分析的結果發(fā)掘了句法主觀(guān)表達式37].隨后,Wiebe和Wilson采用多種特征及機器學(xué)習方法對他們獲取的大量的主觀(guān)表達式的情感程度(strong或weak)進(jìn)行了識別. .1.4.2評價(jià)短語(yǔ)的抽取評價(jià)短語(yǔ)表現為一組連續出現的詞組,但不同于主觀(guān)表達式,該詞組往往是由程度副詞和評價(jià)詞語(yǔ)組合而成,如"very good"等 因此,這種組合評價(jià)單元不僅顧及了主觀(guān)表達式的情感極性,還考察了其修飾成分.這些修飾成分或加強或減弱或置反了主觀(guān)表達式的情感極性,使得評價(jià)短語(yǔ)成為-種情感色彩豐富的組合評價(jià)單元.有學(xué)者采用基于一些情感詞典的方法識別這種評價(jià)短語(yǔ).如Whitelaw/38)結合WordNet使用半自動(dòng)的方法構建了形容詞性的評價(jià)詞詞典以及修飾詞詞典對于一個(gè)含有評價(jià)詞語(yǔ)的情感文本,該方法首先食看評價(jià)詞前面的詞語(yǔ),如果屬于修飾詞詞典,獲取這個(gè)詞組作為評價(jià)短語(yǔ).根據兩個(gè)詞典中的屬性值計算出情感極性.這種方法由于基于較為細致的詞典,因此準確率較高,然而,由于詞典中詞語(yǔ)有限而限制了召回率還有學(xué)者使用依存句法結構(如ADV,ATT以及DE結構),在句法樹(shù)上獲取評價(jià)短語(yǔ)(2].這種方法巧妙地利用了評價(jià)短語(yǔ)中所含詞語(yǔ)之間的句法修飾關(guān)系,但是較為依賴(lài)句法分析的結果.評價(jià)短語(yǔ)考察的是連續出現的詞組,然而i有些表示修飾關(guān)系的詞語(yǔ)并非總是和評價(jià)詞語(yǔ)連續出現.如在情感句"[l did [not]~ have any [doubt]~ about t]*"中,修飾詞not和評價(jià)詞doubt 并非連續出現,但它們共同決定了情感句的最終極性.Moilanen等人[39]和Choi等人[40)將其定義為“組合語(yǔ)義單元(compositional semantics)",具體表現為一組非連續的詞語(yǔ),通過(guò)相互作用來(lái)表達出某種情感極性.組合語(yǔ)義單元可以看作一種更為復雜的評價(jià)短語(yǔ),大多使用人工總結或半自動(dòng)生成的模板來(lái)識別.1.4.3評價(jià)搭 配的抽取評價(jià)搭配是指評價(jià)詞語(yǔ)及其所修飾的評價(jià)對象二者的搭配,表現為二元對<評價(jià)對象,評價(jià)詞語(yǔ)),如情感句“凱越的油耗很高"中的“油耗-高".前面所介紹的“主觀(guān)表達式"和“評價(jià)短語(yǔ)”主要是考察含有情感極性的一些詞和短語(yǔ),然而情感句中出現的某些“主觀(guān)表達式”和“評價(jià)短語(yǔ)"并非真正地表現出情感極性.如情感句s“車(chē)跑得好快啊”中的詞語(yǔ)“好"并不存在情感極性,需要過(guò)濾掉.此外,還有-些“主觀(guān)表達式”和“評價(jià)短語(yǔ)”存在一定的歧義,其極性需要根據上下文而確定.“評價(jià)搭配"則可以很好地解決上述兩點(diǎn)問(wèn)題.針對評價(jià)搭配的抽取任務(wù),大部分學(xué)者采用了基于模板的獲取方法.Kobayashi等人[41]考察評價(jià)對象和評價(jià)詞語(yǔ)之間的修飾關(guān)系,并用8個(gè)共現模板來(lái)描述.然而,由于模板過(guò)于簡(jiǎn)單且修飾關(guān)系僅僅停留在詞表面,該方法產(chǎn)生了大量的噪聲.為了深入挖掘評價(jià)對象和評價(jià)詞語(yǔ)之間的修飾關(guān)系,-部分學(xué)者嘗試使用句法關(guān)系模板.Bloom等人[42)利用Stanford Parser手工構建了31條句法規則此外,Popescu等人[25]利用MINIPAR Parser手工構建了10條依存句法抽取模板來(lái)獲取評價(jià)搭配.姚天昉等人4中國煤化工上行路徑”和下行路徑”的匹配規則;后續總結出SBV(subjective verb)極性傳遞規|YHCNMH G以看出,他們的工作融入了更多對評價(jià)對象和評價(jià)詞語(yǔ)之間深層關(guān)系的挖掘然而,由于匹配規則或模板的制定存在過(guò)多的人工參與,覆蓋率較低.因此在未來(lái)的工作中,我們應該側重于研究自動(dòng)生成評價(jià)對象和評價(jià)詞語(yǔ)之間的匹配規則的策略.趙妍妍等:文本情感分析18392情感信息分類(lèi)情感信息的分類(lèi)任務(wù)可大致分為兩種:- -種是主、客觀(guān)信息的二元分類(lèi);另一種是主觀(guān)信息的情感分類(lèi),包括最常見(jiàn)的褒貶二元分類(lèi)以及更細致的多元分類(lèi)441.2.1主客觀(guān)信息分類(lèi)在對情感文本進(jìn)行情感分析時(shí),往往由于情感文本中夾雜著(zhù)少量的客觀(guān)信息而影響了情感分析的質(zhì)量14),因此將情感文本中的主觀(guān)信息和客觀(guān)信息進(jìn)行分離變得非常必要.由于情感文本單元表現格式比較自由,且區分主、客觀(guān)文本單元的特征并不明顯,在很多情況下,情感文本的主客觀(guān)識別比主觀(guān)文本的情感分類(lèi)更有難度.一部分學(xué)者通過(guò)考察文本內部是否含有情感知識(具體表現為第1節情感信息抽取的結果)來(lái)完成主客觀(guān)信息分類(lèi)9.46.然而我們發(fā)現,許多客觀(guān)句中也可能會(huì )包含評價(jià)詞語(yǔ),如客觀(guān)句“這位英雄名叫張三豐”同樣含有評價(jià)詞語(yǔ)“英雄".為了在更大程度上消除歧義性,很多學(xué)者挖掘并使用情感文本中的組合評價(jià)單元,如第1.4 節中提到的“主觀(guān)表達式”、“評價(jià)短語(yǔ)"和“評價(jià)搭配"等組合信息.此外,還有學(xué)者8構建情感模板識別情感文本的主客觀(guān)性(如貶義模板“ drives (v> up the wall".以上這些基于情感知識的主客觀(guān)分類(lèi)方法的工作重心在于情感文本中情感知識的挖掘以及各種情感知識觸合的方法研究.還有-部分學(xué)者將情感文本單元的主客觀(guān)分類(lèi)定義為--種二元分類(lèi)任務(wù),即對任意給定的情感文本單元,由分類(lèi)器協(xié)助判斷其主客觀(guān)性.這種方法的關(guān)鍵在于分類(lèi)器和分類(lèi)特征的選取.其體來(lái)說(shuō),Hatzivassilogloul47]使用了詞語(yǔ)作為特征,并采用了NB(Naive Bayes)分 類(lèi)器完成篇章級情感文本的主客觀(guān)分類(lèi)Yao48]著(zhù)重從一些特殊的特征角度考察了主客觀(guān)文本,如標點(diǎn)符號角度、人稱(chēng)代詞角度、數字角度等,Pang49則采用基于圖的分類(lèi)算法完成句子級的主客觀(guān)分類(lèi).基于特征分類(lèi)的方法目前還是主客觀(guān)信息分類(lèi)的主流方法.這種方法定義明確,其根本問(wèn)題在于特征的選取.因此,嘗試使用更深層、更復雜的分類(lèi)特征也許是這類(lèi)方法的突破方向之所在.2.2主觀(guān)信息情感分類(lèi)主觀(guān)信息情感任務(wù)按不同的文本粒度可分為詞語(yǔ)級、短語(yǔ)級、句子級和篇章級等.其中,第1節已經(jīng)對詞語(yǔ)級和短語(yǔ)級的情感分類(lèi)方法進(jìn)行了總結,因此本節將著(zhù)重介紹句子級和篇章級的主觀(guān)信息情感分類(lèi)方法.一般而言,研究者將主觀(guān)本文的極性分為褒義和貶義兩類(lèi)(thumbs up? thumbs down?).縱觀(guān)目前的研究工作,與主客觀(guān)信息分類(lèi)類(lèi)似,可分為兩種研究思路:基于情感知識的方法以及基于特征分類(lèi)的方法相似地,前者主要是依靠--些已有的情感詞典或領(lǐng)域詞典以及主觀(guān)文本中帶有情感極性的組合評價(jià)單元進(jìn)行計算,來(lái)獲取主觀(guān)文本的極性.后者主要是使用機器學(xué)習的方法,選取大量有意義的特征來(lái)完成分類(lèi)任務(wù).這兩種研究思路有很多代表性的研究工作.文獻[10,47,50,51]首先分析句子/篇章中的評價(jià)詞語(yǔ)或組合評價(jià)單元的極性,然后進(jìn)行極性加權求和.這種方法的重點(diǎn)-般都放在評價(jià)詞語(yǔ)或組合評價(jià)單元的抽取和極性判斷方法的研究上.在基于特征分類(lèi)的方法中,Pang[52]首次將機器學(xué)習的方法應用于篇章級的情感分類(lèi)任務(wù)中.他們嘗試使用了n-gram詞語(yǔ)特征和詞性特征并對比了NB,ME和SVM(support vector machine)這3種分類(lèi)模型,發(fā)現unigram特征效果最好.然而,Cui{$3]通過(guò)實(shí)驗證明,當訓練語(yǔ)料較少時(shí),unigram的效果較優(yōu);但隨著(zhù)訓練語(yǔ)料的增多,n-gram (n>3)發(fā)揮了越來(lái)越重要的作用.Kim{51除了考察傳統的n-gram模型之外,還引入了位置特征和評價(jià)詞特征來(lái)完成句子級的褒貶分類(lèi)Zhaol)則將句子級情感分類(lèi)任務(wù)提煉為-一個(gè)三層分類(lèi)任務(wù),利用各層之間類(lèi)別標簽的相互作用,并考慮上下句之間情感的互相影響,使用CRF模型將這些特征進(jìn)行融合類(lèi)似于主客觀(guān)信息分類(lèi)任務(wù),基于特征的方法的研究重點(diǎn)在于有效特征的發(fā)現以及特征選擇和特征融合等問(wèn)題的研究.除了對主觀(guān)文本信息的褒貶二元分類(lèi)之外,還有一些研究工作進(jìn)行更細致的情感分類(lèi)任務(wù).Pang[S6)將褒貶等級分為3類(lèi),并使用了onevs-all 多元分類(lèi)算法和回歸分類(lèi)算中國煤化工”則使用了一種基于圖的半指導的分類(lèi)算法,完成評論的褒貶包括4個(gè)等級的分類(lèi).TYHCNMHG2.3觀(guān)點(diǎn)分類(lèi)與挖掘情感分類(lèi)還可以體現在對某些事件的觀(guān)點(diǎn)分類(lèi)上.Lin 等人[58]主要使用3種分類(lèi)模型識別有關(guān)“巴以沖突”1840Journal of Software 軟件學(xué)報Vol.21, No.8, August 2010主題的評論文本所表達的觀(guān)點(diǎn),即是“支持巴方”還是“支持以方".而Kim等人(59)主要對美國大選時(shí)涌現出來(lái)的大量評論文章進(jìn)行分類(lèi)匯總,從而推斷大部分選民是支持“共和黨"還是“民主黨".該文獻同樣也是使用分類(lèi)器和分類(lèi)特征相結合的算法,其中對分類(lèi)特征進(jìn)行了泛化,取得了較好的效果.和主觀(guān)信息情感分類(lèi)不同的是,"“觀(guān)點(diǎn)分類(lèi)與挖掘"任務(wù)除了需要使用情感知識之外,還需要發(fā)掘一部分與“觀(guān)點(diǎn)”相關(guān)的知識.3情感信息的檢索與歸納情感分析是一項以應用為導向的研究課題,然而,情感信息抽取和分類(lèi)后呈現的結果并不是用戶(hù)所能直接使用的.經(jīng)過(guò)大量的調研我們發(fā)現,情感分析技術(shù)與用戶(hù)的交互主要集中于情感信息檢索和情感信息歸納兩項任務(wù).上.其中,情感信息檢索旨在為用戶(hù)檢索出主題相關(guān),且包含情感信息的文檔;情感信息歸納則針對大量主題相關(guān)的情感文檔,自動(dòng)分析和歸納整理出情感分析結果提供給用戶(hù)參考,以節省用戶(hù)翻閱相關(guān)文檔的時(shí)間.因此,情感信息歸納可以看作是情感信息檢索結果的一個(gè)深入加工.3.1情感信息檢索傳統的搜索技術(shù)往往僅關(guān)注于檢索事實(shí)性的相關(guān)文檔,然而隨著(zhù)人們參與互聯(lián)網(wǎng)建設的增多,尤其是博客、論壇的蓬勃發(fā)展,情感相關(guān)的文檔逐漸成為用戶(hù)檢索需求的一部分.因此,很多研究機構和組織結合傳統的搜索技術(shù),掀起了情感信息檢索(也稱(chēng)觀(guān)點(diǎn)檢索)研究的熱潮.情感信息檢索任務(wù)最早出現在Hurst 和Nigam 的工作中1601.2006年,TREC(Text Retrieval EvaluationConference)首次引入了博客檢索仟務(wù)(Blog track)("1, 更多的研究者致力于該任務(wù)的研究.情感信息檢索要求檢索回的文檔同時(shí)滿(mǎn)足兩項準則:(1)主題相關(guān);(2)具有情感傾向性.-般而言,該任務(wù) 主要包含3個(gè)步驟: .①結合傳統的信息檢索模型進(jìn)行主題相關(guān)的文檔檢索.即給定某- -主題,檢索出所有與其相關(guān)的文檔.在這一步驟中,研究者-一般使用傳統的檢索模型以及-些較為成熟的查詢(xún)擴展技術(shù)(621.也有研究者在查詢(xún)擴展中融入了情感知識!63),以提高檢索的性能.②相關(guān)文檔的主客觀(guān)識別.即針對某--主題的所有相關(guān)文檔,判別它們的主客觀(guān)性,并獲取帶有情感的主觀(guān)性文檔.在這一步驟中,研究者們一般借鑒情感信息抽取和情感信息分類(lèi)的技術(shù),如第1節和第2節所述.③主題相關(guān)的情感(主觀(guān)性)文檔排序.此時(shí)的排序策略需要同時(shí)兼顧文檔的情感打分以及相關(guān)性打分,不少學(xué)者對該步驟進(jìn)行了深入的研究.一種最直接的方式是使用線(xiàn)性加權函數來(lái)融合兩部分的打分[6].這種方法首先將兩部分的打分剝離開(kāi)來(lái),分別進(jìn)行打分的設計和計算繼而對這兩個(gè)分數進(jìn)行加權求和.然而,該方法缺乏理論基礎和細致的分析.清華大學(xué)的張敏提出了一種新穎的基于概率生成模型的情感文檔排序方法(61.該模型從生成文檔的角度考察文檔的情感打分和相關(guān)性打分,取得了不錯的效果.通過(guò)以上3個(gè)步驟的分析我們發(fā)現,情感信息檢索融合了傳統的信息檢索技術(shù)和新型的情感分析技術(shù)其中,如何使二者進(jìn)行更好的融合是研究者近期和未來(lái)所需關(guān)注的重點(diǎn).3.2情感信息歸納就目前的研究現狀而言,情感信息的歸納往往以情感文摘的形式存在傳統的基于事實(shí)性新聞?wù)Z(yǔ)料的文摘旨在提取重要的事實(shí)性信息,并去除冗余信息.相比而言,情感文摘的處理對象為某- -產(chǎn) 品或某一事件的大量用戶(hù)評論,因此這種文摘融入了更多的情感信息.它主要側重于提取具有明顯情感傾向性的主觀(guān)信息,是對某一產(chǎn)品或某--事件的評論信息的歸納和匯總.針對產(chǎn)品類(lèi)評論信息,情感文摘共有兩種呈現方式:--種是基于產(chǎn)品屬性的情感文摘,另一種是基于情感標簽的情感文摘.3.2.1基于產(chǎn) 品屬性的情感文摘到目前為止,大部分研究者致力于基于產(chǎn)品屬性的情感:中國煤化工產(chǎn)品屬性特指在產(chǎn)品評論中的評價(jià)對象,如“相片質(zhì)量"等.如圖2所示,這種文摘按;YHCNMHG整理,-般都標引出表示“支持”和“反對”該產(chǎn)品屬性的具體句子供用戶(hù)參考,以適應不同用戶(hù)個(gè)性化的需求縱覽目前學(xué)者們的研究工作,標準的基于產(chǎn)品屬性的情感文摘共包含3個(gè)重要的步驟:趙妍妍等:文本情感分析1841(1)識別出評論信息(句子或篇章)中的產(chǎn)品屬性,即評價(jià)對象的識別.如前面所述,很多學(xué)者從事這一任務(wù)的研究,并取得了不錯的效果12)-25.但需要關(guān)注的是,許多研究工作忽視了產(chǎn)品屬性的別稱(chēng)現象,如“膠卷"和“膠片",如果能將其進(jìn)行別名消解,則能更好地將產(chǎn)品的情感文摘進(jìn)行歸納.(2)抽取出描述產(chǎn)品屬性的情感句,即針對產(chǎn)品的每--種屬性,收集與其相關(guān)的所有的情感句1449!這是因為含有產(chǎn)品屬性的句子不--定是情感句,如句子“這個(gè)相機不需要用膠片"”就不含有任何情感傾向性.這個(gè)步驟類(lèi)似于句子級的主客觀(guān)識別任務(wù),然而也有很多學(xué)者省略了這-步驟,直接進(jìn)行步驟(3).(3)針對產(chǎn)品屬性的每一個(gè)情感句,判斷其情感傾向性.這個(gè)步驟類(lèi)似于句子級的情感信息分類(lèi)任務(wù)50-59,基于此,針對產(chǎn)品的每一項屬性列出用戶(hù)的各種情感信息(如表示褒義和貶義的句子)形成情感文摘供用戶(hù)參考,如圖2所示.還有-些情感文摘將一些統計信 息也羅列出來(lái),方便用戶(hù)對多種產(chǎn)品進(jìn)行對比.如有的情感文摘將用戶(hù)針對某一項屬性的“支持”和“反對”情感句的個(gè)數列舉出來(lái)[6);此外,還有情感文摘為每種產(chǎn)品計算出推薦等級{67)等.通過(guò)以上3個(gè)步驟的分析我們發(fā)現,基于產(chǎn)品屬性的情感文摘技術(shù)是情感信息抽取和情感信息分類(lèi)技術(shù)的融合.因此,只有情感分析各項基礎技術(shù)(如上面3個(gè)步驟)指標的提高,才能增強這類(lèi)情感文摘的質(zhì)量.佳能40D支持反對焦距佳能400D焦距不錯佳能400D焦距很難進(jìn)行調整機身重量佳能的機身重量還不錯佳能的機身重量太重了Fig.2 Sentiment summarization based on product features圖2基于產(chǎn)品屬性的情感文摘3.2.2基于情感標簽的情感文摘由于基于產(chǎn)品屬性的情感文摘較為依賴(lài)情感分析的底層技術(shù),而且用戶(hù)若想了解某一產(chǎn)品屬性的具體情況仍需閱讀大量標有“褒/貶"等情感類(lèi)別的情感句,為了更便捷地為用戶(hù)提供參考意見(jiàn),基于情感標簽的情感文摘應運而生,如圖3所示出現這類(lèi)情感文摘的靈感來(lái)自于某些用戶(hù)自由建設的在線(xiàn)評論網(wǎng)站,如國外著(zhù)名的網(wǎng)站epininstt://ww.epinions.com/).用戶(hù)在這類(lèi)網(wǎng)站上發(fā)表對某-產(chǎn)品的看法時(shí),要求填寫(xiě)對自己觀(guān)點(diǎn)的簡(jiǎn)要概括,- -般用若干個(gè)詞語(yǔ)或短語(yǔ)的標簽形式表現,如smal size(pros),short battery lif(cons)等.這些標簽能夠很好地概括評論的主要內容,并以簡(jiǎn)短精悍的方式吸引了大量的用戶(hù)群,可以看作是一種新形式的基于情感標簽的文摘.然而,這類(lèi)在線(xiàn)評論網(wǎng)站比較少,因此大多數的在線(xiàn)網(wǎng)絡(luò )評論并沒(méi)有人工標注的標簽此外,依賴(lài)用戶(hù)提供標簽也存在-些問(wèn)題:--來(lái)用戶(hù)寫(xiě)評論時(shí)非常隨意,很有可能概括不全自己的評論;二來(lái)用戶(hù)書(shū)寫(xiě)的評論用詞較為豐富,不方便計算機自動(dòng)對比兩個(gè)相似產(chǎn)品.如在評價(jià)--個(gè)餐館的飯菜時(shí),有人使用gooddiet,而有的人則使用healthy這個(gè)標簽.因此,近年來(lái)(2008年至今),不少學(xué)者68.61開(kāi)始研究為網(wǎng)絡(luò )評論自動(dòng)生成標簽,方便用戶(hù)快速閱讀評論以及對比產(chǎn)品.Ttov16)的工作主要是為一組相關(guān)產(chǎn)品評論集的產(chǎn)品屬性打標簽具體來(lái)說(shuō),該方法將產(chǎn)品屬性當作文檔集中潛在的話(huà)題(topic),繼而使用一個(gè)改進(jìn)的結合產(chǎn)品文檔和屬性等級的話(huà)題模型(topicmoel)26,27]對產(chǎn)晶的屬性進(jìn)行潛在的標簽詞語(yǔ)生成.如對于“賓館"評論的屬性“房間(rooms)",該方法可以自動(dòng)發(fā)掘出相關(guān)文檔集中的相關(guān)詞語(yǔ),如small,clean等.然而,該方法是建立在已知產(chǎn)品屬性的基礎上的,也就是說(shuō),已知這組產(chǎn)品相關(guān)的文檔集中所有的產(chǎn)品屬性(如room,servicelocation等),繼而為每種產(chǎn)品犀件找出潛在的情感標簽.然而在現實(shí)的評論語(yǔ)料中,一般不會(huì )事先預知產(chǎn)品的屬性以及屬性等級,B中國煤化工性及其情感標簽.Branavan[6)較為巧妙地解決了這個(gè)問(wèn)題,他將標簽定義為“評價(jià)MHC N M H Gng battery life 等),并為單篇的網(wǎng)絡(luò )產(chǎn)品評論打上合適的標簽,具體地,該方法首先在一些帶有 標簽的網(wǎng)站(如epinion)上獲取某一產(chǎn)品的大量的人工標注的標簽(如small size 等)作為這一產(chǎn)品的標簽庫;接著(zhù),使用相似度聚類(lèi)的方法對這標簽1842Joumnal of Sofware軟件學(xué)報Vol.21, No.8, August 2010庫進(jìn)行聚類(lèi),每- -類(lèi)被視為- -個(gè)潛在的話(huà)題(即產(chǎn)品屬性),并月每一類(lèi)話(huà)題包含若千個(gè)相似的情感標簽(如smallsize和smartsize);繼而,使用話(huà)題模型分析-篇評論中潛在話(huà)題的分布情況(用概率值表示);最終通過(guò)對概率值的分析獲取最顯著(zhù)的幾個(gè)潛在話(huà)題,并取其代表性情感標簽作為這篇評論的標簽.該種方法主要針對單篇網(wǎng)絡(luò )評論(單文檔)進(jìn)行分析,優(yōu)點(diǎn)在于標簽更加清晰,有完整的意義;此外,由于同一類(lèi)產(chǎn)品共享一個(gè)標簽庫,方便產(chǎn)晶之間的對比,當然,該方法還可以推廣到多文檔情感文摘中.Tag:焦距很一般,機身重量還可以,成像非常贊, ..Review:| 昨犬剛剛買(mǎi)了佳能400D.趕緊上.來(lái)跟大家說(shuō)一說(shuō):昨天拍了-天照感覺(jué)這個(gè)相機成像非常好,像傳說(shuō)中的一-樣但是焦距不容易控制,不是很滿(mǎn)意.但是機身承量還好,不是很重起碼我用起來(lái)還是不錯的..Fig.3 Sentiment summarization based on sentiment tag圖3基于情 感標簽的情感文摘3.2.3基于 新聞評論的文摘還有部分學(xué)者從事基于新聞評論領(lǐng)域的情感文摘研究.該種文摘和普通的新聞文摘比較類(lèi)似,除了抽取重要的、信息含量大的核心句子之外,還要重視該句子中的情感信息.有學(xué)者(701提出,這種情感文摘的核心句需要包含兩方面的詞語(yǔ):概念詞(concept words)和情感詞(sentiment words).因 此,他們將新聞評論信息中的詞語(yǔ)進(jìn)行了細致的分析,通過(guò)分析每個(gè)詞與話(huà)題的聯(lián)系找出概念詞,并通過(guò)拆分字的方法找出情感詞,進(jìn)而挑選出核心悄感句形成情感文摘.由于基于新聞評論的文摘應用面并不是很廣,而且與普通的新聞文摘較為相似,所以目前從事這方面研究的學(xué)者并不多.4情感分析的評測 與資源建設4.1情感分析的評測隨著(zhù)互聯(lián)網(wǎng)的發(fā)展和帶有情感色彩的主觀(guān)性文本的增多,情感分析得到了越來(lái)越多的學(xué)者和研究機構的關(guān)注.近年來(lái),為了推動(dòng)情感分析技術(shù)的發(fā)展,國內外的很多研究機構紛紛組織了--些公共評測,為情感分析的方法研究提供統- - 的平臺.情感分析首先引起了國際文本檢索會(huì )議TREC的關(guān)注,并從2006年開(kāi)始每年都有情感分析相關(guān)的評測任務(wù)出現.由于TREC長(cháng)年專(zhuān)注于檢索方面任務(wù)的評測,因此TREC首次關(guān)注的情感分析任務(wù)是博客檢索任務(wù).對于給定的查詢(xún)(話(huà)題),該任務(wù)要求在博客數據集上(近30GB,320萬(wàn)篇,2006年規模)檢索帶有觀(guān)點(diǎn)的文檔,并且這些文檔必須含有主觀(guān)性信息,而不能是純客觀(guān)的敘述(71.除了觀(guān)點(diǎn)檢索任務(wù)之外,還有一個(gè)篇章情感分類(lèi)的子任務(wù),即為檢索返回的文檔進(jìn)行情感分類(lèi),分為褒義、貶義和混合(positive,negative,mixed)3類(lèi).Blog Track 任務(wù)發(fā)展到TREC2009,有更多的情感分析的元素加入.如:判斷返回的文檔是主觀(guān)評論還是客觀(guān)事實(shí)、是深入的剖析還是淺顯的總結;判斷返回文檔的博主是男士還是女士,以及是否是專(zhuān)家;判斷返回的文檔是個(gè)人博文還是公司博文等非常有意思的情感分析任務(wù).NTCIR(NII test collection for IR systems)的情感分析評測(multilingual opinion analysis task,簡(jiǎn)稱(chēng)MOAT)同樣出現在2006年,每年舉行一次,并擁有中、 英、日3種語(yǔ)言的標準語(yǔ)料庫.不同于TREC所關(guān)注的觀(guān)點(diǎn)檢索,NTCIR評測的主要任務(wù)是從新聞報道中提取主觀(guān)性信息.給定各個(gè)語(yǔ)種的句子,要求參加評測的系統判斷句子是否與篇章的主題相關(guān),并從句子中提取出觀(guān)點(diǎn)持有者、評價(jià)中國煤化工析NTCIR觀(guān)點(diǎn)分析的路線(xiàn)可以看出,其目標是進(jìn)行多語(yǔ)種、多信息源、多粒度、|YHCN M H G.MOAT任務(wù)發(fā)展到NTCIR-8,也融入了一些新的內容,如情感問(wèn)答任務(wù).給定某一情感問(wèn)題,如“豬流感有哪些負面影響?",從相關(guān)文本中找出正確的情感評價(jià);又如,跨語(yǔ)言情感分析即給定一個(gè)英文的查詢(xún),從4種不同語(yǔ)言的文檔池中返回相關(guān)趙妍妍等:文本情感分析1843文檔.在國內,尤其是針對漢語(yǔ)的情感分析問(wèn)題的研究才剛剛開(kāi)始.COAE(Chinese opinion analysis evaluation)始辦于2008年,是國內第一個(gè)情感分析方面的評測它致力于推動(dòng)中文情感分析理論和技術(shù)的研究和應用,同時(shí)建立中文情感分析研究的基礎數據集.COAE共設置6個(gè)任務(wù)[7),可分為3個(gè)方面:一是中文評價(jià)詞語(yǔ)的識別和分析,側重于詞語(yǔ)級的傾向性評測;二是中文文本傾向性相關(guān)要素的抽取,主要是抽取句子中的評價(jià)對象,側重于有關(guān)傾向性的相關(guān)信息的抽取;三是中文文本傾向性的判別,側重于篇章級的傾向性評測.COAE是首個(gè)提供產(chǎn)品類(lèi)評價(jià)語(yǔ)料的評測,為中文情感分析的發(fā)展提供了很好的施展平臺.4.2情感分析的資源建設4.2.1情感 分析的語(yǔ)料除了第4.1節中3個(gè)國際/國內評測所提供的語(yǔ)料以外,不少研究單位和個(gè)人也提供了- -定規模的語(yǔ)料:(1)康奈爾(Cormell)大學(xué)提供的影評數據集htpt////w..ooell.du/pecople/pabo/moviereviewdata/)由電影評論組成,其中持肯定和否定態(tài)度的各1 000篇;另外,還有標注了褒貶極性的句子各5 331句,標注了主客觀(guān)標簽的句子各5000句.目前,影評庫被廣泛應用于各種粒度如詞語(yǔ)、句子和篇章級的情感分析研究中.(2)伊利諾伊大學(xué)芝加哥分校(University of llinois at Chicago,簡(jiǎn)稱(chēng)UIC)的Hu和Liu提供的產(chǎn)品領(lǐng)域的評論語(yǔ)料:主要包括從亞馬遜和Cnet下載的5種電子產(chǎn)品的網(wǎng)絡(luò )評論(包括兩個(gè)品牌的數碼相機、手機、MP3和DVD播放器).其中,他們將這些語(yǔ)料按句子為單元詳細標注了評價(jià)對象、情感句的極性及強度等信息.因此,該語(yǔ)料適合于評價(jià)對象抽取和句子級主客觀(guān)識別,以及情感分類(lèi)萬(wàn)法的研究.此外,Liu還貢獻了比較句研究[網(wǎng)]方面的語(yǔ)料.(3) Wiebe等人所開(kāi)發(fā)的MPQA(multiple perspective QA)庫:包含535篇不同視角的新聞評論,是.一個(gè)進(jìn)行了深度標注的語(yǔ)料庫.其中,標注者為每個(gè)子句手工標注出-些情感信息,如觀(guān)點(diǎn)持有者、評價(jià)對象、主觀(guān)表達式以及其極性與強度.文獻[74]描述了整個(gè)的標注流程.MPQA語(yǔ)料適合于新聞評論領(lǐng)域任務(wù)的研究.(4)麻省理工學(xué)院(Massachusetts Institute of Technology,簡(jiǎn)稱(chēng)MIT)的Barzilay 等人構建的多角度餐館評論語(yǔ)料:共4 488 篇,每篇語(yǔ)料分別按照5個(gè)角度(飯菜、環(huán)境、服務(wù)、價(jià)錢(qián)、整體體驗)分別標注上1~5 個(gè)等級.這組語(yǔ)料為單文檔的基于產(chǎn)品屬性的情感文摘提供了研究平臺.(5)中國科學(xué)院計算技術(shù)研究所的譚松波博士提供的較大規模的中文酒店評論語(yǔ)料:約有10000篇,并標注了褒貶類(lèi)別,可以為中文的篇章級的情感分類(lèi)提供-定的平臺.4.2.2情感分析的詞典 資源情感分析發(fā)展到現在,有不少前人總結出來(lái)的情感資源,大多數表現為評價(jià)詞詞典資源:(1) GI(genera inquirer)評價(jià)詞詞典(英文ht://ww.wjb.harvard.cdu/-inquir).該詞典收集了1914個(gè)褒義詞和2293個(gè)貶義詞,并為每個(gè)詞語(yǔ)按照極性、強度、詞性等打上不同的標簽,便于情感分析任務(wù)中的靈活應用.(2) NTU評價(jià)詞詞典(繁體中文).該詞典由臺灣大學(xué)收集,含有2 812個(gè)褒義詞與8 276個(gè)貶義詞(79.(3)主觀(guān)詞詞典(英文:p://www/c.sitt.edumema/.該詞典的主觀(guān)詞語(yǔ)來(lái)自OpinionFinder系統.該詞典含有8 221個(gè)主觀(guān)詞,并為每個(gè)詞語(yǔ)標注了詞性、詞性還原以及情感極性.(4) HowNet評價(jià)詞詞典(簡(jiǎn)體中文、英文tp://www.keenage.com/html/e_ index.htm).該詞典包含9 193個(gè)中文評價(jià)詞語(yǔ)/短語(yǔ),9142個(gè)英文評價(jià)詞語(yǔ)/短語(yǔ),并被分為褒貶兩類(lèi)其中,該詞典提供了評價(jià)短語(yǔ),為情感分析提供了更豐富的情感資源.5情感分析的應用中國煤化工隨著(zhù)互聯(lián)網(wǎng).上評論文本的爆炸式增長(cháng),迫切需要計算機幫MYHCNMH G '息,,這使得情感分析研究具有重要的應用.下面,本文就情感分析的應用現狀以及應●用戶(hù)評論分析與決策這是目前情感分析技術(shù)使用最頻繁的一個(gè)應用點(diǎn).人們在購買(mǎi)某- -產(chǎn) 品之前,往往傾向于網(wǎng)上查詢(xún)該產(chǎn)品1844Journal of Software 軟件學(xué)報Vol.21, No.8, August 2010的相關(guān)評論,并通過(guò)與其他產(chǎn)品的對比來(lái)作最終的決策.由于用戶(hù)沒(méi)有足夠的時(shí)間和精力瀏覽全部的評論信息,導致最終的決策帶有風(fēng)險性.情感分析技術(shù)則可以很好地解決這一難題.該技術(shù)首先自動(dòng)獲取大量的相關(guān)評論信息,進(jìn)而挖掘出主要的產(chǎn)品屬性(如油耗)和評價(jià)詞語(yǔ)(如高),最終通過(guò)統計歸納推理,給用戶(hù)提供該產(chǎn)品各個(gè)屬性的評價(jià)意見(jiàn),方便用戶(hù)作最終的決策.目前,國內外有很多研究機構根據現實(shí)生活中的具體需求研發(fā)出各個(gè)領(lǐng)域的情感分析系統,幫助用戶(hù)對海量信息進(jìn)行分析和決策.例如,Liu等人研發(fā)的OpinionObserver 系統叮以處理網(wǎng)上在線(xiàn)顧客產(chǎn)品評價(jià)(),采用可視化方式對若干種產(chǎn)品評價(jià)對象的綜合質(zhì)量進(jìn)行比較;Wilson等人研發(fā)的OpinionFinder系統可以自動(dòng)識別主觀(guān)性句子以及抽取句子中情感信息[76);上海交通大學(xué)則開(kāi)發(fā)了一個(gè)用于漢語(yǔ)汽車(chē)論壇的情感分析系統,挖掘并概括人們對各種汽車(chē)品牌的評論和意見(jiàn)[43].●輿情監控互聯(lián)網(wǎng)具有開(kāi)放性、虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點(diǎn),有越來(lái)越多的網(wǎng)民樂(lè )意通過(guò)這種渠道來(lái)表達觀(guān)點(diǎn),逐漸成為輿情話(huà)題產(chǎn)生和傳播的主要場(chǎng)所.網(wǎng)絡(luò )信息和社會(huì )信息的交融對社會(huì )的直接影響越來(lái)越大,甚至關(guān)系到國家信息安全和長(cháng)治久安因此,社會(huì )管理者應及時(shí)對這些輿論進(jìn)行反饋.然而,由于互聯(lián)網(wǎng)上的信息量十分龐大,僅靠人工的方法難以應對網(wǎng)上海量信息的收集和處理,因此需要依靠情感分析技術(shù)自動(dòng)地對輿情信息進(jìn)行監控.雖然日前這一應用點(diǎn)的研究成果還不是很多,但不影響其成為-一個(gè)有價(jià)值的應用點(diǎn).●信息預測隨著(zhù)互聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)絡(luò )信息對人們生活的影響已經(jīng)越來(lái)越不容忽視.某一個(gè)新事件的發(fā)生或者網(wǎng)絡(luò )上對某個(gè)事件的熱議都在很大程度上左右著(zhù)人們的思維和行動(dòng).如在金融市場(chǎng)上,網(wǎng)絡(luò )上對某支股票的熱議都在很大程度上左右著(zhù)金融實(shí)踐者們的行為,同時(shí)進(jìn)-一步影響眷股市變化的趨勢;又如,國外總統或議員大選的時(shí)候,很多參選者希望通過(guò)匯總選民的網(wǎng)絡(luò )言論來(lái)預測自己是否能夠獲選.因此,信息預測變得非常必要.情感分析技術(shù)可以幫助用戶(hù)通過(guò)對互聯(lián)網(wǎng)上的新聞、帖子等信息源進(jìn)行分析,預測某一事件的未來(lái)狀況.Devitt等人(?")通過(guò)對金融評論文本的情感極性識別,對術(shù)來(lái)的金融走勢作出預測.Lin等人[58)則構造了--個(gè)“巴以戰爭”評論分析系統,來(lái)區分某一評論是“支持巴萬(wàn)”還是“支持以方".此外,Kim[59)通過(guò)分析大量美國大選時(shí)的網(wǎng)絡(luò )新聞評論來(lái)預測美國大選的結果.除了上面介紹的3個(gè)主要的應用領(lǐng)域以外,情感分析在其他--些自然語(yǔ)言處理領(lǐng)域也扮演著(zhù)重要的角色.例如,在信息抽取領(lǐng)域,抽取對象-般是反映客觀(guān)事實(shí)的文本,情感分析技術(shù)可用于將文本中的主觀(guān)句和客觀(guān)句進(jìn)行分離,提高信息抽取的準確率441.情感分析技術(shù)還可以用于問(wèn)答系統中,當用戶(hù)所問(wèn)問(wèn)題是情感相關(guān)的問(wèn)題時(shí),該技術(shù)可以幫助問(wèn)答系統提供更真實(shí)的答案78]此外,情感分析技術(shù)還可以用于情感文摘的生成,進(jìn)而達到匯總歸納的目的25.0.5.66.情感分析技術(shù)的快速發(fā)展在很大程度上源于人們改進(jìn)人機交互現狀的愿望.該技術(shù)在以上眾多研究領(lǐng)域的應用使其成為-一個(gè)非常重要的研究方向.6結束語(yǔ)本文在充分調研和深入分析的基礎上對情感分析的研究進(jìn)展進(jìn)行了綜述,其中重點(diǎn)介紹了情感分析研究中的幾個(gè)關(guān)鍵問(wèn)題,包括情感信息的抽取、情感信息的分類(lèi)、情感信息的檢索與歸納以及情感分析的評測與資源建設等.情感分析是一個(gè)新興的研究方向,在自然語(yǔ)言處理領(lǐng)域對其進(jìn)行廣泛研究卻只有10年左右的時(shí)間,所以情感分析研究中尚有許多值得深入探索的問(wèn)題.在本文的最后,我們基于大量的調研和近幾年來(lái)的研究經(jīng)驗提出一些值得進(jìn)一步挖掘的研究點(diǎn),希望對本領(lǐng)域的其他研究者有所啟發(fā):問(wèn)題1:如前所述,情感信息抽取的研究屬于情感分析的基礎,有眾多的基礎研究任務(wù).然而,雖然人們已經(jīng)投入了很大的精力,但總的來(lái)看,還有許多工作需要進(jìn)一步細致中國煤化工別任務(wù)中,大量的研究者局限于詞本身來(lái)識別詞的主客觀(guān)性以及褒貶性,而忽視了|YHC NMH G.4節中Sen 1,Sen 2,Sen 3中的“高").因此,在接下來(lái)的工作里,迫切需要我們把情感信息抽取的各項任務(wù)做細、做深此外,組合評價(jià)單元作為一種情感信息完整豐富的情感單元,也非常值得深入且重點(diǎn)加以研究.趙妍妍等:文本情感分析1845問(wèn)題2:目前來(lái)看情感信息分類(lèi)的大部分工作都集中在句子級和篇章級的褒貶分類(lèi)任務(wù)中.然而與普通的分類(lèi)任務(wù)不同,更有意義的情感分類(lèi)任務(wù)是針對評價(jià)對象的情感分類(lèi).即在-一個(gè)情感句或情感篇章中,挖掘出某--具體的評價(jià)對象所對應的情感類(lèi)別,具體表現為COAE評測的任務(wù)3.這是因為用戶(hù)關(guān)注的是大眾對某-評價(jià)對象的情感傾向性,而不是對某---句子或篇章的情感傾向性.然而,這方面的研究工作還比較少且并不深入.此外,情感句的主客觀(guān)分類(lèi)也非常具有研究?jì)r(jià)值,為情感信息分類(lèi)起到了過(guò)濾不相關(guān)(客觀(guān))信息的作用.目前主要使用基于特征分類(lèi)的方法然而由于主客觀(guān)句的特征并不明確而導致效果并不理想.因此,如何找到--種有效的方法進(jìn)行主客觀(guān)句的分類(lèi)是- -個(gè) 亟待解決的問(wèn)題.問(wèn)題3:基于情感標簽的情感文摘是一種簡(jiǎn)潔而有效的評論歸納方式,也引起了國外一些學(xué)者的關(guān)注.但總的來(lái)看,由于研究得比較粗糙,準確率并不是很高,無(wú)法真正達到實(shí)用.因此在未來(lái)的工作中,需要我們進(jìn)-步將工作細化,如確定情感標簽的形式、研究抽取情感標簽的方法以及研究挖掘或生成評論的情感標簽的模型等,都是值得深入研究的問(wèn)題.問(wèn)題4:情感分析領(lǐng)域在國外已經(jīng)有了十幾年的發(fā)展史,積累了一些情感資源和研究成果然而國內的研究卻剛剛起步.由于語(yǔ)言的差異性,一些國外的研究技術(shù)和情感資源無(wú)法直接移植到中文處理中.因此,對于我們這些中文處理領(lǐng)域的研究者來(lái)講,如何結合中文處理的特點(diǎn),將--些成熟的技術(shù)和資源應用到中文情感分析領(lǐng)域,是一個(gè)值得我們積極探索的任務(wù).致謝在此,我們向對本文的研究工作提供幫助的老師和同學(xué)表示感謝.References:1] Hativassiloglou v, McKeown KR. Predicting the semantic orientation of adjectives. In: Proc. of the EACL'97. Morristown: ACL,1997. 174 -181.[2] Huang XJ, Zhao J. Sentiment analysis for Chinese text. Communications of CCF, 2008,4(2) (in Chincse with English abstract).[3] Yao TF, Cheng XW, Xu FY, Uszkoreit H, Wang R. A survey of opinion mining for texts. Jourmal of Chinese InformationProcessing, 2008.22(3):71- 80 (in Chinese with English abstract).[4] Pang B, Lee L. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, 2008,2(1-2):1-135. [doi:10.1561/150000011][5] Zhou LZ, He YK, Wang JY. Survey on research of sentiment analysis. Journal of Computer Applications, 2082811):2725-2728(in Chinese with English abstract).[6] Rao D, Ravichandran D. Semi-Supervised polarity lexicon induction. In: Lascarides A, ed. Proc. of the EACL 2009. Morristown:ACL, 2009.675 -682.[7] Wiebe J. Learning subjective adjectives from corpora. In: Schultz AC, ed. Proc. of the AAAL. Menlo Park: AAAI Press, 2000.735- -740.[8] Riloff E, Wiebe J. Learning extraction pttens for subjective expressions. In: Collis M, Steedman M, eds. Proc. of the EMNLP2003. Morristown: ACL, 2003. 105-112.[9] Turmey P, Littman ML. Measuring praise and critism: Inference of semantic orientation from association. ACM Trans. onInformation Systems, 2003,21(4):315-346. [doi: 10.1 145/944012.944013][10] Kim SM, Hovy E. Automatic detection of opinion bearing words and sentences. In: Carbonell JG, Sickmann J, eds. Proc. of theIJCNLP 2005. Morristown: ACL, 2005. 61-66.[11] Kim SM, Hovy E. ldentifying and analyzing judgment opinions. In: Bilmes J, et al, eds. Proc. of the Joint Human LanguageTechnology/North American Chapter of the ACL Conf. (HLT-NAACL). Morristown: ACL, 2006. 200-207.[12] Zbu YL, Min J, Zhou YQ, Huang XJ, Wu LD. Semantic orientation computing based on HowNet. Joural of Chinese InformationProcessing, 2006,20(1):14 -20 (in Chinese with English abstract).13] Andreevskaia A, Bergler s. Mining WordNet for a fuzzy sentiment: Sentiment tag extraction from WordNet glosses. In: McCartbyD, Wintner s, eds. Proe. of the European Chapter of the Association中國煤化工\CL). Morristown: ACL,2006. 209- -216.[14] Su F, Markert K. Subijctivity recognition on word senses via semi-supYHCN M H Goa Poc. ofte NAa.2009. Morristown: ACL, 2009. 1-9.[15] Esuli A, Sebastiani F. Determining the scmantic oricntatio of terms through gloss analysis. In: Herzog O, ed. Proc. of the ACM1846Journal of Sofware軟件學(xué)報Vol.21, No.8, August 2010SIGIR Conf. on Infornation and Knowledge Management (CIKM). New York: ACM Press, 2005. 617-624.[16] Esuli A, Sebastiani F. Determining term subjectivity and term oricntation for opinion mining. h: MeCarthy D, Wintner S, eds.Proc. of the European Chapter of the Association for Computational Linguistics (EACL). Morristown: ACL, 2006. 193 -200.[17]Kamps 3, Marx M, Mokken RJ. Using WordNet to measure semantic orientation of adjectives. In: Calzolani N, et al, eds. Proc. ofthe LREC.2004. 115-1118.[18] Mihalcea R, Banca C, Wiebe J. Learning multilingual subjective language via cross-lingual projections. In: CarrollJ, ed. Proc. ofthe Association for Computational Linguistics (ACL). Morristown: ACL, 2007. 976-983.[19] Wiebe J, Mihalcea R. Word sense and subjectivity. ln: Dale R, Paris C, eds. Proc. of the Conf. on ComputationalLinguistics/Association for Computational Linguistics (COLING/ACL). Morristown: ACL, 2006. 1065-1072.[20] Takamura H, Inui T, Okumura M. Extracting semantic orientation of words using spin model. In: Knight K, ed. Proc. of theAssociation for Computational Linguistics (ACL). Morristown: ACL, 2005. 133-140.[21]Yi J, Nasukawa T, Bunescu R. Sentiment analyzer: extracting sentiments about a given topic using natural language processingtechniques. In: Wu XD, Tuzhilin A, eds. Proc. of the IEEE Int'l Conf. on Data Mining (ICDM). 2003. 427- 434.[22] Hu M, Liu B. Mining opinion features in customer reviews. In: Hendler JA, ed. Proc. of the AAAI 2004. Menlo Park: AAAI Press,2004. 755- -760.[23] Ni MS, Lin HF. Mining product reviews based on association rule and polar analysis. In: Zhu QM, et al, eds. Proc. of the NCIRCS2007. 2007. 628-634 (in Chinese with English abstract).[24] Liu HY, Zhao YY, Qin B, Liu T. Target extraction and sentiment lasification. Journal of Chinese Information Processing, 2010,24(1):84- 88 (in Chinese with English abstract).[25] Popescu AM, Etzioni 0. Extracting product features and opinions from reviews. In: Mooney RU, ed. Proc. of the HLT/EMNLP2005. Morristown: ACL, 2005. 339-346.[26] BIei DM, Ng AY, Jordan MI. Latent dirichlet alocatio.o Journal of Machine Learming Research, 2003,3:993-1022. [doi: 10.1162/jmlr. 2003.3.4-5.993][27] Blei DM, Ng AY, Jordan MI. Correlated topic models. In: Scholkopf B, ed. Advances in NIPS. Hyatt Regency: MIT Press, 2006.147-154.[28] Titov I, McDonald R. Modeling online reviews with multi -grain topic models. In: Huai JP, Chen R, eds. Proc. of the www 2008.New York: ACM Press, 2008. 111-120.[29] Kim SM, Hovy E. Extracting opinions, opinion holders, and topics expressed in online news media text. In: Dale R, Paris c, eds.Proc. of the ACL Workshop on Sentiment and Subjectivity in Text.2006. 1-8.[30] Stoyanov V, Cardie C. Topic identification for fine-grained opinion analysis. In: McKeown K, ed. Proc. of the Conf. onComputational Linguistics. Morristown: ACL, 2008. 817-824.[31] Kim SM, Hovy E Determining the sentiment of opinions. In: Nirenburg s, ed. Proc. of the Coling 2004. Moristown: ACL, 2004.1367-1373.[32] Choi Y, Cardie C, Riloff E. Identifying sources of opinioos with conditional random fields and extraction patterms. In: Mooney RU,ed. Proc. of the HLT/EMNLP 2005. Moristown: ACL, 2005. 355-362.[33] Bethard s, Yu H, Thornton A. Automatic extraction of opinion propositions and tbeir holders. In: Proc. of the AAI Spring Symp.on Exploring Attitude and Affet in Text.2004. 22-24.[34] Wiebe J, Wilson T, Bell M. ldentifying collocations for recognizing opinions. In: Webber BL, ed. Proc. of the ACL/EACLWorkshop on Collocation: Computational Extraction, Analysis, and Exploitation. Morristown: ACL, 2001. 24-31.[35] Wiebe J, Wilson T. Learning to disambiguate potentially subjetive expressions. In: Roth D, van den Bosch A, eds. Proc. of theConf. on Natural Language Learming (CoNLL). Morristown: ACL, 2002.112-118.[36] Wilson T, Wiebe J, Hwa R. Just how mad are you? Finding strong and weak opinion clauses. In: Hendler JA, ed. Proc. of theAAAI 2004. Menlo Park: AAAI Press, 2004. 761-769.[37] Wilson T, Wiebe J, Hwa R. Recognizing strong and weak opinion clauses. Computational Inelligence, 2006.22(2):73-99.[38] Whiteiaw C, Garg N, Argamon s. Using appraisal groups for sentiment analysis. In: Fuhr N, ed. Proc. of the ACM SIGIR Conf. onInformation and Knowledge Management (CIKM). New York: ACM Press, 2005. 625- -631.[39] Moilanen K, Pulman s. Sentiment composition. In: Mitkov R, ed. Proc. of the Recent Advances in Natural Language ProcessingInt'l Conf. (RANLP 2007). 2007. 378 -382.[40] Choi Y, Cardie C. Learning with compositional semantics as structur中國煤化工o alysi In: Lapta M,Ng Ht, eds. Proc. of the EMNLP 2008. Mrristown: ACL, 2008. 793-MHCNMHG[41] Kobayashi N, Inui K, Matsumoto Y. Collecting evaluative expressions for opinion extraction. In: Nagao M, ed. Proc. of the Int'lJoint Conf. on Natural Language Processing (UCNLP). Morristown: ACL, 2004. 584 -589.[42] Bloom K, Garg N, Argamon S. Extracting appraisal expressions. In: Sidner C, ed. Proc. of the HLT-NAACL 2007. Morristown:趙妍妍等:文本情感分析1847ACL, 2007.308- -315.[43] Yao TF, Nie QY, Li JC, Li LL, Lou DC, Chen K, Fu Y. An opinion mining system for Chinese automobile reviews. In: Cao YQ, etal, eds. Proc. of the Frontiers of Chinese Information Processing. Bejing: Tsingbua University Press, 2006. 260- -281 (in Chinesewith English abstract).[44] Xu LH, Lin HF, Zhao J. Construction and analysis of emotional corpus. Jourmal of Chinese Information Processing, 2008.22(1):116-122 (in Chinese with English abstract).[45] Riloff E, Wiebe J, Phillips W. Exploiting subjectivity classification to improve information extraction. In: Yanco H, ed. Proc. ofthe AAAI 2005. Menlo Park: AAAI Press, 2005. 106-11111[46] Hatzivassiloglou V, Wiebe J. Effects of adjective orientation and gradability on sentence subjectivity. In: Kay M, ed. Proc. of theInt'1 Conf. on Computational Linguistics (COLING). Morristown: ACL, 2000. 299- -305.[47] Yu H, Hatzivassiloglou V. Towards answering opinion questions: separating facts from opinions and identifying the polarity ofopinion sentences. ln: Collins M, Steedman M, eds. Proc. of the EMNLP 2003. Morristown: ACL, 2003. 129-136.[48] Yao TF, Peng sw. A study of the lassification approach for Chinese subjective and objective texts. In: Zhu QM, et al, eds. Proc.of the NCIRCS 2007. 2007. 117-123 (in Chinese with English abstract).[49] Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimurm cuts. In: Scott D,ed. Proc. of the ACL 2004. Morristown: ACL, 2004. 271-278.[50] Hu MQ, Liu B. Mining and summarizing customer reviews. In: Kohavi R, ed. Proc. of the KDD 2004. New York: ACM Press,2004. 168 -177.[51] Tumey P. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. In: Isabelle P, ed.Proc. of the ACL 2002. Morristown: ACL, 2002.417- -424.[52] Pang B, Lee L, Vaithyanathan s. Thumbs up? Sentiment clasifcation using machine learning techniques. In: lsabelle P, ed. Proc.of the EMNLP 2002. Morristown: ACL, 2002. 79-86.[53] Cui H, Mittal vO, Datar M. Comparative experiments on sentiment classification for online product reviews. In: Gil Y, Mooney RJ,eds. Proc. of the AAAI 2006. Menlo Park: AAAI Press, 2006. 1265-1270.[54] Kim SM, Hovy E. Automatic identification of pro and con reasons in online reviews. In: Dale R, Paris C, eds. Proc. of theCOLING/ACL 2006. Morristown: ACL, 2006. 483-490.[55] Zhao J, Liu K, Wang G. Adding redundant features for CRFs-based sentence sentiment classification. In: Lapata M, Ng HT, eds.Proc. of the Conf. on Empirical Methods in Natural Language Processing (EMNLP 2008). Morristown: ACL, 2008. 117-126.[56] Pang B, Lee L. Seeing stars: Exploiting class relationships for sentiment catcgorization with respect to rating scales. ln: Knight K,ed. Proc. of the Association for Computaional Linguistics (ACL). Morristown: ACL, 2005.115-124.[57] Goldberg AB, Zhu X. Seeing stars when there aren't many stars: Graph-Based semi-supervised learning for sentimentcategorization. In: Bilmes J, el al, eds. Proc. of the HLT-NAACL 2006 Workshop on Textgraphs: Graph-Based Algorithms forNatural Language Processing. Morristown: ACL, 2006. 45- -52.{58] Lin WH, Wilson T, Wiebe J. Which side are you on? ldentifying perspectives at the document and sentence levels. In: Bilmes J, etal, eds. Proc. of the Conf. on Natural Language Learning (CoNLL). Morristown: ACL, 2006. 109-1 16.[59] Kim SM, Hovy E. Crystal: Analyzing predictive opinions on the Web. In: Eisner J, ed. Proc. of the Joint Conf. on EmpiricalMethods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). Morristown: ACL,2007. 1056-1064.[60] Hurst M, Nigam K. Retrieving topical sentiments from online document collections. ln: Proc. of the Document Recognition andRetrieval XI 2004. 27- 34.[61] Ounis 1, Rijke MD, Macdonald C, Mishne G, Soboroffl. Overview of the TREC-2006 Blog track. In: Proc. of the TREC.2006.[62] Zhang w, Yu C, Meng WY. Opinion retrieval from Blogs. In: Laender A, et al., eds. Proc. of the CIKM. New York: ACM Press, .2007. 831-840.63] Zhang w, Yu C. UIc at TREC 2007 Blog track. In: Proc. of the 16th TREC. 2007.[64] Zhang M, Ye XY. A generation model to unify topic relevance and lexicon-based sentiment for opinion retrieval. In: Chua TS,Leong MK, eds. Proc. of the ACM Special Interest Group on Information Retrieval (SIGIR). New York: ACM Press, 2008.411-418.[65] Liu B, Hu MQ, Cheng J. Opinion observer: Analyzing and comparin中國煤化工ed. Poe. of the www2005. New York: ACM Press, 2005. 342 -351.[66] Carenini G, Ng R, Pauls A. Multi-Document summarization of eval:MYHCN MH Gtner s, eds. Proc. of theEuropean Chapter of the Association for Computational Linguistics (EACL). Morristown: ACL, 2006. 305- -312.[67] Qin B, Zhao YY, Gao LL, Liu T. Recommended or not? Give advice on online products. In: Ma J, et al, eds. Proc. of the 5th Int'lConf. on Fuzzy Systems and Knowledge Discovery, IEEE Computer Society Press, 2008. 208-212.1848Jormal of Sofnware 軟件學(xué)報Vol.21, No.8, August 2010[68] Titov 1, McDonald R. A joint model of text and aspect ratings for sentiment summarization. In: McKcown K, ed, Proc. of the ACL208. Morristown: ACL, 2008. 308- -316.[69] Branavan s, Chen H, Eiseostein J. Learming document-level semantic properties from free- text annotations. In: McKeown K, ed.Proc. of the ACL 08: HLT. Morristown: ACL, 2008. 263- -271.[70] Ku LW, Liang YT, Chen HH. Opinion extraction, summarization and tracking in news and Blog corpora. In: Gil Y, Mooney RU,eds. Proc. of the AAAI 2006 Spring Symp. on Computational Approaches to Analyzing Weblogs. Menlo Park: AAAl Press, 2006.[71] Ounis 1, Rjke MD, Macdonald C. Overview of the TREC-2006 Blog track. lo: Proc. of the 15th Text Retrieval Conf. (TREC).2006.[72] Zhao J, Xu HB, Huang XJ, Tan SB, Liu K, Zhang Q. Overview of Chinese opinion analysis evaluation 2008. 2008 (in Chinese withEnglish abstract). htp://mlpr- web.ia.ac.cn/2008papers/gmhy/abl0.pdf[73] Jindal N, Liu B. ldentifying comparative sentences in text documents. In: Efthimiadis EN, ed. Proc. of the ACM Special InterestGroup on Information Retrieval (SIGIR). New York: ACM Press, 2006. 244 -251.[74] Wiebe J, Wilson T, Cardie C. Annotating expressions of opinions and emotions in language. Language Resources and Evaluation,2005,39(2-3):164- 210.[75]Ku LW, Lo YS, Chen HH. Using polarity scores of words for sentence-level opinion extraction. In: Proc. of the NTCIR-6Workshop Meeting. 2007. 316- 322.[76] Wilson T, Hoffmann P, Somasundaran s. Opinionfinder: A system for subjectivity analysis. In: Mooney RJ, ed. Proc. of theHLT/EMNLP 2005 Demonstration Abstracts. Morristown: ACL, 2005. 34-35.[77] Devitt A. Ahmad K. Sentiment polarity identifcation in financial news: A cohesionbased approach. In: Carroll J, ed. Proc. of theAssociation for Computational Linguistics (ACL). Morristown: ACL, 2007. 984- 991.1[78] Lita LV, Schlaikjer AH, Hong w. Qualitative dimensions in question answering: Extending the definitional QA task. In: Yanco H,ed. Proc. of the AAAL. Menlo Park: AAAI Press, 2005. 1616-1617.附中文參考文獻: .2] 黃萱菁,趙軍.中文文本情感分析.中圖計算機學(xué)會(huì )通訊,2008,4(2).[3]姚天防,程希 文,徐飛玉,漢思嗚思克爾特,王春文本意見(jiàn)挖掘綜述.中文信息學(xué)報2008,23):71-80.[5] 周立柱,賀宇凱,王建勇.情 感分析研究綜述.計算機應用,208,28(11):2725- -2728.[12] 朱孀嵐,閔錦,周雅倩,黃萱脊,吳立德.基于HowNet的詞匯語(yǔ)義傾向計算.中文信息學(xué)報,2006,20(1):14 -20.[23]倪茂樹(shù),林?zhù)欙w.基 于關(guān)聯(lián)規則和極性分析的商品評論挖掘.見(jiàn):第3屆全國信息檢索與內容安全學(xué)術(shù)會(huì )議論文集2007 628- -634.24] 劉鴻宇,趙妍妍,秦兵,劉挺.評價(jià)對象抽取及其傾向性分析.中文信息學(xué)報,2010,24(1);:84 88.[43]姚天昉,聶青 陽(yáng),李建趣,李林琳,婁德成,陳珂,付字.一個(gè)用于漢語(yǔ)汽車(chē)評論的意見(jiàn)挖掘系統.中文信息處理前沿進(jìn)展一中國中文信息學(xué)會(huì )成立二十五周年學(xué)術(shù)年會(huì )論文集2006.260-281.[44]徐琳宏,林?zhù)欙w,趙 晶情感語(yǔ)料庫的構建和分析.中文信息學(xué)報2080221)116-122.2[48]姚天昉,彭 思崴.漢語(yǔ)主客觀(guān)文本分類(lèi)方法的研究.見(jiàn):第3屆全國信息檢索與內容安全學(xué)術(shù)會(huì )議論文集2007.117-123.[72]趙軍,許洪波,黃萱菁,譚松波,劉康,張奇.中文傾向 性分析評測技術(shù)報告2008.0趙妍妍(1983 -),女,山東聊城人,博士生,劉挺(1972-),男,博士,教授,博士生導師,主要研究領(lǐng)城為情感傾向性分析.CCF高級會(huì )員,主要研究領(lǐng)城為自然語(yǔ)言處理,信息檢索.秦兵(1968- -),女,博士,教授,CCF會(huì )員,主要研究領(lǐng)城為文本挖擱.中國煤化工MYHCNMHG

論文截圖
版權:如無(wú)特殊注明,文章轉載自網(wǎng)絡(luò ),侵權請聯(lián)系cnmhg168#163.com刪除!文件均為網(wǎng)友上傳,僅供研究和學(xué)習使用,務(wù)必24小時(shí)內刪除。
欧美AAAAAA级午夜福利_国产福利写真片视频在线_91香蕉国产观看免费人人_莉莉精品国产免费手机影院