

事件信息結構分析
- 期刊名字:中文信息學(xué)報
- 文件大?。?78kb
- 論文作者:楊爾弘,曾青青,李婷婷
- 作者單位:北京語(yǔ)言大學(xué)國家語(yǔ)言資源監測與研究中心平面媒體語(yǔ)言分中心,首都體育學(xué)院國際教育學(xué)院
- 更新時(shí)間:2020-09-25
- 下載次數:次
第26卷第3期中文信息學(xué)報Vol. 26, No.32012年5月JOURNAL OF CHINESE INFORMATION PROCESSINGMay, 2012文章編號: 1003-0077(2012)03-0092-06事件信息結構分析楊爾弘”,曾青青',李婷婷2(1.北京語(yǔ)言大學(xué)國家語(yǔ)言資源監測與研究中心平面媒體語(yǔ)言分中心,北京100083 ;2.首都體育學(xué)院國際教育學(xué)院,北京100191)摘要:該文通過(guò)考察事件詞在文本篇章結構中的分布方式,指出突發(fā)事件新聞報道文本中包含主線(xiàn)信息鏈和副線(xiàn)信息鏈。主線(xiàn)信息鏈中包含了文本的事件信息,是事件信息提取重點(diǎn)考慮的文本內容部分;副線(xiàn)信息鏈則由文本結構中的“評價(jià)”、“背景”以及“情節”部分的細節信息等組成,是事件信息提取時(shí)可以忽略的文本內容部分。事件信息的.結構可以進(jìn)一步分解為前核心事件鏈、核心事件鏈、次生事件鏈和后次生事件鏈。該文通過(guò)定義事件詞,以其為觸發(fā).探索了事件信息結構的識別與獲取,并借助《知網(wǎng)》(HowNet)提高了事件詞對信息劉畫(huà)的有效性和區分度。關(guān)鍵詞:事件詞;事件信息結構;主線(xiàn)信息鏈;剮線(xiàn)信息鏈中圈分類(lèi)號: TP391文獻標識碼: AAnalysis of Event Information Structure in TextYANG Erhong' , ZENG Qingqing' ,LI Tingting'(1. National Language Resources Monitoring and Research Center Print Media Language Branch,Beiing Language and Culture University, Beijing 100083, China;2. International Education School, Capital University of Physical Education and Sports, Beijing 100191. China)Abstract: The distribution of event word in text reveals the event information structure, Through observation on thereal News texts of the sudden event, our research indicates that the news text is composed of two elements. themain information chain and the second information chain. The main information chain is just the texrs event informa-tion structure including the preceding-core event information chain, the core event information chain, the secondaryevent information chain and the post generation event information one. Also, we study the event informetion struc-ture detection with the event word as a trigger, adopting the HowNet to improve the event word based event infor-mation structure detection.Key words: event word; event information structure; the main information chain; the second information chain件抽取研究,大多以這樣的定義為基礎:以若干特1引言定的事件類(lèi)型為目標,研究事件模板的獲取以及事件的論元識別6-10。事件模板主要依靠經(jīng)驗給出種隨著(zhù)互聯(lián)網(wǎng)的廣泛應用,準確地從海量.無(wú)序、子模板或聚類(lèi)的方式獲(取0101];論元角色多以計雜亂無(wú)結構的網(wǎng)頁(yè)文本中提取用戶(hù)感興趣的事件算事件模板論元的語(yǔ)義約束與詞語(yǔ)的相關(guān)屬性之間信息是信息抽取領(lǐng)域的重要研究課題川。在美國,的對應關(guān)系進(jìn)行填充6.12。DARPA.NIST組織的MUC、ACEL24J等評測任務(wù)目前,從整個(gè)語(yǔ)篇的角度探索事件信息的分布.中,對事件信息抽取給出了明確的定義。當前的事與事件抽取技術(shù)的研究還較少。文獻[7]嘗試了從收稿日期: 2011-09-11定稿日期: 2012-01-31中國煤化工基金資助:國家社科基金資助項目(06YY047)作者簡(jiǎn)介:楊爾弘(1965- ),女 ,教授,主要研究方向為語(yǔ)言信息處.MHCNMHG研究方向為語(yǔ)言信息處理;李婷婷(1983- ),女 ,碩士,主要研究方向為語(yǔ)言信息處理。3期楊爾弘等:事件信息結構分析93語(yǔ)篇中過(guò)濾非事件句子,文獻[13]探索了語(yǔ)篇中事篇章中的分布,具有表達簡(jiǎn)潔、目標明確、可操作性件與事件的關(guān)系,研究事件之間的推理。強的特點(diǎn)。人工標注文本中出現的事件詞,得到每本文針對突發(fā)事件新聞報道,從可操作的角度,類(lèi)文本的事件詞集合0,事件信息的分布可以通過(guò)將“事件”定義簡(jiǎn)單化一與突 發(fā)事件相關(guān)的動(dòng)作、集合中事件詞的分布情況獲得。狀態(tài)改變都定義為一個(gè)事件,事件以事件詞為標示,標注過(guò)程中發(fā)現:“情節”部分基本上囊括了事事件詞可以是動(dòng)詞、名詞化(Nominalizations)、形容件的信息,是事件信息抽取的重要部分;但此外,“情詞等。在此基礎上,研究事件信息在報道文本中的節"還包括了一些描述事件特別細節的句子和一些分布,從而確定文本中事件信息的組織方式,尋找到事件詞缺省的句子。由此,在戴伊克新聞圖式結構篇章結構和事件信息結構之間存在的聯(lián)系,為事件的基礎上,進(jìn)一步對突發(fā)事件新聞報道文本定義“主信息的形式化描述和準確定位服務(wù)。線(xiàn)信息鏈”、“副線(xiàn)信息鏈”,將報道文本的篇章結構與事件信息對應。2突發(fā)事件文本的篇 章結構和事件信息結構(1)主線(xiàn)信息鏈。主線(xiàn)信息鏈是指報道“情節”部分中除去細節信息所在句子和事件詞缺省的事件2.1事件信息在篇章結構中的分布調查信息所在句子之后,由事件詞關(guān)聯(lián)起來(lái)的信息鏈。戴伊克(VanDijk)在《作為話(huà)語(yǔ)的新聞y18]_此信息鏈是以事件詞為顯性標記,將報道中的突發(fā)書(shū)中概括了新聞文本的假設性話(huà)語(yǔ)結構圖式,如.事件、核心事件及與該核心事件相關(guān)的各類(lèi)事件關(guān)聯(lián)在一起,是文本的中心內容部分,是篇章結構中的圖1所示。.主體部分,是讀者進(jìn)行篇章閱讀和理解的最重要的新聞報遭部分。(2)副線(xiàn)信息鏈。副線(xiàn)信息鏈是由“評價(jià)”部概述故事分、“背景”部分以及“情節”部分中的細節信息和事件詞缺省的事件信息所在的句子構成。從信息抽取標題導語(yǔ)情景評價(jià)的角度來(lái)說(shuō),副線(xiàn)信息鏈的信息不作為信息抽取的關(guān)注對象。副線(xiàn)信息鏈的作用在于使讀者加深對新情節背錄口頭反應結論聞報道的認識和理解,深化新聞的主題。突發(fā)事件新聞報道中的主副線(xiàn)信息鏈與新聞圖主要事件后果式結構成分的對應關(guān)系如圖2所示。語(yǔ)境歷史預測評細|背景環(huán)境以前事件節t圖1假設性新 聞圖式結構高p言|以戴伊克闡釋的假設性新聞圖式結構為基礎,連|了解文本描述的事件信息,需要閱讀“主要事件”和圖2主副線(xiàn)信息鏈和新聞圖式結構成分的對應關(guān)系“后果”組成的“情節”部分,可以忽略圖式中的“背景”及“評價(jià)”信息。換言之,可以假定“情節”部分是由此,在戴伊克的話(huà)語(yǔ)宏觀(guān)結構理論下,突發(fā)事突發(fā)事件的主體,也是事件信息抽取的主要部分。件新聞報道的篇章結構進(jìn)一步由主線(xiàn)信息鏈和副線(xiàn)本文選取了關(guān)于火災.地震.食物中毒等方面的新聞信息鏈兩個(gè)下位的結構組成。通過(guò)考察發(fā)現,突發(fā)報道文本各200篇以及關(guān)于恐怖襲擊的新聞報道80事件文本中構成主線(xiàn)信息鏈的句子和副線(xiàn)信息鏈的篇,以此作為語(yǔ)料,調查報道的篇章結構以及報道的句子沒(méi)有明確的界限,它們總是交織在一起。如主體內容---事件 信息在文本中的分布,以期發(fā)現新圖3中國煤化工聞的圖式結構和事件信息結構之間的關(guān)系規律。.HCNM H G_事件詞是文本中體現事件信息的重要元素,以①地晨尖文本事懺阿個(gè)數為1Z.大夾類(lèi)文本事件詞個(gè)敷為164,食物中毒類(lèi)文本事件詞個(gè)數為202.恐怖襲擊類(lèi)類(lèi)文本事件詞事件詞作為事件信息的核心表達,調查事件信息在個(gè)數為115.94中文信息學(xué)報2012年背景信息....( 副線(xiàn)信息鏈事|事主線(xiàn)信息鏈件L-t件牛主觀(guān)信息細節信息圖3突發(fā)事件文本信息鏈燃、短路、使用不當、操作不當、縱火、閃電、雷擊、釋2.2事件信 息結構放煙花、燃放煙花炮竹、取暖、泄露、拆除、熏制、焊前文定義的主線(xiàn)信息鏈即為突發(fā)事件文本的信接超負荷、故障、爭執]息結構,主線(xiàn)信息鏈上關(guān)聯(lián)了事件詞和事件論元,這(3)次生事件信息鏈。次生事件是由核心事件些是事件信息抽取的對象。通過(guò)對四類(lèi)突發(fā)事件,直接造成的不可抗拒的事件,是事故造成的直接影.共計680篇新聞報道文本的主線(xiàn)信息鏈進(jìn)行意義分響。次生事件詞在文本中標示所發(fā)生的次生事件。析,同時(shí)對以事件詞為標志的事件和事件之間的關(guān)包含次生事件詞的事件小句構成次生事件信息鏈。系進(jìn)行分析,可以發(fā)現主線(xiàn)信息鏈代表的事件信息例如,火災文本的次生事件詞集合如下:結構通常是由四個(gè)部分組成的事件描述,即核心事Secondary Event Words of Fire = [傷亡、死件、前核心事件、次生事件以及后次生事件。在此信亡、死、喪生、失蹤、遇難.傷亡、傷、受傷、重傷輕傷、息結構中,核心事件是主體,其余三部分事件信息都燒傷、燒燙傷、燙傷、傷勢、輕微傷、灼傷、熏暈、熏黑、是圍繞核心事件而產(chǎn)生、存在的。組成事件信息的熏暈、熏得萎靡、熏傷、熏死、昏迷不醒、嚇壞、損失、四個(gè)部分對應的事件詞有明顯的差別。由此,可以被困、昏迷蔓延、損害、身體不適、砸暈、骨折、撤離、事件詞為驅動(dòng),識別、區分事件的信息結構。以火災撇退、逃出、逃生、逃散、逃離、踩踏、呼救、自敫、跳類(lèi)突發(fā)事件為例,以事件詞集合為事件的基本表示,窗、碎裂、損毀、破損、燒毀、燒焦.燒穿、被燒.被炸對應的事件信息鏈示例如下:爆、炸裂、燒盡、爆炸、坍塌、砸、影響](1)核心事件信息鏈。核心事件是事件信息結(4)后次生事件信息鏈。后次生事件是指由核構中的重要構成成分,它是突發(fā)事件文本報道的焦點(diǎn)心事件造成的間接影響,主要是描述人在面對突發(fā)事件。標志核心事件發(fā)生的事件詞即為核心事件詞。性的災難時(shí)采取的各種應對措施。后次生事件詞表包含核心事件詞的事件小句是核心事件信息鏈上的示文本中描述的后次生事件。包含后次生事件詞的基本元素。例如,火災文本的核心事件詞集合如下:事件小句組成后次生事件信息鏈。例如,火災文本Core Event Words of Fire= [火災、火災事故、的后次生事件詞集合如下:火勢、火海、大火.火、余火、火苗、明火殘火、火情、Regeneration Events Words of Fire= [啟動(dòng)(應火場(chǎng)、火魔、火光、火警、起火點(diǎn)、著(zhù)火點(diǎn)、火源,過(guò)火.急預案)報警、警戒、封閉、關(guān)閉、調集、安置、增援、出面積、著(zhù)火、著(zhù)起火來(lái)、起火、失火、燃燒、胃煙、滾滾動(dòng).趕到、趕赴、奔赴處理、指揮、部署、清理撤離、搬冒出、煙霧、黑煙.焦煙、煙柱.濃煙、濃煙滾滾、濃煙出、轉移、撲滅、救火、滅火、撲救、救援、控制、疏散,善彌漫、濃煙籠罩、濃煙刺鼻、火光沖天、火光四射、火后噴水、接水、潑水搶險、搶救、急救救出、搜救、救治、治療、觀(guān)察、就醫、檢查、核查、檢測、檢查.調查.隔猛炳大](2)前核心事件信息鏈。前核心事件指先于核離、呼吁、逮捕、運抵宜判.判、通知]心事件而發(fā)生的事件,通常前核心事件是造成核心3事件詞擴 充和副線(xiàn)信息鏈過(guò)濾事件發(fā)生的原因。前核心事件詞在文中標示前核心事件的發(fā)生。包含前核心事件詞的事件小旬構成前核心事件信息鏈。例如,火災類(lèi)文本的前核心事件3.中國煤化工詞集合如下:YH. CNMHG性.獲得了每一類(lèi)Former-Core Event Words of Fire =[爆炸、點(diǎn)突發(fā)事件對應的事件詞集合,進(jìn)一步將事件詞區分,3期楊爾弘等:事件信息結構分析95可以使事件詞集合中的不同元素,表達事件的信息的副線(xiàn)信息進(jìn)行過(guò)濾,可以消除文本中影響事件抽結構,也就是可以利用事件詞區分前核心、核心、次取的干擾信息,并提高事件詞對事件信息表達的區生和后次生事件信息鏈,不同的事件信息鏈對應不分度。同的事件詞。為過(guò)濾副線(xiàn)信息鏈,必須在文本中找到區分如果每- -類(lèi)突發(fā)事件的事件詞是一個(gè)相對穩定主線(xiàn)信息鏈和副線(xiàn)信息鏈的特征。- -般來(lái)說(shuō),細的詞語(yǔ)集合,這對事件信息結構的發(fā)現與識別將有節信息屬于客觀(guān)信息的一部分,但是因為其過(guò)于很大幫助。為驗證從標注文本中標注得到的事件詞瑣碎,往往句子中不會(huì )包含有標注和擴充得到的集合對新的文本事件信息表示的有效性,本文做了事件詞,所以對于細節信息可以暫不考慮。例如,-一個(gè)簡(jiǎn)單的實(shí)驗,將標注得到的事件詞作為種子事以下兩個(gè)例句都屬于火災事件的細節信息,均未件詞,對新的測試語(yǔ)料文本進(jìn)行事件詞覆蓋測試。包含事件詞。以地震文本為例,重新選擇50篇新的文本。覆蓋結(1)羅周忠因外出不在家,逃過(guò)一劫,羅還有一果表明從200篇地震文本中獲得的種子事件詞不能個(gè)女兒在外地讀書(shū)。完全覆蓋新文本中事件信息,即新文本中出現了新(2)這家店的店主說(shuō):“我們的所有財物都被的事件詞。這說(shuō)明所獲得的事件詞對同類(lèi)事件新聞燒毀了,徹底被毀了。我們失去了曾擁有的一切,現報道文本信息表達的有效性不夠。在可算是徹底完了。要知道,我們把所有的錢(qián)都投如何擴大事件詞集合?解決這個(gè)問(wèn)題的方法可資到這個(gè)店上了?!币允?增加標注量,直到事件詞達到一個(gè)比較穩定另外,有一些背景信息也不包含事件詞,不會(huì )對的狀態(tài),即隨著(zhù)新文本的加人,不再出現新的事件事件抽取造成千擾,例如:詞。此方法的問(wèn)題是:究竟多大的標注量就夠了?(1)呼困壁縣位于新疆中北部,距離新疆首府如何選擇需進(jìn)行標注的文本?這兩個(gè)問(wèn)題解決起來(lái)烏魯木齊約六十公里。都比較閑難。擴大事件詞集合的另- -種方法是利用(2)巴達赫尚省是阿富汗最偏遠的地區,交通已有的詞典、知識資源。在此我們利用常識知識庫不便、通信落后、人口密度很低?!吨W(wǎng)》( HowNet)b5J對已有的種子事件詞進(jìn)行擴因此副線(xiàn)信息鏈中過(guò)濾的重點(diǎn)是包含事件詞的充,從《知網(wǎng)》中獲得種子詞的相關(guān)詞,再利用詞性等評價(jià)信息和背景信息。對這部分內容的過(guò)濾方法,限制篩選相關(guān)詞,得到擴充詞集合。以地震文本為本文主要采取詞語(yǔ)的顯性標記作為特征。例如,在例.核心事件詞經(jīng)擴充后由原來(lái)的17個(gè)擴展為21標注過(guò)程中發(fā)現,地震文本的背景信息有比較明顯個(gè)0;次生事件詞由原來(lái)的64個(gè)擴展為1 146個(gè);后的詞語(yǔ)特征。通過(guò)對200篇地震文本考察,發(fā)現很次生事件詞由原來(lái)的51個(gè)擴展為548個(gè)四。多背景信息表達方式如下:在對四類(lèi)突發(fā)事件文本的事件詞進(jìn)行擴充時(shí),(1)日本地震頻發(fā),每年發(fā)生有感地震1000多擴充原則一樣,但是四類(lèi)文本的前核心、次生、后次次,是世界上地震最頻繁的國家之一。生事件詞之間有很多交集詞語(yǔ),因此對組成事件信(2)墨西哥處于環(huán)太平洋地震帶東部,屬地震息結構的不同部分,事件詞的擴充可以采用不同的多發(fā)國家。策略獲得:突發(fā)事件的核心事件詞需要根據突發(fā)事(3)地處太平洋板塊和加勒比板塊交界處的尼件類(lèi)型各自進(jìn)行擴充,即分別對地震、火災、食物中加拉瓜境內地殼運動(dòng)頻繁,歷史上曾多次發(fā)生地震。毒恐怖襲擊文本的核心種子事件詞進(jìn)行擴充;對于(4)去年8月,秘魯發(fā)生里氏8級地震,至少造突發(fā)事件的前核心、次生和后次生事件詞,可以不考成500人死亡,4萬(wàn)座房屋被毀。慮突發(fā)事件類(lèi)型,按各個(gè)部分擴充。在這些包含知識.歷史、環(huán)境以及以前事件在內的背景信息中,諸如“(頻繁)|(頻發(fā))|(多發(fā)國家)|3.2副線(xiàn)信 息鏈過(guò)濾(多發(fā)區)|(多發(fā)帶)(多發(fā)地帶)|(強地震帶)|(最人工標注過(guò)程中,已經(jīng)發(fā)現副線(xiàn)信息鏈中很多易發(fā)生)|《經(jīng)常發(fā)生)(活躍)|(曾發(fā)生)|(曾多次發(fā)句子包含事件詞,諸如背景信息、評價(jià)信息等。因此中國煤化工從事件信息提取的角度來(lái)看,以事件詞作為驅動(dòng)來(lái)識別、提取事件信息,文本中的副線(xiàn)信息鏈將會(huì )產(chǎn)生YHCN M H G人工標注地震類(lèi)文本的時(shí)候,表不地震事作的事件同大事數匕經(jīng)懷出了.較大噪音。為此,根據篇章結構,對新聞報道文本中0地震類(lèi)突發(fā)事件沒(méi) 有明顯的前核心事件.96中文信息學(xué)報2012年生)(曾遭遇)|(發(fā)生過(guò))|(上次發(fā)生)|(上一次發(fā)惡性恐怖襲擊事件。生)(去年....”這樣的詞語(yǔ)是副線(xiàn)信息的顯性標(3)估計在未來(lái)24小時(shí)內,景泰原震區發(fā)生更記。將從文本中提出的明顯標示背景信息的詞語(yǔ)作大級別地震的可能性不大。為顯性標記,可以識別副線(xiàn)信息。在選取的200篇(4)伊朗駐聯(lián)合國官員的一系列可疑行為已引地震文本中,人工標記有59個(gè)句子是背景信息,用發(fā)了 紐約警局官員有關(guān)伊朗特工可能主使發(fā)動(dòng)恐怖程序根據顯性標記在文本中自動(dòng)識別背景信息,得襲擊的擔心.到45個(gè)句子。由此提取表達副線(xiàn)信息的顯性詞3.3實(shí)驗語(yǔ),可以作為過(guò)濾副線(xiàn)信息的特征。副線(xiàn)信息鏈中的不同內容對應的詞語(yǔ)特征是不為驗證事件詞擴充和副線(xiàn)信息鏈過(guò)濾的效果,一樣的。以下示例了評價(jià)信息部分對應的特征設計如下實(shí)驗:詞語(yǔ)。以已經(jīng)標注的200篇地震文本為基礎,提取事(1)分析人士認為,不管調查結果如何,巴基斯件詞,標記副線(xiàn)信息鏈。隨機選擇50篇新的地震類(lèi)坦的國際形象因這次襲擊事件而再次遭受?chē)乐赜笆录蟮牢谋具M(jìn)行測試。分別測試事件詞擴充前后響,使外界對巴基斯坦的安全形勢感到進(jìn)一步擔憂(yōu)。和副線(xiàn)信息過(guò)濾前后,事件詞對文本中事件信息結(2)警方初步判斷是泰南武裝分子制造了這起構的識別與區分結果。測試的指標定義如下:Precision=(識別正確的核心事件詞個(gè)數+識別正確的前核心事件詞個(gè)數識別的核心事 件詞個(gè)數識別的 前核心事件詞個(gè)數+識別正確的次生事件詞個(gè)數+識別正確的后次生事件詞個(gè)數/4x100% .識別的次生事件詞個(gè)數識別的后次生事件詞個(gè)數Recall=人工標注的核心事件詞個(gè)數 入工標注的前核心事件同個(gè)數。識別正確的次生事件詞個(gè)數」識別正確的后次生事件詞個(gè)數\! 4X100%人工標注的次生事件詞個(gè)數十人工標注的后次生事件詞個(gè)數)F- Score=. 2X PrecisionX RecallPrecision+ Recal表1給出了未進(jìn)行事件詞擴充和副線(xiàn)信息過(guò)濾表2地震類(lèi)文本事件詞擴 充后封閉及開(kāi)放測試實(shí)驗時(shí)的情況。封閉測試的測試對象只包含200篇人工(且過(guò)濾副線(xiàn)信息)標注過(guò)的突發(fā)事件報道文本,開(kāi)放測試的測試對象事件信息結構識別PrecisionRecallF-Score是新選擇的50篇突發(fā)事件報道文本。封閉測試95. 57%表1地震類(lèi)文本事件詞擴 充前封閉及開(kāi)放測試實(shí)驗開(kāi)放測試92.24%| 99. 15%(未過(guò)濾副線(xiàn)信息)表2的實(shí)驗數據表明,通過(guò)過(guò)濾副線(xiàn)信息鏈和事件信息結構識別Precision事件詞擴充兩個(gè)步驟,- - 方面減少了錯誤識別結果,封閉測試(人工標注)| 89. 68%提高了識別的準確率;另一方面,因為擴充后的事件90. 02%97. 60%93. 66%詞集擴大,使得更多的事件詞能夠被機器識別出來(lái),封閉測試的準確率較低是由于副線(xiàn)信息鏈中的召回率也得到了提高。噪聲數據引起的。隨著(zhù)文本量的增加,副線(xiàn)信息鏈4結語(yǔ)的數量增加,噪聲會(huì )增大,這也是開(kāi)放測試的準確率比封閉測試的要高的原因。本文結合戴伊克新聞文本的話(huà)語(yǔ)圖式,通過(guò)考表2給出了擴充事件詞并過(guò)濾副線(xiàn)信息鏈之察事件詞在篇章中的分布情況,提出了突發(fā)事件新后,對事件信息結構的識別結果。實(shí)驗的步驟是:聞捆中國煤化士線(xiàn)信息鏈和副線(xiàn)信(1)利用顯性標記規則過(guò)濾副線(xiàn)信息鏈; (2)利用擴息THE突發(fā)事件新聞報道充后的所有事件詞對文本中的事件信息結構進(jìn)行的主CN M H2在主線(xiàn)信息鏈中識別。以事件信息的層級結構形式體現出來(lái),即事件信息3期楊爾弘等:事件信息結構分析97由前核心事件鏈、核心事件鏈、次生事件鏈和后次生edu/Projects/ ACE/ docs/Chinese Entities-Guidelines.事件鏈構成,事件信息結構可以簡(jiǎn)單地以事件詞的v5. 5. pd.2005a.分布來(lái)區分,這為事件信息提取提供了幫助。副線(xiàn)[3] ACE Chinese Annotation Guidelines for Relations(Version 5. 5.1) [EB/OL]. http://www. ldc. upenn.信息鏈則是由“評價(jià)”部分、“背景”部分以及“情節”edru/Priects/ ACE/docs/Chinese -Relations -Guidelines部分中的細節信息和事件詞缺省的事件信息所在的_v5. 5. 1. pdl. 2005b.句子等構成,不作為事件信息抽取時(shí)考慮的內容。4] ACE Chinese Annotation Guidelines for Events [ EB/在此調查的基礎上,實(shí)驗了利用《知網(wǎng)》(HowNet)OL] http://www. ldc. upenn. edu/Prijects/ ACE/擴充事件詞、利用顯式詞語(yǔ)規則過(guò)濾副線(xiàn)信息鏈,從docs/Chinese Events-Guidelines. v5. 5. 1. pdf.2005c.而盡可能準確地識別、區分事件信息結構。目前,本[5]姜吉發(fā).一種事件信息抽取模式獲取方法[J].計算機工程.2005, 31(15): 96-98.文的研究只考察了地震、火災、食物中毒.恐怖襲擊[6]趙妍妍,秦兵,車(chē)萬(wàn)翔,等. 中文事件抽取技術(shù)研究[J].這四類(lèi)突發(fā)事件新聞報道文本,實(shí)驗結果表明方法中文信息學(xué)報。2008,22(1): 3-8.是有效的。許紅磊.陳錦秀,等.自動(dòng)識別事件類(lèi)別的中文事件抽核心事件詞需要根據突發(fā)事件的類(lèi)別分別獲取技術(shù)研究[J]心智與計算,2010,4(1): 34-44.取,且相對穩定。事件信息結構中其他事件信息鏈[8] 吳平博,陳群秀,馬亮.基于事件框架的事件相關(guān)文檔的智能檢索研究[].中文信息學(xué)報,2003, 17(6): 25-對應的事件詞有些具有共性,可以根據性質(zhì)獲取,并被不同的突發(fā)事件共享。本文的研究只是從文本結[9] 粱晗 ,陳群秀,吳平博.基于事件框架的信息抽取系統構的角度,初步探索了以事件詞為區分特征的事件[J].中文信息學(xué)報,2006, 20(2): 40-46.信息結構識別。當新聞報道的事件類(lèi)型不斷增加[10]楊爾弘 突發(fā)事件信息提取研究[D].北京語(yǔ)言大學(xué),時(shí),還需要分類(lèi)分析文本的特點(diǎn),以獲得其相應的事2005.件信息結構。[11]馮禮,李芳,盛煥燁.基于詞對特征的事件新側面探測[].計算機工程,2009 ,35(3): 45-47.[12] 螞札基于事件框架的突發(fā)事件信息抽取[D].上海參考文獻.交通大學(xué),2008.[13] 仲兆滿(mǎn),劉宗田,周文,等.事件關(guān)系表示模型[J].中[1] Ralph Grishman. Information Extraction: Techniques文信息學(xué)報,2009.23(6): 56-60.and Callenges [M]. Information Extracion.ed. Ma- [14] Van Dijk(著(zhù)),曾慶香(譯).作為話(huà)語(yǔ)的新聞[M].華ria Teresa Pazienza, Spring Notes in Artificial Inteli-夏出版社,2003.gences, Spring-Vealag. 1997.[15]董振東,董 強.《知網(wǎng)>(HowNet)[EB/OL]. http://[2] ACE. ACE Chinese Annotation Guidelines for Entitieswww. keenage. com.(Version 5. 5) [ EB/OL]. http://www. lde. upenn.中國煤化工MHCNMHG
-
C4烯烴制丙烯催化劑 2020-09-25
-
煤基聚乙醇酸技術(shù)進(jìn)展 2020-09-25
-
生物質(zhì)能的應用工程 2020-09-25
-
我國甲醇工業(yè)現狀 2020-09-25
-
JB/T 11699-2013 高處作業(yè)吊籃安裝、拆卸、使用技術(shù)規程 2020-09-25
-
石油化工設備腐蝕與防護參考書(shū)十本免費下載,絕版珍藏 2020-09-25
-
四噴嘴水煤漿氣化爐工業(yè)應用情況簡(jiǎn)介 2020-09-25
-
Lurgi和ICI低壓甲醇合成工藝比較 2020-09-25
-
甲醇制芳烴研究進(jìn)展 2020-09-25
-
精甲醇及MTO級甲醇精餾工藝技術(shù)進(jìn)展 2020-09-25