一、 研究進(jìn)展情況
武漢大學(xué)蕭國政、姬東鴻為首席專家的國家社會科學(xué)基金重大招標(biāo)項目《基于本體演化和事件結(jié)構(gòu)的語義網(wǎng)模型研究》(項目批準(zhǔn)號:11&ZD189),2012年2月15日正式開題啟動,2013年8月提交項目中期檢查表。項目經(jīng)費總額80萬,2012年5月到賬經(jīng)費68萬。
本課題子題多,參研單位和學(xué)科多,需攻克的難點密集,根據(jù)開題專家組和管理部門的建議,專門成立了項目管理組,項目嚴(yán)格按照國家對哲學(xué)社科基金重大項目的管理要求,建立了實施和管理方案,細(xì)化了任務(wù)分工和任務(wù)要求,明確了任務(wù)時間節(jié)點,每周、每月、每季度都有不同課題組及成員參加的學(xué)術(shù)研討會和匯報交流會。目前,項目研究歷時已三年半,前面的工作已經(jīng)做過匯報,現(xiàn)將2013年7月—2015年6月(下面簡稱“現(xiàn)階段”或目前)的項目研究情況匯報如下。
一、項目開展情況
(一)研究計劃總體執(zhí)行情況及各子課題進(jìn)展情況
子課題一,為面向事件的本體結(jié)構(gòu)資源建設(shè),旨在建立涵蓋實體、屬性、性質(zhì)、事件及其上下位關(guān)系的基礎(chǔ)本體結(jié)構(gòu),建立涵蓋事件和事件鏈的語義標(biāo)注資源,為文本的深度語義挖掘、上下文理解和語義查詢及推理奠定基礎(chǔ)。
本體結(jié)構(gòu)方面,現(xiàn)階段我們用事件語義描寫模板完成了電子商務(wù)領(lǐng)域的事件語義描寫模板庫,以及10余萬字的著作。其創(chuàng)新點是:1)從事件本身的語義特征出發(fā)來理解和定義事件,對事件進(jìn)行了新的內(nèi)涵分類和結(jié)構(gòu)分類,以方便提取事件的結(jié)構(gòu)要素;2)提取了事件的六個一級基本語義要素和二十五個二級語義要素,并以這些語義要素為基礎(chǔ),定義了事件六元組通用描寫模板。
事件資源方面,在總結(jié)和研究多學(xué)科相關(guān)成果的基礎(chǔ)上,針對語言信息處理的需要,構(gòu)建了適用于語言信息處理的事件理論系統(tǒng),并將事件分析和結(jié)構(gòu)分析融合起來。現(xiàn)階段我們集中對突發(fā)事件和醫(yī)療事件進(jìn)行標(biāo)注,定義了事件標(biāo)注的基本框架,并形成一定規(guī)模的數(shù)據(jù)資源。其創(chuàng)新點在于:1)在事件標(biāo)注中引入了結(jié)構(gòu)性語義單元。如“發(fā)生……事故”和“正在……進(jìn)行中”它們可分別作為一個結(jié)構(gòu)性事件觸發(fā)詞和一個結(jié)構(gòu)性時態(tài)整體標(biāo)注出來。2)將事件標(biāo)注方法引入真實的藥品說明書和用藥指南中進(jìn)行標(biāo)注。
目前我們確定了事件標(biāo)注的具體步驟,包括語料的選擇、語料的預(yù)處理和事件標(biāo)注,并對數(shù)據(jù)進(jìn)行了人工標(biāo)注。我們將突發(fā)事件分為:原因類事件、核心類事件、結(jié)果類事件和處置類事件四個類別進(jìn)行分別標(biāo)注。每一類事件又有其事件觸發(fā)詞和相關(guān)的事件屬性,如:時間、地點、施事、受事、模態(tài)等。醫(yī)療類事件,我們以藥品說明書及用藥指南為基礎(chǔ)數(shù)據(jù)進(jìn)行標(biāo)注,定義了疾病、癥狀、治療(手段)、藥品、病菌、患者等8個事件實體。不僅標(biāo)注這些醫(yī)療領(lǐng)域的事件實體,還要標(biāo)注這些實體間的關(guān)系,這種基于“事件”的標(biāo)注資源在中文領(lǐng)域比較稀缺。
子課題二,為面向事件的語義網(wǎng)表示和推理機(jī)制,此課題旨在研究大規(guī)模的事件語義描述及其推理模型和引入統(tǒng)計推理,以支持面向事件的語義查詢和實時自然語言查詢,并從邏輯基礎(chǔ)的角度來驗證這種表示機(jī)制的可滿足性和可判定性。目前主要完成了三個方面的研究:①開發(fā)基于規(guī)則的知識圖譜質(zhì)量評價機(jī)制的研究,已經(jīng)在醫(yī)學(xué)知識圖譜質(zhì)量評價方面取得了一定進(jìn)展;②進(jìn)一步細(xì)化了基于事件的醫(yī)學(xué)指南文本處理的研究,包括將中文抗菌藥醫(yī)學(xué)指南文本轉(zhuǎn)換成相應(yīng)的可執(zhí)行規(guī)則和利用英文循證指南,細(xì)化中文指南的相關(guān)工作;③建立了從現(xiàn)有專業(yè)網(wǎng)站自動構(gòu)建相應(yīng)領(lǐng)域知識的工具,并針對醫(yī)學(xué)類專業(yè)網(wǎng)站進(jìn)行了驗證,達(dá)到了相應(yīng)的效果。
本子課題在以下方面有所創(chuàng)新:1) 引入了基于規(guī)則的知識圖譜質(zhì)量評價機(jī)制的研究;2)建立了醫(yī)療、消防等專業(yè)領(lǐng)域的中文開放鏈接數(shù)據(jù),豐富了中文開放鏈接數(shù)據(jù)庫的內(nèi)容,并為相關(guān)應(yīng)用奠定基礎(chǔ)。
子課題三,為基于知識發(fā)現(xiàn)的本體演化機(jī)制研究,旨在研究在大規(guī)模文本的作用下,基礎(chǔ)本體到領(lǐng)域本體以及領(lǐng)域本體間的演化機(jī)制。這方面的主要進(jìn)展在于:①研究從大規(guī)模語料中自動發(fā)現(xiàn)目標(biāo)單詞詞義,提出一個基于詞匯鏈的詞義歸納超圖模型;②提出通過語法測試的方法來提高語料標(biāo)注質(zhì)量;③自動發(fā)現(xiàn)領(lǐng)域文本中的事件觸發(fā)詞及其論元。
這些工作的創(chuàng)新性在于:1)基于詞匯鏈的方法發(fā)現(xiàn)目標(biāo)單詞的高階語義關(guān)系,以此構(gòu)建超圖,并根據(jù)所構(gòu)建的超圖滿足“小世界圖”特性發(fā)現(xiàn)詞義;2)利用復(fù)雜網(wǎng)絡(luò)的辦法發(fā)現(xiàn)新的社團(tuán),其中包含事件觸發(fā)詞和可能的論元。
子課題四,為事件語義的自動標(biāo)注研究,本課題旨在基于人工標(biāo)注的一定數(shù)量語料實例和概念本體的基礎(chǔ)上,遵照人工標(biāo)注事件語義規(guī)范,利用機(jī)器學(xué)習(xí)方法,進(jìn)行事件結(jié)構(gòu)學(xué)習(xí)和事件關(guān)系抽取,為未標(biāo)注Web頁面自動進(jìn)行事件語義標(biāo)注,并在事件語義自動標(biāo)注軟件的幫助下,獲得更多的標(biāo)注了事件語義的語料實例,擴(kuò)展事件本體資源的規(guī)模。目前我們的進(jìn)展主要在以下幾方面:①我們在已標(biāo)注中文事件語料上,采用統(tǒng)計與規(guī)則相結(jié)合方法,研究了中文事件抽取;②在NTCIR RITE任務(wù)的語料上,進(jìn)行了人工事件標(biāo)注,研究了事件對中文文本蘊涵關(guān)系識別的影響;③在爬取的醫(yī)療語料(主要是藥品說明書)上,進(jìn)行了醫(yī)療實體、醫(yī)療實體關(guān)系識別方面的探索。
本子課題的創(chuàng)新之處在于:1)將事件自動標(biāo)注與醫(yī)療文本信息結(jié)合,利用事件語義自動標(biāo)注方法,對藥物說明書與用藥指南文本進(jìn)行基于事件語義的計算與理解;2)通過不同的原子事件的抽取方法,研究開放領(lǐng)域原子事件的抽取技術(shù)及其與指代消解、詞義學(xué)習(xí)的關(guān)系。
子課題五,為基于事件的語義查詢與推理研究,本項目旨在建立一種基于事件的推理模型,以及一種基于事件推理的語義查詢與推理系統(tǒng)。按照預(yù)期目標(biāo),已經(jīng)完成以下研究:①文本推理框架、各模塊(預(yù)處理模塊、蘊涵轉(zhuǎn)換模塊、蘊涵分類模塊)。②完成了基于事件的蘊涵識別模塊。③基于文本蘊涵的問答系統(tǒng)完成。④在評測平臺方面,完成了RTE、NTCIR評測數(shù)據(jù)收集分析,并對評測工作現(xiàn)狀進(jìn)行分析,完成了原型系統(tǒng)設(shè)計、錯誤分析和系統(tǒng)改進(jìn)。在此基礎(chǔ)上,課題成員參與了NTCIR-11組織的的中文文本推理任務(wù),系統(tǒng)效果在參賽隊伍中名列前茅。
本子課題的創(chuàng)新性在于提出了基于事件的蘊涵識別方法,該方法能一定程度刻畫深度語義,能夠識別面向語篇的蘊涵關(guān)系,有助于提高語義查詢系統(tǒng)的性能。
二、調(diào)查研究及學(xué)術(shù)交流
項目在已有的基礎(chǔ)上,我們進(jìn)一步加強(qiáng)了調(diào)查研究工作和學(xué)術(shù)交流。為了幫助和實現(xiàn)項目的研究在國內(nèi)外學(xué)科前沿高水平展開,除了團(tuán)隊內(nèi)部的例行討論,我們還注重與國內(nèi)外著名專家學(xué)者的火花碰撞,先后邀請了多位國內(nèi)外知名教授和語義網(wǎng)領(lǐng)域?qū)<仪皝碇v座交流,深入探討語言哲學(xué)、語言認(rèn)知等語言學(xué)宏觀問題以及語言信息處理等技術(shù)前沿問題。
2013年至今主要調(diào)查研究工作如下:
1)收集、閱讀并總結(jié)了醫(yī)學(xué)事件、事件推理等方面的相關(guān)資料;
2)收集、閱讀并總結(jié)了事件抽取、事件語義標(biāo)注以及事件在文本蘊涵、醫(yī)療等應(yīng)用方面的相關(guān)資料;
3)收集、閱讀并總結(jié)了文本推理、文本蘊涵等方面的國內(nèi)外最新資料及文本推理自動識別研究中的事件研究;
4)總結(jié)了大量國內(nèi)外關(guān)于事件本體資源構(gòu)建的資料。
2013年至今主要學(xué)術(shù)交流如下:
1)組織承辦了第八屆中國語義網(wǎng)及萬維網(wǎng)科學(xué)大會(CSWS2014)。本次大會的主題設(shè)定為“Big Data and Semantics”,有來自中國、德國、美國、英國、意大利和葡萄牙的120余位專家學(xué)者及在校研究生、工業(yè)界人士參與了此次大會。大會還特別邀請了國際著名語義網(wǎng)專家德國Karlsruhe理工學(xué)院Rudi Studer教授、清華大學(xué)孫茂松教授和東北大學(xué)王國仁教授作了關(guān)于“語義網(wǎng)中間件及工業(yè)應(yīng)用”、“知識圖譜”和“移動大數(shù)據(jù)”的大會報告。
2)參加了Colling2014和EMNLP2014等計算語言學(xué)領(lǐng)域的頂級會議。
3)參加了包括CCL、CSWS在內(nèi)的計算語言學(xué)、語義處理方面的國際學(xué)術(shù)會議;
4)參加了NTCIR-11 RITE-VAL中文文本蘊涵分類方面國際評測任務(wù),MC子任務(wù)的官方評測結(jié)果排名第一;
5)參加了新加坡國立大學(xué)和清華大學(xué)聯(lián)合舉辦的下一代搜索(Next Search)研討會。
6)參加了JIST2014等語義處理方面的國際學(xué)術(shù)會議。
7)在第8屆中國語義與萬維網(wǎng)科學(xué)大會期間,本課題組織和主持了一次“Lexical Semantics”的專門研討會。
三、成果推介及簡報報送情況
自2013年以來成果推介情況
1)在CSWS2014會議期間組織了相應(yīng)的事件語義與醫(yī)學(xué)信息處理專刊;
2)通過中國計算機(jī)學(xué)會YOCSEF青年論壇組織了一場事件語義與醫(yī)學(xué)信息處理方面的專題報告會,取得了較好的效果。
3)在CCL2013和CCL2014計算語言學(xué)學(xué)術(shù)會議期間,就事件語義對中文文本蘊涵關(guān)系識別的作用進(jìn)行了學(xué)術(shù)交流;
4)在CSWS2014國際學(xué)術(shù)會議期間,針對新聞原子事件抽取方法、語言現(xiàn)象對中文文本矛盾關(guān)系識別的影響、藥品說明書中醫(yī)療關(guān)系抽取等方面進(jìn)行了學(xué)術(shù)交流;
5)在NTCIR-11國際學(xué)術(shù)研討會上就RITE-VAL系統(tǒng)所采用的方法及評測結(jié)果進(jìn)行了學(xué)術(shù)交流;
6)在下一代搜索研討會上就事件語義在媒體搜索方法和精度等作用進(jìn)行了探討;
7)將事件語義運用到醫(yī)療信息處理方面的宣傳與推廣。
自2013年以來報送簡報共3期。
第六期簡報報告了2013年項目核心資源——事件鏈語料標(biāo)注系列研討會開展情況,迄今研討會共召開了11次,通過多次的試錯和修正,基本確定了詞匯鏈、NP鏈、事件和事件鏈的確定和標(biāo)注原則,以及從詞匯鏈到NP鏈、從NP鏈再到事件鏈的整體標(biāo)注思路,并從可操作性方面比較了從依存語義角度和NP鏈角度進(jìn)行標(biāo)注的優(yōu)劣,在操作性上認(rèn)可了NP鏈角度在客觀性及效率性上的顯著優(yōu)勢。隨著討論的不斷深入,還確定了事件鏈牽出之后其事件結(jié)構(gòu)的描寫方式,即其直接論元只用描寫其中心語,然后在結(jié)構(gòu)之后附加其在詞匯鏈上的修飾語對這個中心語的依存關(guān)系。
第七期簡報報告了事件本體構(gòu)建及事件鏈的標(biāo)注上的創(chuàng)新及基于事件的語義查詢與推理研究方面的創(chuàng)新。事件本體構(gòu)建的創(chuàng)新點:1)事件鏈中原子的確定及形成。從語言上講,在一個篇章中,可以通過某詞反復(fù)出現(xiàn)來作為識別主干事件的手段。(復(fù)現(xiàn)詞往往是指稱詞)因此可形成一條聚合鏈。2)事件本體構(gòu)建中加入蘊涵信息。在事件本體加入蘊涵信息,就可將一個語篇中相關(guān)的謂詞鏈接起來,并推出該謂詞所帶論元。形成一個可推理的復(fù)雜網(wǎng)絡(luò),即事件鏈和事件圖的轉(zhuǎn)化。事件語義查詢與推理方面的創(chuàng)新:1)提出基于事件圖的中文文本蘊涵矛盾識別模型,該模型中包含事件語義特征和圖統(tǒng)計特征。其事件的語義特征可在我們建立的事件本體中查找。這種語義特征是包含語義基元結(jié)構(gòu)的結(jié)構(gòu)樹。2)通過對中文文本矛盾相關(guān)的事件語義現(xiàn)象分析,得到事件語義規(guī)則,并引入中文文本矛盾識別模型。3)基于深度學(xué)習(xí)的文本蘊涵識別。提出一個兩階段的步驟識別蘊涵關(guān)系,通過學(xué)習(xí)文本(T)和假設(shè)(H)間的潛在共同語義把T和H結(jié)合起來,再在共享語義層的基礎(chǔ)上比較T和H來獲得它們的蘊含關(guān)系。
第八期簡報主要報告了整個研究團(tuán)隊秉持“注重基礎(chǔ),著力創(chuàng)新”的理念,課題取得了較為豐碩的研究成果,并產(chǎn)生一定的國際影響力。在概念本體建構(gòu)方面,現(xiàn)已定義了各種結(jié)構(gòu)基元的類型和屬性,包含上下位關(guān)系、整體部分關(guān)系和同義關(guān)系;針對傳統(tǒng)的義素分析法存在的義素集開放、數(shù)量不可控,以及結(jié)構(gòu)缺乏統(tǒng)一的描述框架等缺陷,從詞義系統(tǒng)中萃取一套系統(tǒng)的、意義簡明單一的、數(shù)量有限的詞義成分集,作為詞義基元結(jié)構(gòu)作為對整個詞義系統(tǒng)進(jìn)行描寫的工具,即詞義的基元結(jié)構(gòu);基于義類、義核、義征、義用四類基元結(jié)構(gòu),歸納了基于基元結(jié)構(gòu)描述的詞義結(jié)構(gòu)方程式,對詞的語義結(jié)構(gòu)進(jìn)行形式化描寫。在事件本體建構(gòu)及事件鏈的標(biāo)注方面,提出了同一詞匯鏈,擴(kuò)展NP及主干事件鏈一系列的抽取過程。從客觀上解決了事件及事件鏈抽取的困難。目前,已依此方法標(biāo)注新聞?wù)Z料篇章事件鏈700余篇,發(fā)表博士論文、國際國內(nèi)會議論文10余篇,部分論文也在國際會議上進(jìn)行大會報告并得到同行和專家的關(guān)注。在資源建設(shè)方面,結(jié)合資源建設(shè)實踐、項目研究和團(tuán)隊學(xué)科背景,從詞位理論探索入手,我們提出了對語言資源類型、性質(zhì)以及建設(shè)的新的思考。我們發(fā)現(xiàn)詞位包含抽象和具體兩類形式,是詞位的第一個位特征:構(gòu)成特征。詞位的第二個位特征:內(nèi)部關(guān)系特征。即詞位是對變體的抽象,詞目是對詞例的抽象,詞匯詞是對句法詞的抽象。詞位的第三個特征:變體詞義差異容忍特征。即句法詞的意義內(nèi)涵大于詞匯詞意義內(nèi)涵,二者是廣義的邏輯上下位關(guān)系。詞位變體不同于音位變體,變體之間存在和允許邏輯上的上下義。這種思路從一個獨特的角度分析、解釋了資源如何建設(shè)才能達(dá)到科學(xué)性和智能性。
四、主要問題與改進(jìn)措施
子課題一存在的主要問題是標(biāo)注一致性問題和標(biāo)注量巨大。標(biāo)注質(zhì)量是資源建設(shè)的核心,沒有良好的質(zhì)量控制,所標(biāo)注的資源就不具有規(guī)范性和代表性,也就喪失了機(jī)器可操作性的基礎(chǔ)。為了使不同標(biāo)注者實現(xiàn)標(biāo)注結(jié)果一致性的最大化,我們將進(jìn)一步加強(qiáng)對標(biāo)注者的前期培訓(xùn)和過程培訓(xùn),實時控制標(biāo)注質(zhì)量,統(tǒng)一標(biāo)注要求,做到邊標(biāo)注,邊檢查,確保最終標(biāo)注成果的質(zhì)量。
子課題二主要問題是知識圖譜質(zhì)量成為影響后續(xù)研究的一個重要問題;設(shè)計一個能表達(dá)豐富事件語義的推理機(jī)制在可計算性和時空效率等方面存在困難。我們將知識圖譜質(zhì)量評價和改進(jìn)納入課題研究范圍;將事件推理限定于專業(yè)領(lǐng)域進(jìn)行研究。
子課題四目前面臨的問題是除突發(fā)事件外,其它類事件的標(biāo)注規(guī)范還沒有確定;已標(biāo)注事件的語料有限,使用有監(jiān)督學(xué)習(xí)方法進(jìn)行事件抽取受到限制; 雖然已經(jīng)有了將事件擴(kuò)展至領(lǐng)域語料的想法,但對領(lǐng)域語料的研究還不夠深入。整個課題還需進(jìn)一步加強(qiáng)成果發(fā)表和出版的工作。改進(jìn)措施:目前通過討論基本上已經(jīng)確定了突發(fā)類事件的標(biāo)注規(guī)范,在后續(xù)的標(biāo)注工作中爭取進(jìn)一步完善;在目前已標(biāo)注事件語料有限的情況下,盡量采用半監(jiān)督或無監(jiān)督方法探索事件抽取;以醫(yī)療或生物信息領(lǐng)域為突破口,盡量將事件語義模型拓展至專業(yè)領(lǐng)域。
另外,在項目管理上,由于本項目前期人工標(biāo)注工程量較大,勞務(wù)消耗超過預(yù)期,因此存在勞務(wù)費的支出在一定程度上超出規(guī)定額度的問題。針對上述問題,項目組將加強(qiáng)對項目的集中領(lǐng)導(dǎo),要求各子課題負(fù)責(zé)人每周報送工作進(jìn)展,分級管理,實現(xiàn)對項目開展情況的實時跟蹤,并每月定期組織召開專項研討會,集中討論解決相關(guān)問題。(其他改進(jìn)和完善,可參見下一步研究計劃列表及經(jīng)費缺口列項)
二、 研究成果情況
1、學(xué)術(shù)論文:
1)發(fā)表了《中文信息學(xué)報》論文2篇:《詞位重構(gòu)與平行語言資源的再生性建設(shè)》《基于事件語義特征的中文文本蘊含識別》
《詞位重構(gòu)與平行語言資源的再生性建設(shè)》:語言資源建設(shè)對于語言信息處理或計算機(jī)語言學(xué)的重要性。《詞位重構(gòu)與平行語言資源的再生性建設(shè)》一文結(jié)合我們資源建設(shè)實踐、項目研究和團(tuán)隊學(xué)科背景,從詞位理論構(gòu)建入手,提出我們對語言資源類型、性質(zhì)以及建設(shè)新的思考理論和建議,以期活躍思想,推動資源建設(shè)發(fā)展,展示語言理論的突破對語言技術(shù)和資源建設(shè)跨越性發(fā)展的意義。
《基于事件語義特征的中文文本蘊含識別》:提出了基于事件語義特征的中文文本蘊含識別方法。該方法基于事件標(biāo)注語料生成事件圖,將文本間的蘊含關(guān)系轉(zhuǎn)化為事件圖間的蘊含關(guān)系;利用最大公共子圖的事件圖相似度算法計算事件語義特征,與統(tǒng)計特征、詞匯語義特征和句法特征一起使用支持向量機(jī)進(jìn)行分類,得到初步實驗結(jié)果,再經(jīng)過基于事件語義規(guī)則集合的修正處理得到最后的識別結(jié)果。實驗結(jié)果表明基于事件語義特征的中文文本蘊含識別方法可以更有效地對中文文本蘊含關(guān)系進(jìn)行識別。
2)發(fā)表了一篇EI檢索的論文,《Annotating Principal Event Chain in Chinese Texts》
《Annotating Principal Event Chain in Chinese Texts》認(rèn)為語篇的銜接不僅包含詞匯銜接,同時也包含事件銜接,這兩者都是語篇理解的重要內(nèi)容。本文提出一種基于主干事件鏈的語篇銜接標(biāo)注方法,該主干事件鏈亦跟詞匯銜接(詞匯鏈)密切關(guān)聯(lián)。詞匯鏈一方面是提取主干事件鏈的線索,另一方面又是主干事件鏈的組成部分。該方法標(biāo)注出的語篇主干事件鏈提高了語篇銜接標(biāo)注的客觀性,而且加強(qiáng)了語篇銜接標(biāo)注的實用性。
3)在CSWS2014會議期間組織了相應(yīng)的事件語義與醫(yī)學(xué)信息處理專刊;
通過中國計算機(jī)學(xué)會YOCSEF青年論壇組織了一場事件語義與醫(yī)學(xué)信息處理方面的專題報告會,取得了較好的效果。
4)在《武漢大學(xué)學(xué)報(理學(xué)版)》論文發(fā)表《基于信息單元融合的新聞原子事件抽取》
《基于信息單元融合的新聞原子事件抽取》針對新聞?wù)Z料,提出了一種基于信息單元融合的原子事件抽取方法。在中文分詞、詞性標(biāo)注、命名實體識別等自然語言處理技術(shù)的基礎(chǔ)上,利用語言規(guī)則將信息單元標(biāo)識出來并進(jìn)行融合,達(dá)到淺層句法分析的效果,通過原子事件抽取算法將原子事件從經(jīng)信息單元融合后的語料中抽取出來。基于信息單元融合的原子事件抽取方法不僅對文本長度沒有嚴(yán)格限制,并且不受事件類型的約束;實驗結(jié)果表明,基于信息單元融合的原子事件抽取方法是有效的。
5)在計算語言學(xué)領(lǐng)域國際頂級會議ACL,EMNLP和COLING上發(fā)表論文三篇:
Word Sense Induction Using Lexical Chain based Hypergraph Model(COLING 2014)提出一個基于超圖的詞義歸納模型。首先采用基于詞匯鏈的方法發(fā)現(xiàn)包含目標(biāo)單詞的上下文實例間的高階語義關(guān)系;然后以結(jié)點表示上下文實例,超邊表示多實例間高階語義關(guān)系構(gòu)建超圖,其中詞匯鏈被用于發(fā)現(xiàn)超邊;最后根據(jù)所構(gòu)建的超圖滿足“小世界圖”特性,一個基于最大密度超圖譜聚類算法被用于發(fā)現(xiàn)詞義。實驗基于Semeval-2103 WSI任務(wù),與普通圖模型進(jìn)行比較,其在詞義檢測與詞義評級兩個指標(biāo)上分別提升了5.6%和6.4%。
Positive Unlabeled Learning for Deceptive Reviews Detection(EMNLP2014)基于少量真實評論和大量的未標(biāo)注評論,提出一種創(chuàng)新的PU (Positive Unlabeled)學(xué)習(xí)框架來識別虛假評論。首先,從無標(biāo)注數(shù)據(jù)集中識別出少量可信度較高的負(fù)例。其次,通過整合LDA (Latent Dirichlet Allocation)和K-means,分別計算出多個代表性的正例和負(fù)例。接著,混合種群性和個體性兩種策略來計算間諜樣例屬于兩個類別的概率權(quán)重。最后將所有間諜樣例和其概率權(quán)重融合到SVM (Support Vector Machine)的學(xué)習(xí)階段,訓(xùn)練出準(zhǔn)確的分類器。數(shù)值實驗證實了所提算法的有效性。
Event-driven Headline Generation(ACL2015)提出一種事件驅(qū)動的標(biāo)題生成模型。給定一篇文本,首先提取一組結(jié)構(gòu)化事件組成的主干事件鏈,然后采用一種多語句壓縮方法融合這組關(guān)鍵事件以生成文本的標(biāo)題。模型使用事件結(jié)構(gòu)融合提取式標(biāo)題生成和生成式標(biāo)題生成方法的優(yōu)點。在標(biāo)準(zhǔn)評測數(shù)據(jù)集上的結(jié)果表明該模型能取得比以前的主流方法更好的效果。
2、軟件著作權(quán):
1)基于語塊識別的新聞原子事件抽取系統(tǒng),中華人民共和國國家版權(quán)局(證書號:軟著登字第0679374號);
2)藥病語義關(guān)系自動發(fā)現(xiàn)系統(tǒng),中華人民共和國國家版權(quán)局(證書號:軟著登字第0679104號);
3)中文維基百科時間信息自動抽取系統(tǒng),中華人民共和國國家版權(quán)局(證書號:軟著登字第0679442號)。
3、專利:
基于信息單元融合的新聞原子事件抽取方法,中華人民共和國國家知識產(chǎn)權(quán)局,(專利受理號:20140108447.0)