• <samp id="sgkyk"><pre id="sgkyk"></pre></samp>
    
    

    舊版網站入口

    站內搜索

    面向網絡文本的多視角語義分析方法、語言知識庫及平臺建設研究中期檢測報告

    2016年11月29日15:05來源:全國哲學社會科學工作辦公室

    一、研究進展情況

    ① 研究計劃總體執行情況及各子課題進展情況

    2014年7月——2016年7月,是本項目推進的關鍵時期。項目組按照項目的計劃順利推進,開展研究。

    在2年的時間里,總體執行情況如下:完善了知識庫的構建,真對名詞物性角色,填寫了部分詞匯的知識;在多級語料庫的加工與挖掘方面,在完成規范的制定的基礎上,開展了規模化的加工工作;進一步設計了和實現了多個數據加工眾包平臺,包括指代關系標注,句間關系標注和名詞物性角色的填寫;在多視角語義分析方面也取得了一系列的成果,包括縮略語識別、實體關系分類與實體鏈接分析、也開展了不規范文本的語義分析和校對研究的工作。

    在2年的時間里,我們已經發表學術論文21篇,包括發表于計算語言學領域和人工智能領域的頂級國際會議。此外,還申請專利3項,申請軟件著作權3項。圓滿完成了相應時期的任務。

    下面分別介紹各子課題的進展情況。

    子課題1:基于生成詞庫理論和論元結構理論的語義知識體系研究

    子課題針對常用的名詞詞條,按照設計的知識庫結構進行了知識項的填寫,共達一百多萬字。每個詞條的知識分三個部分:第一部分是對詞條百科知識的說明,第二部分是基于生成詞庫理論,對詞條物性結構方面的描述,共包括施成、功用、構成、形式、處置、處置和評價等九種角色;第三部分是根據實際語料,對這些名詞的實際句法配位做了窮盡性的例句展示。這樣的知識庫,不僅有利于中文信息處理中的信息抽取和信息檢索工作,也可以作為一種語法學習詞典,供本族人和外國留學生學習和查閱使用。

    子課題有三位研究生分別圍繞現代漢語雙賓結構、現代漢語旁格賓語結構和現代漢語名詞謂語句等具體語法現象,利用生成詞庫論的物性結構理論完成了自己的碩士學位論文。相關論文也在投稿發表之中。

    在這2年時間里,子課題組在核心期刊上發表相關論文4篇。

    子課題2:網絡文本的多級加工與語言知識挖掘研究

    在近兩年,子課題主要圍繞以下四個方面開展了研究:

    1)制定了多視圖的漢語樹庫標注規范,在人民日報、微博語料上標注了較大規模的漢語樹庫

    2)制定漢語句際關系的標注體系,針對漢語特點提出了解決方案,在人民日報3個月語料上標注了所有的句際關系。

    3)對網絡語言的處理與挖掘。在詞語層面,探討了情感極性詞的自動挖掘與判定方法;在句子層面,對于社區問答中的多小句復雜問句的分割與處理進行了研究。

    4)其他相關研究。研究了漢語開放領域的信息抽取方法,提出了基于依存的詞語embedding計算方法及其在類比計算中的應用。

    子課題3:基于群體智慧的知識資源加工技術及眾包平臺研究

    為便于語料和知識加工,子課題組在近兩年內進一步完善并擴展了眾包平臺的功能,主要研究如下:

    1)進一步完善了眾包平臺的一般性框架構建,包括加工結果的展示模塊,語料(知識)加工模塊,候選答案推薦模塊。

    2)進一步完善了加工質量控制模塊,包括參與者行為跟蹤記錄模塊。通過日志形式,動態記錄用戶的行為軌跡。

    3)在原有指代消解的基礎上,進一步實現了句間關系加工眾包平臺功能,在實際標注過程中發揮了重要的作用。

    4)設計實現了名詞基本物性角色標注的眾包平臺,含有自動標注,答案推薦,錯誤校正等主要功能。

    子課題組已針對平臺的設計申請并獲批了2項軟件著作權。

    子課題4:知識與統計相結合的多視角文本語義分析技術研究

    網絡文本的語義分析技術是不規范語言分析的重要內容,在過去的2年里,子課題主要開展了如下研究:

    1)進一步研究了漢語縮略語問題。縮略語是一種非規范的語言表示,也是網絡語言的主要形式之一。子課題重點研究了縮略語的分析和挖掘方法。

    2)研究了實體關系的抽取與分類、實體挖掘與實體鏈接等問題。實體語義是不同于詞義的一種語義,這種語義直接與現實進行對接。在網絡語言中,實體的出現十分頻繁。為此,子課題重點研究了實體關系發現、實體關系分類、實體挖掘和實體鏈接等問題。

    3)研究并設計了基于網絡社區的問答系統。像百度知道之類的社區問答是互聯網中的一種典型服務。社區問答中積累了大量的問題-答案對,其中,很多問題-答案對可能會被反復使用。充分利用這類資源為用戶提供再次服務或再次類似服務具體有特別重要的意義。子課題對此進行了深入研究。

    4)研究了針對文本表達不規范的分析問題。表達的不規范和用語的臨時性是網絡文本的主要特點,子課題就網絡文本中的不規范性,研究了文本校對方法。

    子課題組在這2年的時間里,取得了一系列的研究成果,申請專利3項,軟件著作權1項,發表論文8篇。

    ②調查研究及學術交流情況(調研數據整理運用、文獻資料收集整理、學術會議、學術交流、國際合作等)

    本項目開始于2013年1月,在2014年6月之前主要是項目的調研,2014年6月之后的2年時間里,調研不是本項目的主要任務,但仍然會根據任務需要開展一些必要的調研,包括資料的收集,數據的整理等。這一階段,以任務的推進為主,包括上述的研究。在這一時期,項目組參加了一系列的學術活動。具體而言,我們開展的調研和學術交流情況如下:

    (1)進一步開展了數據收集和分析:主要包括,大規模命名實體數據的采集,為實體的挖掘和實體關系、屬性知識的抽取做了準備;借助于搜索引擎,收集了3種類型的社區問答數據,包括天氣問答,航空問答,快遞問答。這一數據為本項目開展社區問答的研究打下了良好的基礎。此外,還就餐飲行業收集了一定規模的會話數據。

    (2)進一步查閱大量的文獻資料。深度學習和問答會話是當前自然語言處理研究的熱點,本項目結合任務要求,查閱了大量相關的文獻和資料,包括相關的培訓講義,獲得的相關知識在本項目的開展中發揮了重要作用,形成了多個成果。

    (3)參加了多個學術會議。除了項目各子課題進行討論之外,項目組成員參加了一系列的學術會議,包括2014年8月在都愛爾蘭柏林舉辦的自然語言處理高水平學術會議COLING-2014,2014年10月在卡塔爾多哈舉辦的高水平學術會議EMNLP-2014,2014年11月在武漢舉辦的全國計算語言學會議CCL-2014,2014年12月在深圳舉辦的NLPCC-2014中文計算會議。此外,2015年分別參加在延吉舉辦的少數民族語言處理會議,本項目負責人王厚峰還應邀作特邀報告。2015年還應哈爾濱工業大學(深圳研究生院)邀請參加學術討論,受邀到廣東外語外貿大學講座等;2015年還參加知識圖譜、CCL-2015, NLPCC-2015等多個學術會議。2016年7月,參加在紐約舉辦的人工智能頂級學術會議IJCAI-2016。其間,我們就目前正在開展的工作分別同與會人員進行了討論。

    ③成果宣傳推介情況(成果發布會、《工作簡報》報送情況、國家社科基金專刊投稿及采用情況等)

    本項目的成果推介形式主要是學術報告,此外,還利用特邀報告重點介紹項目的研究成果,如,在少數民族語言信息處理的學術會議和在廣東外語外貿大學的邀請報告。

    二、研究成果情況 

    ①代表性成果簡介

    2014年6月以來,我們繼續按照項目任務開展研究,取得了一系列的成果,下面僅介紹5項代表性的成果。

    1)知識庫的構建

    語言知識庫建設是本項目的基礎,也是語義分析的關鍵。本項目按照任務要求,進一步按照任務書要求工作。進行了知識的分類,完成一百多萬字的填寫工作。如下是我們填寫的一個詞條的例子:

    白酒 báijiǔ〈名詞,中性〉用高粱、玉米、甘薯等糧食或某些果品發酵、蒸餾制成的酒,沒有顏色,含酒精量較高,也叫燒酒、白干兒。

    〔1〕物性角色

    形式FOR:一種液體食物;

    構成CON:由淀粉或糖質原料制成酒醅或發酵醪經蒸餾而得,用熟糧食和菌種混合培養,制成曲后,再和糧食混合同時進行糖化和發酵制成糧食酒、再蒸餾。根據香型,可以分為醬香型、濃香型、清香型、米香型等。

    單位UNI:不定:點、些;名量:杯、瓶、壺、碗、口、盅,等等;類屬:種;

    評價EVA:中檔、優質、劣質、普通、名優、假冒、新型,等等;

    施成AGE:加工、生產、勾兌、釀造、兌制,等等;

    功用TEL:喝、飲用、食用,等等;

    處置HAN:倒、命名、購買、送、銷售、摻、裝、賣、進口,等等;

    〔2〕句法格式

    S1:CON +_

    如:清香型~|米香型~|濃香型~|醬香型~

    S2:Num + UNI +_

    如:一杯~|一碗~|一種~|一些~|一點~|一口~|一瓶~|一壺~|一種~|一盅~

    S3:EVA +(的+)_

    如:高檔~|中檔~|低檔~|劣質~|名優~|假冒~|新型~

    S4:AGE +_

    如:加工~|生產~|勾兌~|釀造~|兌制~

    S5:TEL +_

    如:喝~|食用~|飲用~

    S6:HAN +_

    如:倒~|命名~|購買~|送~|賣~|銷售~|進口~|摻~|裝~

    圖 1 依存視圖示例

    2) 構建了大規模、多領域、多視圖句法樹庫

    在句法樹庫構建方面已取得很大進展,相關論文發表于2014年8月在愛爾蘭都柏林召開的COLING-2014上和中文信息學報2015年第3期和第5期,具體內容包括:

    圖 2 短語結構語法視圖示例

    (1)設計了一套依存句法標注體系及標注規范。部分依存關系類型繼承自哈工大依存樹庫,新增的依存關系類型包括話題、強調、間接賓語、行為賓語、數量補語、共享并列等;

    (2)設計了由依存視圖向短語結構視圖轉換的算法并進行了程序實現,開發了一套支持依存和短語結構兩個視圖的標注工具。圖 1和圖 2分別是句子“根據資源情況,各地建立和完善了一大批農副產品市場,以組織和引導農戶進行生產。”的依存視圖和短語結構語法視圖,后者根據所設計的算法自動生成。

    (3)已完成560萬字句法樹庫的標注,其中500萬字為人民日報語料,60萬字為微博語料(基于NLPCC2012微博情感評測語料)。其中1.4 萬句新聞語料(人民日報)已可免費共享。

    (4)基于這一系列樹庫,通過句法分析實驗考察質量、規模、領域差異等因素對中文依存分析的影響,實驗結果表明:(a)樹庫規模和質量均與句法分析精度成正相關關系,質量應先于規模因素被優先考慮;(b)通用樹庫和領域樹庫之間的差異程度與前者對后者的替代性成相關關系;(c)兩種樹庫混合使用的效果同樣與領域差異有關。

    3) 設計了漢語語病分析模型

    在語言文本中,語病的分析和識別是一個非常重要的基礎性問題,在網絡語言中,該問題尤為突出。為此,本項目開展了針對性的研究。

    本項目提出了基于深度神經網絡與多標記分類的病句檢測方法(參圖3)。

    基本思想是通過從句子中提取特征,將句子變為特征向量;再將特征向量輸入到深度神經網絡模型中,獲得深層次特征表示;最后針對于多標記分類的神經網絡輸出,獲得最終多標記分類結果,從而準確定位句子究竟包含哪些錯誤。實現了將句子的特征表示升級到基于神經網絡的隱藏層表示中,通過多標記的方法輸出可能的語病,從而完成病句的檢測。可以識別句子中的多種語病,避免了人工選擇特征,同時也能確保多種語病預測的準確度。

    我們提出的方法已經申請專利。

    4) 提出了一種問題理解的方法

    本項目還研究了一種問答系統中問句理解的方法。主要思想是基于循環神經網絡方法,將問句理解中意圖識別和槽填充這兩個任務及其關聯性進行聯合學習,基于循環神經網絡來聯合建模一同解決意圖識別和槽填充,利用這兩個任務之間的關聯性更好地實現兩個任務。在不同的數據集上測試表明,本方法能夠提高兩個任務的準確率,可以用于問答系統中的問句理解。圖4是基本構架圖。

    圖4. 問答系統的問題理解框架

    上述成果已申請發明專利。

    5) 實現了名詞物性角色的在線標注眾包平臺

    名詞物性角色在線標注系統主要提供了句子的自動篩選和預標功能。從生語料(LDC Chinese Gigaword)中,只抽取含目標名詞和一個待標動詞的句子,降低動詞的搭配歧義。

    在線標注系統的基本功能框架如下圖5所示。

    圖5. 在線標注平臺的實現框架

    其中,句子篩選模塊用于抽取含目標名詞和一個待標動詞的句子。CNN神經網絡模型:提供了相應名詞的動詞物性角色推薦。

    在線標注系統為參與者提供了便捷的標注界面,并保存標注結果和實時的標注日志。

    上述成果已經申請軟件著作權保護。

    ①階段性成果清單

    論文:

    1)王璐璐、袁毓林《述結式與“把”字句的構式意義互動研究》,《語言教學與研究》,2016年第3期。

    2)王璐璐、孫薇薇、袁毓林《“把”字句的自動釋義與句式變換研究》,《計算機工程與應用》,2015年第19期。

    3)周韌《兼類說反思》,《語言科學》2015年第5期。

    4)宋作艷、趙青青、亢世勇《漢語復合名詞語義信息標注詞庫:基于生成詞庫理論》(《中文信息學報》2015年第3期)

    5)Likun Qiu, Yue Zhang, Peng Jin, Houfeng Wang, Multi-view Chinese Treebanking. Proceedings of  COLING 2014, 2014-08-23

    6)Likun Qiu and Yue Zhang, ZORE: A Syntax-based System for Chinese Open Relation Extraction. Proceedings of  EMNLP 2014. 2014-10-25

    7) Likun Qiu, Yue Zhang, Yalan Lu. Syntactic Dependencies and DistributedWord Representations for Chinese Analogy Detection and Mining. Proceedings of  EMNLP 2015,2015-09-21

    8)邱立坤,金澎,王厚峰,基于依存語法構建多視圖漢語樹庫,中文信息學報,2015年第3期

    9)邱立坤、史林林、王厚峰,多領域中文依存樹庫構建與影響統計句法分析因素之分析,中文信息學報,2015年第5期

    10)吳云芳,徐藝峰,王愷然,漢語篇章級小句關系的標注體系,中文信息學報,2015年第3期

    11)Wu Yunfanf, Wan Fuqiang, Xu Yifeng,  Lv Xueqiang,A New Ranking Method for Chinese Discourse Tree Building,北京大學學報(自然科學版),2016年2月

    12)Fei Wang, Yunfang Wu,Sentiment-Bearing New Words Mining: Exploiting Emoticons and Latent Polarities,Proceedings of  CICLing 2015.

    13)Yixiu Wang, Yunfang Wu, Xueqiang Lv, Multi-sentence Question Segmentation and Compression for Question Answering. NLPCC2015, LNCS9362(Springer)

    14)Minghua Zhang, Yunfang Wu, ICL00 at SemEval-2016 Task 3: Translation-Based Method for CQA. Proceedings of SemEval-2016.

    15) 宋洋,王厚峰,基于馬爾可夫邏輯網絡的中文零指代消解,計算機研究與發展,2015(09),2114-2122

    16) 宋洋,王厚峰,共指消解研究方法綜述,中文信息學報,2015(1),1-12

    17) 陳晨,王厚峰,中文跨文本人名同名同指消解研究,江西師范大學學報:自然科學版, 2015, 02期(2),111-116

    18)RuiCai, Houfeng Wang, and Junhao Zhang. Learning Entity Representation for NamedEntity Disambiguation. CCL&NLP-NABD 2015, LNAI 9427(Springer), 267-278

    19)RuiCai, Miaohong Chen, and Houfeng Wang. Nonparametric Symmetric CorrespondenceTopic Models for Multilingual Text Analysis. NLPCC2015, LNCS9362(Springer), 270-281

    20)Qing Zhang, Houfeng Wang. Not All Links Are Created Equal: An Adaptive Embedding Approach for Social Personalized Ranking. SIGIR-2016, July 17-21, 2016, Pisa, Italy

    21)Qing Zhang, Houfeng Wang. Collaborative Filtering with Generalized Laplacian Constraint via Overlapping Decomposition, 2016, 2329-2335

    專利:

    1) 一種基于深度神經網絡與多標記分類的病句檢測方法, 申請號:201510408379.4

    2)一種基于深度學習的會話情感自動分析方法,申請號:201510731781.6

    3)一種問答系統中的問句理解方法,申請號:201610512191.9

    軟件著作權:

    1)GLEANER眾包平臺系統V1.0, 登記號:2015SR137669

    2)領域適應的漢語分詞系統V1.0,登記號:2015SR161286

    3)漢語名詞物性知識在線加工系統V1.0,登記號:2016SR172188

    課題組供稿

    (責編:沈王一)
    最新精品露脸国产在线| 99精品视频在线观看re| 亚洲精品无码av天堂| 国产午夜精品一区二区三区漫画| 2021国内精品久久久久影院| 精品视频国产狼友视频| 亚洲欧洲久久久精品| 亚洲国产精品美女久久久久| 国产成人高清精品免费观看| 麻豆精品久久久久久久99蜜桃| 亚洲精品制服丝袜四区| 国产成人久久精品| 无码人妻精品一区二区三区久久 | 久久国产精品波多野结衣AV| 色一乱一伦一图一区二区精品| 毛片亚洲AV无码精品国产午夜 | 98精品国产高清在线看入口| 国产成人精品视频福利app| 亚洲精品永久在线观看| 久久久久久精品免费免费自慰 | 东北妇女精品BBWBBW| www.国产精品.com| 91精品国产色综合久久| 免费精品国自产拍在线播放| 98精品全国免费观看视频| 精品成人免费自拍视频| 日韩国产精品99久久久久久| 中文精品一卡2卡3卡4卡| 久久精品国产99久久久古代| 久久亚洲私人国产精品vA| 国产区精品高清在线观看| 国内精品久久国产| 亚洲国产精品无码AAA片| 日韩精品一区二区三区国语自制| 亚洲日韩精品A∨片无码加勒比| 日韩精品一区二区三区中文精品| 99re6在线视频精品免费| 国产精品亚洲高清一区二区 | 一本久久精品一区二区| 无码精品A∨在线观看免费| 久久精品中文字幕久久|