2011年是國家社科基金重大招標課題“自然語言信息處理的邏輯語義學研究”(批準號:10ZD073)啟動研究的第一個年頭,主要在研究資料的收集整理和研究思路的構想梳理方面做了大量工作。
今年課題組發表的高質量論文有三篇。課題組首席專家中國社科院的鄒崇理研究員、合肥師范學院的李可勝副教授與張璐合作撰寫的“The Categorial Logic of Vacuous Components in Natural Language”探討了自然語言中的虛化問題。課題組成員北京師范大學琚鳳魁博士與清華大學的劉奮榮教授合作發表的論文“Update semantics for imperatives with priorities”討論了祈使句的語義問題。上述兩篇英文論文發表在邏輯學專業期刊Logic, Rationality and Interaction 2011年刊上,已由國際著名數據庫Springer收錄。另外,課題組成員中國社科院的杜國平研究員在CSSCI收錄的核心期刊《浙江社會科學》發表了關于條件句邏輯的論文《“即使p,也q”句式的邏輯分析》。
除了初步的研究成果,本年度課題組還積極與語言學界、計算機學界進行溝通交流,共組織包括開題會在內的課題小組研討、專家面對面論壇五次。前后邀請到微軟亞洲研究院前主任研究員、中國計算機自然語言處理領域的“趟路人”黃昌寧教授,我國計算機信息處理領域資深專家、教育部語言文字應用研究所馮志偉研究員,清華大學計算機系的周強教授,國際著名語言學家、臺灣國立交通大學的林若望教授,介紹雙方研究動向、聽取計算機科學界和語言學領域的需求,共同就大家目前所關注的邏輯語義學問題展開了深入的探討和交流。這些工作無疑有助于課題小組在原有研究設想的基礎上,結合目前計算和語言兩界的實際需求來厘清研究思路,為下一步研究的全面展開打下良好的基礎。
經過這一年的探索和探討,2012年課題的研究重點將放在“邏輯語義學的綜合研究”上。從與計算機界及語言學界的交流中我們認識到,目前國內在面向自然語言的信息處理上所存在的問題是,計算機領域面向漢語等自然語言的處理以統計方法為主,真正針對自然語言特點設計的程序和算法還很難達到滿意地處理一整套自然語言(這里指漢語)的能力。造成這一現象有句法和語義兩方面原因。在句法上,很多現象,包括簡單的和復雜的現象,如語詞之間的依存關系、漢語中的連謂、兼語等現象的謂詞論元關系,在語言學上還尚無定論,所以在信息處理過程中也難以給出確鑿的刻畫方案;在語義上,如何讓計算機“聽懂”、或者說“理解”人的語言,仍為目前計算語言學繼續向前發展的瓶頸,迫切需要邏輯語義學提供一套、甚至幾套形式化方案,不但能夠刻畫自然語言所具有的比較特殊的一些現象,(如右節點提升、代詞回指等不連續現象),還能夠構造出可以全面刻畫現代漢語書面語的邏輯語義學的句法語義系統。幸運的是,在邏輯語義學諸理論中,最近二十多年發展起來的組合范疇語法CCG是成功滿足這一需求的語法系統,在西方學界已引起計算語言學家廣泛關注。
本課題預期在2012年完成以下幾個方面的任務:
1、與清華大學計算機系、微軟亞洲研究院加強聯系,深入了解清華樹庫到漢語CCG庫轉換過程中所遇到的、轉換結果中預留的語言學及邏輯形式刻畫問題,提出解決方案。
2、基于課題組前期利用類型邏輯語法針對漢語照應省略現象提出的范疇邏輯系統LLCW?和針對漢語虛化成分給出的LMP系統,給出CCG框架下相應的組合規則及其添加模態下標的算子,并在此基礎上構造混合的范疇邏輯多模態系統,證明混合系統的元邏輯性質。以此推廣刻畫漢語中更多的相似現象。
3、漢語特殊性的思考。盡管CCG取得了豐碩的信息處理成果,對漢語CCG樹庫的轉換也有初步嘗試,但尚無對漢語自身特點及其在CCG下處理方案的思考。幸運的是,我們在已有探討中可以找到與漢語在不同程度上的共性,如與英語相比,漢語在基本語序上也是主謂賓結構,但對主謂賓的順序要求不如英語嚴格;與土耳其語相比,漢語也允許語詞上的混序現象,但是混序的實際環境不同。我們將分別對比漢語與各種已討論語言的共性與特性,為利用CCG進行面向漢語的信息處理做好充分的準備。
(責編:秦華)
紀念清華簡入藏暨清華大學出土文獻研究與保護中心成立十周年國際學術研討會舉行【詳細】