西北民族大學于洪志教授主持完成的國家社會科學基金項目《信息處理用藏語分詞研究》(項目批準號為02BYY038),最終成果為專著《藏文自動分詞研究》。課題組成員有:祁坤鈺。
藏語屬于漢藏語系的藏緬語族下的藏語支,與漢語相比較,藏語的語法特點體現(xiàn)在:詞的形態(tài)曲折變化主要表現(xiàn)在動詞的時態(tài)上(三時一式);名詞沒有單、復數(shù)之分,沒有黏著現(xiàn)象,也不具有曲折變化;形容詞沒有程度級的變化,級是由程度副詞來限制;藏文有六種形式邏輯格,格助詞豐富有黏著現(xiàn)象,且具有明確的語法功能;語序相對穩(wěn)定,是典型的SOV語言;沒有像漢語那樣豐富的量詞,個別存在;書寫過程中,詞與詞之間沒有明顯的邊界標志;動詞和虛詞是表達句法結構的主要手段;藏語中詞與詞之間的界限靠語義來區(qū)分,從形式上無法區(qū)分。因此,藏語與漢語有很大差異,應建立面向信息處理用的藏語詞類語法體系。該成果主要內容如下:
一、制定了藏語詞性標記集規(guī)范
為了使藏文與漢文信息處理同步,建立統(tǒng)一的中文多文種信息處理平臺,本項研究借鑒北京大學現(xiàn)代漢語詞類及詞性標記集規(guī)范、語料庫詞性標記集,制定了藏語詞性標記集規(guī)范。包括:名詞n(普通名詞ng、專有名詞np、人名nph、團體機構名npi、地名npp、辭藻nm),處所方位詞f,時間詞t,數(shù)詞m(基數(shù)詞mc、序數(shù)詞mo、分數(shù)詞mf、陪數(shù)詞mi、5概數(shù)詞ma、總數(shù)詞mg、點數(shù)詞md),量詞q(名量詞qn、動量詞qv),代詞r(人稱代詞rp、指示代詞rd、疑問代詞ri、不定代詞rin),形容詞a(性質形容詞aq,形狀形容詞as,顏色形容詞ac,數(shù)量形容詞am),擬聲詞o,副詞d(程度副詞de、時頻副詞d、范圍副詞db、情態(tài)副詞dm、否定副詞dd),動詞v(及物動詞vt、不及物動詞vi、助動詞vu、斷詞vp、形動詞vx、名動詞vd),簡別詞b,狀態(tài)詞z,助詞u(時態(tài)助詞ut、語氣助詞uy、原因助詞uc、目的助詞ui、終結助詞ue、祈使詞um),嘆詞e,介詞p,連詞c,成語i,習慣語l,簡語略j,前接成分h,中接成分zh,后接成分k,首飾符號sh,標點符號x,非藏文字符w。
二、研究了藏文切分特征
1、藏文字切分特征
音節(jié)特征:藏文是拼音文字,由30個輔音字母、4個元音字母以及上、下加字組成。藏文字以音節(jié)為單位,每個音節(jié)最少可由一個輔音字母構成,最多可由7個字母拼合而成,各音節(jié)間用音節(jié)點分隔。
拼寫特征:藏文自左向右書寫,組成音節(jié)時以基字為中心分為前加字、后加字和又后加字,基字可橫向和縱向雙向拼寫,而前加字和后加字只能橫向拼寫。
形態(tài)特征:藏文由確定的10個輔音字母作后加字,其形態(tài)特征都發(fā)生在這10個確定的后加字上。
標點符號特征:藏文有一套獨立而完整的標點符號體系,主要在篇章、段落、句子和字之間起分界符作用。
2、藏文詞切分特征
藏語詞從總體上分為實詞和虛詞兩大類。從藏文詞語的形態(tài)特征來看,明顯的切分特征主要有以下幾點。
格助詞接續(xù)特征:藏文格助詞的個數(shù)不多,但使用頻率極高。大多數(shù)藏文格助詞在添接時,要嚴格按前一詞(或字)后加字的黏著性形態(tài)變化規(guī)則添接。
動詞的曲折形態(tài)特征:現(xiàn)代藏語只有動詞還保留著時、式、態(tài)等曲折形態(tài)變化。這是動詞有別于其他詞類的重要特征。
名物化詞綴特征:藏文動詞、形容詞在句子中修飾名詞性成分或作非謂成分時,一般都要進行名物化轉換,即要添接名物化后綴。
重疊結構特征:藏文的重疊結構主要發(fā)生在形容詞當中,常見的重疊形式有AA式、ABB式、ABCB式等三種。
動名詞的動詞性詞綴特征:藏文動名詞兼有動詞和名詞兩種語法功能,是藏文特有的一類詞。其特點是通過后接固定的幾個動詞性詞綴實現(xiàn)詞性轉化。
3、句切分特征
藏語語序特征:藏語是SOV型語言,即謂語動詞后置型語言。動詞是句子的核心,決定著格助詞的添接類別。
借助格助詞來表達句子含義的作格特征
藏語短語的后修飾特征:一般情況下,藏語形容詞、數(shù)詞、代詞等與名詞結合構成短語以及動詞與助動詞結合構成短語時,其中心語在前,修飾語在后。
三、研究了藏文分詞的單位與原則
分詞系統(tǒng)可以面向解決實際問題的需求和真實語料中使用的頻繁程度來規(guī)定“分詞單位”。
1、分詞既要符合語言學的一般規(guī)則,同時也要便于詞類和句法分析,不能分得過細,也不能分得過粗。
2、分詞單位必須是在藏語言中出現(xiàn)的,而不是憑空臆造的任何字符串。
該成果采用《信息處理用現(xiàn)代漢語分詞規(guī)范》和《資訊處理用中文分詞規(guī)范》兩者之長,為藏文分詞單位確立兩條基本原則和諸多輔助原則。
四、藏文自動分詞研究
1、藏文分詞方法
一是格分析法:這是藏語語法理論體系中固有的語法規(guī)律,藏語有比較完善的形式邏輯格語法理論體系。格關系理論和方法可以分析藏文句子的語義邏輯關系;可以做格關系的逆過程,就是通過格助詞與格關系來判斷通過格切分后詞匯的準確度。
二是HNC(Hierarchical Network Concepts)概念層次網(wǎng)絡理論。HNC主要應用在藏文詞匯概念的語義網(wǎng)絡中,藏文詞匯語義網(wǎng)絡用手工加統(tǒng)計的方法創(chuàng)建,其核心是聯(lián)想意義和上下位所屬關系。
三是二元屬性描寫方法。
四是匹配方法:在藏文中將格分析之后的藏語短語作為匹配的對象。根據(jù)匹配單位的需求可分為最大匹配法和最小匹配,根據(jù)消歧需求可分為正向匹配和逆向匹配等。
五是統(tǒng)計方法:主要應用在獲取先驗知識方面,如:藏文大丁字符信息表、藏文音節(jié)(擦青)表,藏文各種語言單位的二元模型、藏文格助詞的配價概率、藏文動詞詞表等。
2、分詞系統(tǒng)模塊
藏文自動分詞系統(tǒng),在基于規(guī)則和統(tǒng)計的基礎上,增加了聯(lián)想回溯算法,引入了句法、語義信息。系統(tǒng)包含預處理模塊、分割模塊、匹配識詞和規(guī)則識詞四個模塊。
預處理模塊:包括切分句子和語言分類兩個部分。切分句子是將源藏文文本語料依據(jù)藏文分句形態(tài)標志信息(主要是藏文分句符號)分解成相對獨立的藏文句子,這個過程要考慮英、藏、漢多語種混排文本,即切句要考慮多語言的句子邊界信息。同時要保留原始文本的所有信息,保證文本的原貌不發(fā)生變化。語言分類是以句子為處理單位,把句子按不同的語言分割成若干不同的語塊。在以后的處理過程中,根據(jù)不同的語言塊進行處理。
分割模塊:以預處理后的藏文語塊為對象識別藏文詞。此模塊分詞邊界特征識別和改進的MM算法。詞邊界特征識別是以特征詞庫中的詞作為詞切分標志,依靠聯(lián)想規(guī)則將一個音節(jié)串語塊分割成更小的語塊,對每個特征詞建立不同的規(guī)則來處理特征詞的左右邊界。改進的MM算法是依據(jù)分詞詞表將藏文語塊識別成詞,MM方法中正向和逆向合一進行,然后判斷并確定歧義結構,將歧義結構交付排歧模塊處理,以便修改錯誤的分詞結果。該分詞系統(tǒng)可以對藏文文本分詞正確率已經(jīng)達到了95%以上。
3、藏文分詞測評
一是開放性:易擴充性、可維護性和可移植性等特點。要求在開放環(huán)境下切分精度和處理速度穩(wěn)定在實用的程度。
二是通用性:藏文自動分詞是高層藏語言信息處理的共同基礎。分詞系統(tǒng)應該支持不同的應用領域;支持不同學科領域的應用;支持不同地區(qū)的語言處理需要;要適應不同地區(qū)的語言風格。
三是獨立性:不同的應用系統(tǒng)對分詞系統(tǒng)的要求不同,因此分詞系統(tǒng)要有不同的版本,系統(tǒng)內部的各種信息資源,以及處理信息資源的各個模塊要具有較高的獨立性,方便裝入系統(tǒng)或者從系統(tǒng)中卸載,提高系統(tǒng)處理精度和處理速度。
該成果從藏文字的產(chǎn)生,藏文的文字、音節(jié)、結構、語法特征,討論了藏語詞類劃分,詞與其語言單位的區(qū)別,信息處理用藏語詞類,藏語詞性標記集,研究了藏文分詞規(guī)范的設計,藏語分詞的基本特征,使用范圍,用途,參考標準、藏語分詞用術語、藏語分詞單位、藏語分詞原則,這些工作在國內學術界相關研究較少。藏文自動分詞是藏文自然語言理解的一項基礎性工程,藏語自然語言理解在機器翻譯、信息檢索、智能輸入、校對、自動摘要、自動分類和詞典編纂等領域有著廣泛的應用價值。
(責編:陳葉軍)