藏文自動分詞研究

--《藏文自動分詞研究》成果簡介

2011年05月15日16:51

　　西北民族大學于洪志教授主持完成的國家社會科學基金項目《信息處理用藏語分詞研究》（項目批準號為02BYY038），最終成果為專著《藏文自動分詞研究》。課題組成員有：祁坤鈺。

　　藏語屬于漢藏語系的藏緬語族下的藏語支，與漢語相比較，藏語的語法特點體現(xiàn)在：詞的形態(tài)曲折變化主要表現(xiàn)在動詞的時態(tài)上（三時一式）；名詞沒有單、復數(shù)之分，沒有黏著現(xiàn)象，也不具有曲折變化；形容詞沒有程度級的變化，級是由程度副詞來限制；藏文有六種形式邏輯格，格助詞豐富有黏著現(xiàn)象，且具有明確的語法功能；語序相對穩(wěn)定，是典型的SOV語言；沒有像漢語那樣豐富的量詞，個別存在；書寫過程中，詞與詞之間沒有明顯的邊界標志；動詞和虛詞是表達句法結構的主要手段；藏語中詞與詞之間的界限靠語義來區(qū)分，從形式上無法區(qū)分。因此，藏語與漢語有很大差異，應建立面向信息處理用的藏語詞類語法體系。該成果主要內容如下：

　　一、制定了藏語詞性標記集規(guī)范

　　為了使藏文與漢文信息處理同步，建立統(tǒng)一的中文多文種信息處理平臺，本項研究借鑒北京大學現(xiàn)代漢語詞類及詞性標記集規(guī)范、語料庫詞性標記集，制定了藏語詞性標記集規(guī)范。包括：名詞n（普通名詞ng、專有名詞np、人名nph、團體機構名npi、地名npp、辭藻nm），處所方位詞f，時間詞t，數(shù)詞m（基數(shù)詞mc、序數(shù)詞mo、分數(shù)詞mf、陪數(shù)詞mi、5概數(shù)詞ma、總數(shù)詞mg、點數(shù)詞md），量詞q（名量詞qn、動量詞qv），代詞r（人稱代詞rp、指示代詞rd、疑問代詞ri、不定代詞rin），形容詞a（性質形容詞aq，形狀形容詞as，顏色形容詞ac，數(shù)量形容詞am），擬聲詞o，副詞d（程度副詞de、時頻副詞d、范圍副詞db、情態(tài)副詞dm、否定副詞dd），動詞v（及物動詞vt、不及物動詞vi、助動詞vu、斷詞vp、形動詞vx、名動詞vd），簡別詞b，狀態(tài)詞z，助詞u（時態(tài)助詞ut、語氣助詞uy、原因助詞uc、目的助詞ui、終結助詞ue、祈使詞um），嘆詞e，介詞p，連詞c，成語i，習慣語l，簡語略j，前接成分h，中接成分zh，后接成分k，首飾符號sh，標點符號x，非藏文字符w。

　　二、研究了藏文切分特征

　　1、藏文字切分特征

　　音節(jié)特征：藏文是拼音文字，由30個輔音字母、4個元音字母以及上、下加字組成。藏文字以音節(jié)為單位，每個音節(jié)最少可由一個輔音字母構成，最多可由7個字母拼合而成，各音節(jié)間用音節(jié)點分隔。

　　拼寫特征：藏文自左向右書寫，組成音節(jié)時以基字為中心分為前加字、后加字和又后加字，基字可橫向和縱向雙向拼寫，而前加字和后加字只能橫向拼寫。

　　形態(tài)特征：藏文由確定的10個輔音字母作后加字，其形態(tài)特征都發(fā)生在這10個確定的后加字上。

　　標點符號特征：藏文有一套獨立而完整的標點符號體系，主要在篇章、段落、句子和字之間起分界符作用。

　　2、藏文詞切分特征

　　藏語詞從總體上分為實詞和虛詞兩大類。從藏文詞語的形態(tài)特征來看，明顯的切分特征主要有以下幾點。

　　格助詞接續(xù)特征：藏文格助詞的個數(shù)不多，但使用頻率極高。大多數(shù)藏文格助詞在添接時，要嚴格按前一詞（或字）后加字的黏著性形態(tài)變化規(guī)則添接。

　　動詞的曲折形態(tài)特征：現(xiàn)代藏語只有動詞還保留著時、式、態(tài)等曲折形態(tài)變化。這是動詞有別于其他詞類的重要特征。

　　名物化詞綴特征：藏文動詞、形容詞在句子中修飾名詞性成分或作非謂成分時，一般都要進行名物化轉換，即要添接名物化后綴。

　　重疊結構特征：藏文的重疊結構主要發(fā)生在形容詞當中，常見的重疊形式有AA式、ABB式、ABCB式等三種。

　　動名詞的動詞性詞綴特征：藏文動名詞兼有動詞和名詞兩種語法功能，是藏文特有的一類詞。其特點是通過后接固定的幾個動詞性詞綴實現(xiàn)詞性轉化。

　　3、句切分特征

　　藏語語序特征：藏語是SOV型語言，即謂語動詞后置型語言。動詞是句子的核心，決定著格助詞的添接類別。

　　借助格助詞來表達句子含義的作格特征

　　藏語短語的后修飾特征：一般情況下，藏語形容詞、數(shù)詞、代詞等與名詞結合構成短語以及動詞與助動詞結合構成短語時，其中心語在前，修飾語在后。

　　三、研究了藏文分詞的單位與原則

　　分詞系統(tǒng)可以面向解決實際問題的需求和真實語料中使用的頻繁程度來規(guī)定“分詞單位”。

　　1、分詞既要符合語言學的一般規(guī)則，同時也要便于詞類和句法分析，不能分得過細，也不能分得過粗。

　　2、分詞單位必須是在藏語言中出現(xiàn)的，而不是憑空臆造的任何字符串。

　　該成果采用《信息處理用現(xiàn)代漢語分詞規(guī)范》和《資訊處理用中文分詞規(guī)范》兩者之長，為藏文分詞單位確立兩條基本原則和諸多輔助原則。

　　四、藏文自動分詞研究

　　1、藏文分詞方法

　　一是格分析法：這是藏語語法理論體系中固有的語法規(guī)律，藏語有比較完善的形式邏輯格語法理論體系。格關系理論和方法可以分析藏文句子的語義邏輯關系；可以做格關系的逆過程，就是通過格助詞與格關系來判斷通過格切分后詞匯的準確度。

　　二是HNC(Hierarchical Network Concepts)概念層次網(wǎng)絡理論。HNC主要應用在藏文詞匯概念的語義網(wǎng)絡中，藏文詞匯語義網(wǎng)絡用手工加統(tǒng)計的方法創(chuàng)建，其核心是聯(lián)想意義和上下位所屬關系。

　　三是二元屬性描寫方法。

　　四是匹配方法：在藏文中將格分析之后的藏語短語作為匹配的對象。根據(jù)匹配單位的需求可分為最大匹配法和最小匹配，根據(jù)消歧需求可分為正向匹配和逆向匹配等。

　　五是統(tǒng)計方法：主要應用在獲取先驗知識方面，如：藏文大丁字符信息表、藏文音節(jié)（擦青）表，藏文各種語言單位的二元模型、藏文格助詞的配價概率、藏文動詞詞表等。

　　2、分詞系統(tǒng)模塊

　　藏文自動分詞系統(tǒng)，在基于規(guī)則和統(tǒng)計的基礎上，增加了聯(lián)想回溯算法，引入了句法、語義信息。系統(tǒng)包含預處理模塊、分割模塊、匹配識詞和規(guī)則識詞四個模塊。

　　預處理模塊：包括切分句子和語言分類兩個部分。切分句子是將源藏文文本語料依據(jù)藏文分句形態(tài)標志信息（主要是藏文分句符號）分解成相對獨立的藏文句子，這個過程要考慮英、藏、漢多語種混排文本，即切句要考慮多語言的句子邊界信息。同時要保留原始文本的所有信息，保證文本的原貌不發(fā)生變化。語言分類是以句子為處理單位，把句子按不同的語言分割成若干不同的語塊。在以后的處理過程中，根據(jù)不同的語言塊進行處理。

　　分割模塊：以預處理后的藏文語塊為對象識別藏文詞。此模塊分詞邊界特征識別和改進的MM算法。詞邊界特征識別是以特征詞庫中的詞作為詞切分標志，依靠聯(lián)想規(guī)則將一個音節(jié)串語塊分割成更小的語塊，對每個特征詞建立不同的規(guī)則來處理特征詞的左右邊界。改進的MM算法是依據(jù)分詞詞表將藏文語塊識別成詞，MM方法中正向和逆向合一進行，然后判斷并確定歧義結構，將歧義結構交付排歧模塊處理，以便修改錯誤的分詞結果。該分詞系統(tǒng)可以對藏文文本分詞正確率已經(jīng)達到了95％以上。

　　3、藏文分詞測評

　　一是開放性：易擴充性、可維護性和可移植性等特點。要求在開放環(huán)境下切分精度和處理速度穩(wěn)定在實用的程度。

　　二是通用性：藏文自動分詞是高層藏語言信息處理的共同基礎。分詞系統(tǒng)應該支持不同的應用領域；支持不同學科領域的應用；支持不同地區(qū)的語言處理需要；要適應不同地區(qū)的語言風格。

　　三是獨立性：不同的應用系統(tǒng)對分詞系統(tǒng)的要求不同，因此分詞系統(tǒng)要有不同的版本，系統(tǒng)內部的各種信息資源，以及處理信息資源的各個模塊要具有較高的獨立性，方便裝入系統(tǒng)或者從系統(tǒng)中卸載，提高系統(tǒng)處理精度和處理速度。

　　該成果從藏文字的產(chǎn)生，藏文的文字、音節(jié)、結構、語法特征，討論了藏語詞類劃分，詞與其語言單位的區(qū)別，信息處理用藏語詞類，藏語詞性標記集，研究了藏文分詞規(guī)范的設計，藏語分詞的基本特征，使用范圍，用途，參考標準、藏語分詞用術語、藏語分詞單位、藏語分詞原則，這些工作在國內學術界相關研究較少。藏文自動分詞是藏文自然語言理解的一項基礎性工程，藏語自然語言理解在機器翻譯、信息檢索、智能輸入、校對、自動摘要、自動分類和詞典編纂等領域有著廣泛的應用價值。

(責編：陳葉軍)

藏文自動分詞研究

--《藏文自動分詞研究》成果簡介

主管主辦：全國哲學社會科學工作辦公室承辦：人民網(wǎng)

©1999-2019 全國哲學社會科學工作辦公室版權所有京ICP備12051030號

藏文自動分詞研究

--《藏文自動分詞研究》成果簡介

主管主辦：全國哲學社會科學工作辦公室 承辦：人民網(wǎng)

©1999-2019 全國哲學社會科學工作辦公室 版權所有 京ICP備12051030號

主管主辦：全國哲學社會科學工作辦公室承辦：人民網(wǎng)

©1999-2019 全國哲學社會科學工作辦公室版權所有京ICP備12051030號