一、 研究進展情況
1、課題開題與子課題進展情況
研究計劃順利執行,各子課題取得進展。
2016年4月1日,“《格薩爾》說唱語音的自動識別與格薩爾學的創新發展”項目啟動暨專家咨詢會在西藏大學召開。來自西藏本地和北京的7位專家在認真聽取項目總體情況和研究方案優化情況,以及各個子課題的匯報情況后,紛紛發表意見,提出建議,充分肯定并高度評價《格薩爾》項目,給予項目組成員以極大的幫助和鼓勵。各子課題分別消化吸收了專家咨詢會上各位專家的意見建議。項目首席專家召開了子課題負責人第一次例會,各子課題負責人分別匯報了修訂完善后的研究方案和研究計劃,并進行了相關任務的對接。一年多來,各子課題均取得了基礎性的進展:
子課題一“基于文獻計量分析的《格薩爾》研究歷史、現狀和趨勢”。一是定制專門的文獻計量分析軟件工具,包括基于文獻計量學方法的論文形式和關鍵詞內容分析工具研發,以及基于詞向量的短文本分析技術的文獻內容挖掘工具研發,已經運用其他領域的數據集進行了多次測試和優化,很快即可在本項目應用;二是篩選《格薩爾》研究的學術文獻,尤其是藏文文獻,已經選出187篇藏文研究論文。
子課題二“《格薩爾》說唱語音的聲學和韻律建模及音字轉換研究”。一是錄制了斯塔多吉說唱本4部,計200多個小時;二是對多語言言語識別方法開展了相關研究,提出了基于多尺度特征的語音識別建模方法、基于參數共享神經網絡的雙語語音識別建模方法;三是基于言語中的多層次線索,對融合發音姿態信息的深層神經網絡語音識別建模方法進行了探索;四是提出了基于深層循環條件隨機場的中文自動分詞方法并對藏語的分詞和注音進行了探索,實現了藏文分詞以及藏語方言國際音標轉換的系統。
子課題三“《格薩爾》的多媒體數據庫及文本自動標引和知識檢索系統”。一是建立了54049詞條的藏語短語詞條庫和133226詞條的藏語詞語庫,為藏文連續文本的切分提供了依據,并對藏文虛詞的自動識別方法和技術進行了探索;二是結合子課題一的“短文本分析技術”和子課題二的“基于深層循環條件隨機場的中文自動分詞方法”,設計并初步論證了中文文獻內容的自動標引和檢索的技術路線。
子課題四“基于《格薩爾》知識圖譜的格薩爾學創新發展”。一是在分析格薩爾學的成長特征和成長空間的基礎上,從情報學的多個視角探討了格薩爾學的多方面成長機制,為前面三個子課題的研究目標實現提供進一步的參考;二是在西藏大學組建了“格薩爾史詩研究科研創新團隊”。
2、調查研究及學術交流情況
調查研究工作主要是對非在線的藏文有關文獻的調查篩選、《格薩爾學集成》(5卷)等早期文獻的復制、在線中英文有關文獻的抓取等。學術交流還僅限于項目組內部,等基礎性研究更加充分并在說唱語音自動識別有重大突破后再進行國內外學術交流活動。
3、成果推介與宣傳
成果宣傳推薦方面,報送了兩期《工作簡報》,因尚處基礎研究階段,還沒有舉行成果發布會、沒有向國家社科基金專刊投稿。
二、 研究成果情況
代表性成果:實現了藏文分詞以及藏文文本到藏語方言國際音標轉換的系統。
要實現藏語方言語音的識別和分析,需要以國際音標IPA的形式分析藏文文本到藏語方言的發音,構建不同藏文方言由文本到發音的轉換對照表。該系統由藏文文本分詞系統和藏語方言國際音標轉換系統兩個子系統構成,后者又包括藏文詞匯國際音標轉換系統和藏文單音節方言國際音標轉換系統兩個部分。
藏語在書面語上是統一的,即藏語方言在書寫形式上是一樣的。藏語主要劃分為衛藏、康以及安多三大方言。不同的藏語方言在語音上體現在多個方面,主要特性包括:方言是否有聲調、是否有清濁聲母的對立以及輔音韻尾是否多寡。首先,基于《格西曲扎藏文辭典》中的藏文詞匯,經人工整理、挑選和校對,最終獲得七萬五千條藏文詞匯的電子詞典。分詞詞典的每條詞匯都包含藏文、對應的中文、部分詞匯帶有詞性以及對應的拉丁形式。基于格助詞添接法,將詞典中的名詞等轉換為對應格的形式,然后將名詞的格形式作為詞典詞條進行詞典的擴充,最后在分詞時使用擴充后的詞典,實現對緊縮詞的識別。其次,基于對藏文三大方言六大話系的分析,歸納出了拉薩、日喀則、德格、巴塘、澤庫和拉卜楞等六個話系的藏文文本到國際音標的聲母、韻母以及聲調的轉換對照表。
該系統的實現,將有力地推進針對斯塔多吉說唱語音的自動識別和音字轉換的研究工作。
課題組供稿