一、研究進展情況
主要內容:
一、研究計劃總體執行情況及各子課題進展情況
本項目研究計劃:立足中國少數民族語言特點,瞄準國際前沿,利用目前國內外通用的聲學分析軟件和儀器設備,用語言學、語音學、聲學、計算機科學和統計學的理論方法,對我國少數民族語言語音進行系統地聲學研究的基礎上,建立基于近二十種少數民族語言方言土語(蒙古語、布里亞特語、達斡爾語、土族語、東鄉語、保安語、東部裕固語、維吾爾語、哈薩克語、圖瓦語、鄂溫克語、鄂倫春語、錫伯語、彝語、藏語和蒙古語方言土語包括蒙古國喀爾喀方言)的“中國少數民族語言語音聲學參數統一平臺”(簡稱“統一平臺”),為進一步開展我國少數民族語言方言土語語音聲學描寫研究和比較研究打好基礎。
本項目自立項以來,總體上按原計劃實施。到目前為止
? 完成了蒙古、維吾爾、哈薩克、鄂溫克、達斡爾、土族、東部裕固、東鄉、等8種語言的索引庫、聲樣庫、音段標注庫、聲學參數標注庫和聲學參數庫,并搭建了基于上述語言的“中國少數民族語言語音聲學參數統一平臺”(簡稱“統一平臺”)。
? 建立了保安、布里亞特、圖瓦、錫伯、彝語、藏等語言的索引庫、聲樣庫。
? 正在研制衛拉特方言的烏日吐木仁話、巴爾虎布里亞特方言的巴爾虎話、內蒙古方言的科爾沁話、巴林話的索引庫、聲樣庫、音段標注庫和聲學參數標注庫。
? 研制了“聲學參數自動標注/提取軟件”和與之相關的諸多應用性小程序。
? 重要階段性成果之一: “中國少數民族語言語音聲學參數統一平臺”框架
實驗語音學為語言學這門傳統的人文學科增加了實驗科學的新方法,為語言分析提供了新的研究視角和內容,為有聲語言資源庫建設提供了技術保障。語音聲學參數庫(Acoustical Database)是語言資源聲學層面的最高形式,是對特定語言的語音進行系統聲學分析、提取該語言語音聲學特征的微觀聲學參數集合,可比喻為是提取語言DNA。在語音信號分析和處理過程中,時域和頻域特性是至關重要的。在語音研究中對音段和超音段特征測量和分析已進行了幾十年,從以音節、詞為基礎的音段和超音段特征分析到現在連續語料的音段和超音段特征分析,使我們對語音和韻律特性認識越來越清晰、越來越準確,在應用研究中越來越有效。
自2014年2月開始,根據多年積累的語音聲學參數庫研制經驗,研發并投入使用“語音聲學參數自動標注/提取系統”(3.3版本)和諸多數據處理小工具,使該項工作逐漸走上自動化,提高了工作效率和準確率,避免了采集者的主觀因素,確保了數據的客觀性和準確性(參看周學文、呼和,2014)。如上所述,我們團隊已完成了蒙古、維吾爾、哈薩克、鄂溫克、達斡爾、土族、東部裕固、東鄉、等8種語言的語音聲學參數數據庫,并基于這些聲學參數庫搭建了“中國少數民族語言語音聲學參數統一平臺”框架(
我們正在建設的“統一平臺”是利用國際通用的語音聲學分析軟件,提取有效表征語言音段和超音段的各種聲學特征參數,并把它們集合成一個完整的語音聲學參數數據庫,用數據庫管理軟件進行統一管理的平臺(通用的自然語言語音處理平臺)。“統一平臺”將利用現代科技,以數據庫(量化和數字化)的形式完整地保存少數民族語言音段和超音段的聲學參數。用戶利用統一平臺可以完成查詢檢索多語種語音聲學參數內所有的信息、可以任意設定查詢的組合條件、可以對結果集合按照任意字段排序、可以在結果集合中查詢詞/音素之間任意切換、可以手動/自動對查詢結果集進行選擇并把選擇的結果輸出到EXCEL等。統一平臺還有統計、分析和分類等功能。隨著容納更多語言語音聲學參數數據庫,可以根據用戶需求,改進界面的友好性和系統的強壯性(魯棒性Robustness)。以下是目前使用的統一平臺界面。
“統一平臺”特點為:(1)實用性:基本上包含了所有音段的主要聲學特征,能夠滿足所有的參數提取、統計分析和比較研究;(2)穩定性:確保了數據庫主要結構的穩定性(參數庫的擴充不影響其穩定性)。這樣才能有利于聲學參數的積累;(3)擴充性:確保了數據庫的可擴充性,以便滿足新參數和結構的微調。該平臺能夠確保數據庫內容的維護,包括增加、刪除、修改、查詢;確保方便提取所有參數,滿足相關研究。
? 重要階段性成果之二: “中國少數民族語言方言語音實驗研究叢書”
為檢驗和論證“統一平臺”的權威性、普遍性、實用性和功能的完整性,我們團隊自2017年開始利用“統一平臺”,組織撰寫了“中國少數民族語言方言實驗研究叢書”。其中,蒙古語、鄂溫克語和維吾爾語等三卷得到了出版資助。目前,蒙古語卷和鄂溫克語卷已出版,維吾爾語卷已經進入出版流程,預計今年7月中旬出版。
該叢書將在以往研究的基礎上,針對民族語言語音研究的歷史和現狀,從解決所面臨的實際問題出發,采用聲學語言學的理論和方法,對目標語言的元音、輔音等音段特征和詞重音等超音段特征進行了較全面、系統地定量和定性分析。除總序外,本叢書包括了以下研究內容:(1)元音研究方面:對目標語言每一個元音進行系統的統計分析,統計參數(項)包括音長、音強、目標位置共振峰頻率(F1—F3)及其前后過渡段頻率;統計內容有平均值、標準差和變異系數等;通過分析參數平均值及其音質定位、目標位置共振峰頻率及其前、后過度段共振峰頻率之間的關系、音節數量與聲學參數之間的關系、音節類型與聲學參數之間的關系、輔音音質與元音聲學參數之間的關系等問題,確定每一個元音的實際音值及其在聲學空間中的分布格局和分布特點以及在語流中的存在模式和音系特點,并探討其過去、現在和未來變化方式和方向。(2)輔音研究方面:對目標語言每個輔音進行系統地統計分析,統計參數(項)包括音長、音強、目標位置共振峰(CF1—CF3;VF1—VF3)等;統計內容有平均值、標準差和變異系數等;通過分析和觀察輔音三維語圖特點、共振峰分布模式、詞中分布特征、詞中位置與聲學參數之間的關系、后置元音音質與輔音聲學參數之間的關系等問題,探討了輔音在詞中的出現頻率特點和語流中的存在模式和音系特點;另外,基于VOT-GAP二維坐標和COG(輔音譜重心)、STD(相對于譜重心的譜偏移量)和SKEW(偏離度,低于譜重心的譜與高于譜重心的譜之比)等參數,分析確定了輔音聲學特點(聲學表現)、聲學空間中的分布格局、塞音塞擦音的GAP與其發音部位之間以及COG、STD和SKEW值與清輔音發音部位之間的相關性和語言學意義。(3)詞重音研究方面:從單詞韻律模式和詞重音問題入手,闡述了語音四要素與目標語言詞重音性質之間的關系問題;基于聲學參數分析了詞重音功能與作用問題,并從類型學的視角對詞重音位置問題進行了解釋。(4)音系研究方面:基于實驗音系學理論和方法,對目標語言的音系進行了較全面系統地分析和歸納。(5)語音學理論方面:通過解讀聲學元音圖(元音聲學空間動態分布圖)中不同元音音位及其變體之間的疊加現象、元音陰陽(松緊)屬性與元音和諧律之間的關系,闡述了音位與變體、屬性與規則、規則與實施等層面的絕對性和相對性問題,即語音學理論的相對性和絕對性等問題。
? 重要階段性成果之三:培養了5位博士,3位碩士
在本項目的資助下,與地方院校合作培養了哈斯乎(2014年與內蒙古大學照日格圖教授合作。該生的博士學位論文為“基于語音聲學參數庫的東部裕固語研究”)、韓國君、哈斯其木格(2016年與中央民族大學大學寶玉柱教授合作。兩位的博士學位論文為 “(基于語音聲學參數庫的)達斡爾語音系研究”和“(基于語音聲學參數庫的)土族語音系研究”)、呼司樂土、金鈴(2018年與西北民族大學巴圖格日勒教授合作。兩位的博士學位論文為“基于語音聲學參數庫的東鄉語研究”和“基于語音聲學參數庫的保安語輔音研究”)和買力坎木?蘇來曼、艾則孜?阿布力米提(2013年與西北民族大學阿里木教授合作。兩位的碩士論文為“維吾爾語標準音(話)元音聲學分析”、“維吾爾語濁輔音的聲學特征研究”)、德格吉呼(2017年與西北民族大學巴圖格日勒教授合作。該生的碩士學位論文為“基于語音聲學參數庫的保安語元音研究”)等碩士。目前該項目正在培育3位博士和1位博士后。
二、調查研究及學術交流情況
? 調查研究:自立項以來,我們課題組前后赴內蒙古各盟市旗縣、甘肅、青海交界的積石山保安族東鄉族撒拉族自治縣、甘肅省臨夏回族自治州、新疆伊犁州和阿勒泰地區進行語言調查和語音信號采集工作,采集了近100個人的語料,200多小時的聲樣。
? 2016年7月與內蒙古民族大學蒙古學學院聯合承辦了“第十二屆全國語音學學術會議”。有140位專家學者參加了本次會議。本次會議論文集共收集128篇論文。這些論文基本反映了當前我國在語音學研究領域的現狀與最新進展。
? 正在與俄羅斯布里亞特聯邦共和國國立大學和蒙古國科學院語言文學研究所合作實施“布里亞特語語音聲學參數庫”和“蒙古語喀爾喀方言語音聲學參數數據庫”。
? 前后邀請俄羅斯布里亞特聯邦共和國國立大學吉日嘎拉教授等來我國訪問進行學術交流和合作研究(3人次)。項目負責人呼和研究員曾兩次前往蒙古國參加學術會議和進行項目調研。
三、成果宣傳推介情況
2013年3月29日, “中國少數民族語言語音聲學參數統一平臺建設研究”項目開題會,在中國社會科學院民族學與人類學研究所舉行。
四、研究中存在的主要問題、改進措施,研究心得、意見建議
? 該項研究所涉及民族語言和方言圖較多(近二十種),所包含語言有阿爾泰語系語言、漢藏語系語言。到目前位置,本項研究除藏語和彝語外幾乎都是阿爾泰語系語言,為此亟待拓展到漢藏語系語言和方言。要完成該項任務除培育和接受精通漢藏語系語言方言的實驗語言學專業人員外,需要更多的經費資助。
? 實施子課題時需要與多單位之間進行多方面的協同,特別是找到能夠長期合作的單位和人員難度較大。
? “語音標注庫”建設是該項目的難點和重點。只有既能精通母語,又能懂得語言學和實驗語言學理論方法的研究人員才能勝任該項研究。找到這類人員難度較大。為此我們不得不采取“一手培養,一手干活”的方法。為此,需要更多的培訓費。
? 為更好地完成項目任務,完善和提升項目成果,改進“功能模塊”,使得“中國少數民族語言語音聲學參數統一平臺”規模擴展到大數據水平,希望給予滾動資助。
二、研究成果情況
主要內容:
一、代表性成果簡介
? 代表性成果(一):“中國少數民族語言語音聲學參數統一平臺”。我們正在建設的“統一平臺”是語言資源聲學層面的最高形式,是對特定語言的音段和超音段進行系統聲學分析,提取有效表征語言音段和超音段的各種聲學特征參數集(可比喻為語言聲學特征DNA),并用數據庫管理軟件進行統一管理的有聲資源庫平臺。請見圖2~3.“統一平臺”的學術價值和社會影響:(1)推動科學保護弱勢語言,搶救瀕危語言的進程;(2)有效促進科研資源的共享和科學研究的延續性;(3)推進語音學基礎理論研究,促進語音學與相關學科的發展。如,能夠推動語言發生、接觸和演化研究,特別是語言類型學(語音類型學)的發展(呼和等,語音聲學空間分布類型初探,民族語文,2019年第5期);(4)能夠為民族語言言語聲學工程研究和研發提供語音學基礎數據資源,推動我國多語種人機智能交互平臺技術的發展;(5)保護我國民族文化的多樣性,促進我國語言生活的健康和諧發展;(6)“統一平臺”中所提出的各項標準和原則必將成為國際國內語言聲學實驗研究依據和標準,推動語言聲學實驗研究工作的規范化和標準化進程;(7)“統一平臺”不僅是語音本體基礎研究領域的一個突破,而且將會成為國家信息資源的重要組成部分,彌補國家少數民族語言信息資源的闕如。
總之,“統一平臺”將我國傳統的優勢學科同新的前沿領域相結合,無論從現代社會語言資料和文化遺產流失的嚴峻現實,還是從科學技術和語言研究相結合的發展方向來看,都有著廣闊的發展空間和遠大前景。該平臺將為我國同類語言數據庫、檔案庫提供范例,為語言本體描寫研究和比較研究,以及民族學與人類學等其他學科的研究提供真實、客觀的數據資源,將會有力促進我國民族語言學學科的發展。
? 代表性成果(二):“中國少數民族語言方言實驗研究叢書”。目前已出版《蒙古語語音聲學研究》(呼和,社會科學文獻出版社,2018年6月)和《鄂溫克語語音聲學研究》(烏日格喜樂圖,呼和,社會科學文獻出版社,2018年10月)等兩卷。
? 已出版的兩部專著在以往研究的基礎上,利用“中國少數民族語言語音聲學參數統一平臺”,用聲學語言學和統計學的理論和方法,對蒙古語和鄂溫克語元音、輔音等音段特征和詞重音等超音段特征進行了較全面、系統地定和定性分析。
描寫每一個音段的實際音值及其在聲學空間中的分布格局和分布特點以及在語流中的存在模式和音系特點,探討語音四要素與兩種語言詞重音性質之間的關系問題,闡述了語音聲學參數與音段和超音段特征之間的相關性和語言學意義。所提出的語言聲學實驗研究思路和方法,得出的結果和結論對蒙古語、鄂溫克語語音學乃至我國少數民族語言實驗研究具有較高的參考價值,促進民族語言實驗研究學學科體系建設,推動我國民族語言學科的發展。
? 代表性成果(三):“再論蒙古語詞重音問題”(呼和,民族語文,2014年第4期)。蒙古語詞重音分絕對重音和相對重音。非詞首音節中含有短元音的多音節詞的重音為絕對重音;非詞首音節中不含短元音的多音節詞的重音為相對重音。蒙古語詞重音是整個音節語音四要素變化的綜合效應;詞重音屬自由重音,但不完全是自由的,其位置與長元音(或復合元音)有關。該項研究針對幾百年以來有關蒙古語詞重音方面的爭論,用實證和感知實驗的方法解釋和解決了詞重音問題。這對蒙古語、蒙古語族乃至阿爾泰語系語言的韻律基礎研究和應用研究具有較高的參考價值和應用價值。
? 代表性成果(四):“語音聲學參數自動標注/提取系統簡介”(周學文,呼和,中文信息學報,2014年第3期,第28卷)。本文重點介紹了一個實用的語音聲學參數自動標注/提取軟件系統。使用該系統能夠極大地降低語音參數標注和采集的錯誤率,有效提高語音聲學參數庫研制效率,確保實驗方法和實驗數據的可重復性和可驗證性,從而推動語音聲學參數數據庫研制和語音聲學實驗研究工作的規范化和標準化。
? 代表性成果(五):“蒙古語元音演變的聲學語音學線索”(呼和,中央民族大學學報,2015年第4期)。本文從聲學語音學的視角探討了蒙古語元音的演變問題。主要結論為: 圓、展唇元音的聲學格局確定了它們的演變方向和方式;輔音發音方法影響元音舌位的高、低,而其發音部位影響元音舌位的前、后;后置輔音對其前置元音的影響相對大于前置輔音對其后置元音的影響;音位層面的關系是絕對的,而變體層面的關系是相對的;“陰陽對立”是蒙古語元音的一種屬性,而“元音和諧律”是這種屬性在具體語言中的表現形式。其中,屬性層面的關系是絕對的,而規則層面的關系是相對的。導致語音演變的條件和因素錯綜復雜。本文用聲學模型的理論和方法為語音演變提供新的研究思路和方法。該文2018年12月獲中國社會科學院民族學與人類學研究所優秀成果獎,并推薦中國社會科學院第九屆優秀科研成果。
? 代表性成果(六):“語言親屬關系聲學語音學線索”(呼和,實驗語言學,第四卷第4號,2015年)。本文提出用“語音聲學模型相似度”實證語言之間親屬關系親近度的思路和方法,并用蒙古、維吾爾、鄂溫克、達斡爾和土族等阿爾泰語系語言的元音聲學模型進行了初步驗證。本文為語言親屬關系親近研究提供新的理論和方法。
? 代表性成果(七):“蒙古語韻律層級單元探討”(呼和,西北民族大學學報,2017年第4期)。本文在以往研究的基礎上,立足蒙古語韻律特點,根據McCarthy 和Prince(1993)的“韻律構詞學”(prosodic morphology)理論,參照國內外面向語音合成的文本和口語處理基礎理論與建模方法研究經驗,結合語言學、語音學、音系學、實驗語言學的理論和方法,探討了蒙古語韻律層級單元及其特點等問題。
? 代表性成果(八):“蒙古語詞重音及其分類問題”(呼和,梅花,滿語研究,2018年第1期)。蒙古語詞重音與英語、俄語等重音語言不同,也與日語等音調音高語言有所差別。在蒙古語中,元音音系學長短,既能區別詞義,也能辨別詞重音。而元音物理學長短,只承擔辨別詞重音任務。前者既可以視為音系層面上的長短元音對立,也可以視為韻律音系學層面的輕重對立。本文主張把蒙古語(乃至阿爾泰語系語言)歸類為音調音長語言,并與聲調語言、重音語言和音調音高語言相提并論。
三、下一步研究計劃
在2019—2020年度完成以下研究任務:
? 進一步充實和改善“中國少數民族語言語音聲學參數統一平臺”管理平臺,并不斷增加語言和方言數量,充分利用和發揮“統一平臺”的功能和作用。
? 實施和完成哈薩克、達斡爾、土族、東部裕固、東鄉等語言和蒙古語衛拉特方言烏日吐木仁話的索引庫、聲樣庫、音段標注庫、聲學參數標注庫和聲學參數庫,并介入到“中國少數民族語言語音聲學參數統一平臺”。
? 繼續研制鄂倫春、圖瓦、錫伯、彝語等語言和蒙古語巴爾虎布里亞特方言陳巴爾虎話、內蒙古方言科爾沁話、巴林話的索引庫、聲樣庫、音段標注庫和聲學參數標注庫,并爭取介入到“中國少數民族語言語音聲學參數統一平臺”。
? 充分利用“統一平臺”的功能和作用,組織相關人員繼續撰寫“中國少數民族語言方言實驗研究叢書”。爭取在2019~2020期間,再出版3~5部專著。
? 每年發表3~5篇較高水平的學術論文。
? 在2019~2020期間,組織課題組成員前后赴蒙古國、俄羅斯聯邦布里亞特共和國和卡爾梅克共和國、哈薩克斯坦和吉爾吉斯斯坦、日本和韓國以及我國黑龍江、遼寧、吉林、新疆、內蒙古、甘肅、青海、西藏、云南、廣西等地進行語言調查、語料錄制和項目調研。
? 邀請相關專家召開多次小型研討會,組織多場學術報告會,組織承辦全國性語音學會議1~2次。同時組織課題組成員參加與本項研究相關的國內外學術會議。
? 從蒙古國、俄羅斯、哈薩克斯坦、吉爾吉斯斯坦、美國、日本和韓國邀請相關專家討論并開展語音聲學參數庫方面的合作研究。
(課題組供稿 )