黨的十八大以來,習近平總書記高度重視語言文字工作,對推廣普及國家通用語言文字、傳承弘揚中華優秀語言文化等作出一系列重要指示,為我國語言資源建設進一步指明了方向,確立了根本遵循。近年來,學術界、社會上對于語言資源建設的重要意義正在形成越來越廣泛的共識,認為語言和基因一樣,是附著于人類自身的物質存在,不僅承載著人類思維和經驗,還承載著族群的歷史和文化,亟待調查、整理、保護、傳承。隨著這一認識理念的深化和傳播,尤其是借助大數據時代提供的各種便利條件,語言資源建設在全國范圍如火如荼開展起來,各個語言資源建設中心如雨后春筍,紛紛破土而出、茁壯成長,呈現出生機勃勃的景象。
新中國的語言資源建設成就前所未有
我國歷來重視語言資源,在語言資源的建設方面取得了許多成就,如石文碑刻、韻書字典等,但也有缺憾和不足,如偏重書面語、對口語較為忽視等。新中國成立以來,黨和政府在繼承基礎上大膽創新,語言資源建設取得了前所未有的成就。
新中國成立之初,我國語言資源建設處于草創期,主要工作在于語言普查和文字創制。1956年,全國漢語方言普查和民族語普查幾乎同步開展。草創期語言資源建設的主要方式是使用卡片展開記錄。20世紀八九十年代,我國語言資源建設進入發展期,語言資源建設手段更加多元、工作更為深入,集中表現為:一是繪制《中國語言地圖集》,全面反映了我國漢語方言和少數民族語言分布的復雜面貌。二是出版語言志書、語言研究叢書和系列詞典等。各地不僅新修方志都增加了方言志,而且專門的方言志、民族語言志也大量出現,如“山西省方言志叢書”等。語言研究叢書中較有代表性的是賀巍、張振興主持的“漢語方言重點調查”的成果,以及中國社會科學院民族學與人類學研究所組織編寫的《中國新發現語言研究叢書》和《中國少數民族語言方言研究叢書》。影響較大的詞典是中國社會科學院語言研究所組織編纂的《現代漢語方言大詞典》41種分卷本和中國社會科學院民族學與人類學研究所主編的“中國少數民族語言系列詞典叢書”。三是建立了一批方言音檔,其中較有代表性的是侯精一組織建設的“現代漢語方言音庫”,內含漢語方言40種代表點的語音系統、字音、詞匯、語法例句和長篇語料。四是組織了數次語言使用情況調查,如中國社會科學院民族學與人類學研究所和加拿大拉瓦爾大學合作,按照語言活力參項框架展開的少數民族語言文字使用情況調查。發展期的語言資源建設仍以紙筆調查為主,已經涉及現代化錄音技術,實現了自然語音采錄。21世紀以來,我國語言資源建設迎來了繁榮期,其特點在于實驗語音等現代手段和多媒體技術的普遍應用,集中表現為出了若干有分量、有代表性的重大學術成果,如《中國的語言》《漢語方言地圖集》和“新時期中國少數民族語言使用情況研究叢書”等。這一時期,國家層面組織了幾次較大的語言保護工作。如2015年,教育部、國家語委啟動“中國語言資源保護工程”,利用現代化技術記錄漢語方言、民族語言和口頭語言文化的動態語料,成果形式為語言志、語言文化典藏、語言地圖集和語言資料深度開發服務等。
直面大數據時代語言資源建設的機遇與挑戰
近年來,隨著計算機和互聯網技術的發展,語言學的研究逐漸進入了大數據時代。一些龐大的語言數據庫紛紛建立起來。不過,數據庫材料來源良莠不齊,記音方法各不相同,給學術界使用這些資料帶來困難,也影響了以此為素材進一步分析得出結論的可信性和科學性。對語言資源建設而言,大數據既是機遇,又有挑戰。
一是對語言資源建設的規模提出了更高的要求。以語言地圖的繪制為例,《漢語方言地圖集》中以各地數百個方言中“家”字的讀音,反映見母開口二等字在現代漢語方言的語音面貌。大數據時代的語言資源建設,要求我們必須獲取海量數據,既不能僅限于幾百個方言點的材料,更不只是以“家”這一個字的讀音來代替見母開口二等這一批字。我們可以通過全國方言材料來獲取一大批見母開口二等字在一兩千個現代漢語方言土語中的語音形式,用大數據的方法規避個別數據錯誤所帶來的影響,使研究的結論更為科學。
二是對語言資源建設的人才和技術提出了更高的要求。比如,如何調試信噪比、如何避免撲麥和削波等現象,從而獲取高質量、高保真的錄音材料,建設有聲語言數據庫;如何開發設計同音校驗軟件,組織專業人士對調查材料進行反復校驗,從而確保材料準確可靠;如何進一步建設聲學參數數據庫,如何深入挖掘數據、利用語言數據展開深入的專業研究。這不僅需要對調查人員和研究人員進行相應的技能培訓,而且大數據時代所帶來的研究范式的改變,迫使研究人員不斷提高專業素養和研究能力。
三是對語言資源建設的標準化和規范化提出了新的要求。除了需要建立行業統一的記音規范和錄音規范,使不同人員和不同團隊的調查數據可以統一開發利用,我們還需對以往的調查數據進行檢驗整理和二次規范,從而建設更為龐大的語言資源數據庫。統一規范的制定,需要業內專家們共同擬定并達成學界共識;如何對已有數據庫迅速實現機助校驗和二次規范,更是需要深入探討的問題。
把握大數據時代語言資源建設新特點
當前,借助于飛速發展的現代信息技術,語言資源建設駛上快車道,呈現出若干新趨勢、新特點。一是高度集聚、整體推進。黨和國家的高度重視、政府和相關單位的大規模投入以及廣大優秀人才的積極參與,都將使我國語言資源建設取得豐碩成果。隨著相關項目組織越來越有效、調查越來越集中、研究越來越規范,語言資源建設會出現相對集聚、高度融合的態勢,并形成一定程度的規模效應,進而促進整體發展。我國語言資源建設將呈現更集聚、更綜合、更系統的勢頭,推動語言資源得到統一規劃、綜合開發,從而實現整體發展,形成規模效應,以更好地為國家語言戰略、社會語言生活和語言學術研究服務。
二是共建共享、團結合作。縱觀全國語言資源建設的發展脈絡和運行軌跡,可以發現其發展和運行的每個步驟、每一環節都離不開共建共享、團結合作。新時代的語言資源建設對此提出了新的更高要求,這不是某個單位、某個團隊就能做好的,而是需要多個領域、多個單位、多個地域的專家學者和科研人員共同參與、群策群力,發揮出集團作戰優勢。如國家語委和教育部的語言資源建設都是舉全國之力,各大科研院所和高校幾乎全部投入,無一置身事外。通過合作共建,加大了人類語言音變通則提取的可能性,促進了演化語言學的長足發展,既能八仙過海、各顯神通,又能群英薈萃、百舸爭流。一方面,田野調查的錄音設備和技術可以共享,以提升整體的攝錄質量;由各人調查記錄自己所擅長和熟悉的語言或方言,能夠提升整體的專業質量。另一方面,調查成果也可以共享,研究成果可以互促。一旦有了語言數據庫的有力支撐,有時候表面看起來雜亂無章的現象,也能夠通過計算、處理和分析,挖掘出潛藏的重要信息。
三是形式多樣、內容豐富。以前的語言資源建設和保護工作,形式較為簡單,內容也十分有限,最終形成只有專業人士才能看懂的語言或方言調查報告。相比之下,現在的語言資源建設和保護工作發生了歷史性變化。形式上,不再限于書面的紙筆記錄,已經擴大到高質量、高保真的聲音和圖像攝錄。內容上,不僅限于方言字表、詞表或民族語義項表的調查記錄,還涵蓋豐富的民歌、故事、曲藝、說唱、成語、歇后語、口傳文化、非物質文化遺產等內容。成果上,不僅包括語言調查報告及其有聲資料,還有方言和民族語電影、小品、相聲等。隊伍上,與過去只有學者和學生參與語言資源建設工作不同,如今的語言資源建設隊伍更加壯大,除了語言學專業人士,還會邀請媒體加盟,舉辦一系列宣傳活動,受到普遍歡迎。效果上,過去的語言資源建設成果,主要用于小眾的語言研究,現在的語言資源建設成果,不僅促進了語言學大發展大繁榮,更為國家語言戰略、規劃和政策的制定實施提供了可靠依據,為各民族之間交往交流提供了平臺和服務,大大豐富了社會公眾的語言文化生活。
放眼未來,語言資源建設充滿希望,是一項需要共同奮斗、長期堅持的任務。只要解放思想、與時俱進,將語言資源建設置于社會進步和文化繁榮的大背景之下,充分調動各方面資源,廣泛匯聚各方面力量,就能夠更好地開發、保護和利用中國的語言資源,使語言資源建設始終能夠與國家齊發展、同時代共進步。
(作者單位:中國社會科學院民族學與人類學研究所)