一、研究進展情況
一、研究計劃總體執行情況
本項目2012年10月立項。2013年1月13日舉行開題論證會,至今(2014年6月)已有一年五個月。一年多來,項目按照原定計劃推進,總體進展順利。
本項目的總目標是建設一個可與GIS銜接的、方言布點較均衡、語料類型較全、標注較精的基礎方言口語語料庫,同時借助語料庫建設推動方言研究的數字化。課題有兩項建設目標:(1)建語料庫;(2)通過建庫推動方言研究的數字化。依據研究計劃,課題分前期(2013)、中期(2014-2016)、后期(2017)三個階段。前期主要任務是基礎理論研究和建庫設計;中期主要是語料采集和標注;后期主要是語料庫運行和完善。目前已完成前期基礎理論研究,剛進入中期語料采集。具體情況如下。
1.1 前期基礎理論研究(2013.02-2014.05)
調動組織全組力量,完成了三項基礎工作:(1)梳理相關文獻,厘清建庫的基本理念,重新審視并確認申報時論證的語料庫定位;(2)依據語料庫定位設計語料庫整體架構、確定數據類型與數據結構;(3)研究口語語篇類型,擬定語料采錄大綱。
1.1.1 確認語料庫定位
項目組對語料庫文獻及本項目所涉方言的各種文獻進行了仔細梳理,結合研究目標厘清了建庫的三個基本理念:專庫多用、開放互動、方言研究數字化;同時確認本項目應建一個基礎性的、系統語篇型語料庫,即給本庫兩個定位:(1)基礎性;(2)系統語篇型。
1.1.2 完成語料庫設計及各類數據設計
根據“基礎性”和“系統語篇型”的定位設計了語料庫結構及各類數據結構。我們用三項設計實現“基礎性”定位:
第一,語料類型的基礎性。以口語語篇為主,輔以字、詞、句等基礎語料。從建庫目標看,基礎語料是實現語篇自動或半自動標注的支柱;從語料庫結構看,基礎語料與語篇語料互為依托,才能滿足方言研究及應用研究的各種需求。
第二,方言布點的基礎性。方言口語語篇兼具方言的語言系統及其所承載的地域文化的雙重基礎性。為呈現這種雙重基礎性,方言布點兼顧方言與文化。因方言分區與地域文化大體對應,故依照漢語方言的一二級分區、選擇地域文化中心的具有典型代表的縣市設方言點。這些方言點覆蓋全國九個大方言區和官話的八個二級分區,是當地經濟文化中心(或為古城),具有地域文化代表性。
第三,語料形式與內容統一的基礎性。語料形式指其語言樣態,語料內容指其所映射的客觀世界。選用適量的方言文化語料,體現方言所承載的經典地域文化。
用兩項設計實現“系統語篇型”定位。“系統語篇型”有兩個含義,一是語料類型以語篇為主;二是語料是系統的(Systematic),即預先確定收集語料的原則和比例,語料具有平衡性和系統性。
第一,設兩個大庫:語篇庫和基礎庫,語篇庫是主庫,基礎庫是副庫,體現語篇的主角地位。兩個大庫分別設三個子庫:語篇庫有文本語篇庫、即席語篇庫和自錄語篇庫,基礎庫含字庫、詞庫和句庫。
第二,語篇類型分三級,三級類型所含種類數成寶塔狀:頂部的一級種類數目少,概括度高,便于操作;中底部的二、三級類型數目遞增,盡量涵蓋方言口語中出現的各種細類,體現語篇語料的系統性。設定每一小類的采錄內容及大體相當的時長,實現語料平衡。
設計基礎數據。語篇庫以語篇為一級單位、以句為二級單位設計數據,每條數據24個字段。基礎庫因語言單位不同,分別設計數據字段。字庫以音節為一級單位、以音位為二級單位設計,每條數據41字段。詞庫以詞語為一級單位、以音節結構元素為二級單位設計,每條數據42字段。句庫以句為單位設計,每條數據22字段。各類數據的字段數目雖不同,但都含三部分,一是語言信息字段,二是制作信息字段,三是與GIS銜接的字段。
1.1.3 完成語料庫采錄底本制作
語料采錄底本是語料庫建設的根本,前述各項設計能否兌現取決于語料采錄底本的結構與質量。語料采錄底本還是中后期工作的綱領。因此,擬制語料采錄底本是前期基礎研究的歸宿與重心,項目組傾注了大量人力、物力與精力。語料采錄底本分字表、詞表、句表和語篇底本四類。前三類我們有前期積累,而語篇底本我們既無前期研究成果,又缺乏可資參考的資料,是重中之重。四類采錄底本的研制經歷了三步。第一步參閱文獻擬草稿(2013年2月-2013年11
月)。第二步征求意見后修改加工形成初稿(2013年12月)。2013年12月中旬在
廣州召開第17屆全國漢語方言學會年會,四類采錄底本以論文形式在會上交流,廣泛征求專家意見。第三步經實地采錄試驗后再次修訂、定稿(2014年2月-4月)。2014年1月在南京用采錄底本初稿試驗錄制,然后逐字、逐詞、逐句、逐篇整理、修訂,再定稿。四類采錄底本的擬制情況見下節“調查研究”。
1.2 中期語料研究(2014年1月-至今)
2014年上半年是前期基礎研究與中期語料研究的銜接過渡期。已按計劃完成南京方言的試驗采錄,并根據試驗結果修訂完善了語料采錄大綱。其他方言點的同步采錄工作大多安排就緒,計劃暑假開工。
南京方言的采錄試驗集中在2014年1月,依照采錄底本初稿完成了主體工作,含4052單字、542雙字組、5646詞語、100語法例句,以及文本語篇、即席語篇的錄音和錄像。2月至6月進行了兩項后續工作。一是依據試驗結果修訂采錄底本的缺陷,補充、刪節、修改有關內容,完善采錄底本。其中字表和詞表有較大改動,語篇底本有個別調整。二是檢查所錄語料是否合格。重點檢查方言是否準確、地道,音檔有無撲麥、過載或信噪比不足,音檔數量與采錄底本是否吻合。請當地方言人審聽方言是否合格,由項目組成員審查技術問題。將審核出的問題集中,擬制成補錄提綱,于2014年4月完成補錄。然后整理補錄的音檔,替換原不合格音檔。根據新定采錄底本重新整理已錄語料,根據數據模型切割音檔,根據語料庫構架歸置音檔于指定位置,使所有音檔的編碼、存放位置等與新采錄大綱一致。
二、各子課題進展情況
本項目有五個子課題。子課題一是軟件組,研制建庫系列軟件;子課題二、三、四是方言組,分別研究東西南北中的方言語料;子課題五研究方言韻律。軟件組和韻律組的研究依托于方言組。方言組的研究主要在前期和中期,軟件組和韻律組的研究主要在中期和后期。五個子課題都按照原計劃實施研究。
2.1 子課題一:語料庫建設系列軟件的研制
負責人南京師范大學計算機學院曲維光教授。該子課題的任務是研究和開發相關軟件,使語料的采集加工軟件化或半軟件化。采用兩條途徑實現這一目標:一是自主研制相應軟件,二是借用已有軟件,分別由兩個小組承擔。關于借用軟件,已選了兩款,其中一款已完成與項目的對接,另一款尚在考察中。關于自研軟件,正在依據已錄語料細化其設計,并選用供研制軟件用的語料。
借用軟件之一是Elan ( EUDICO Linguistic Annotator),由荷蘭紐梅茵馬克斯布朗克心理語言學研究所開發,是一個跨平臺(可在Windows ,Macos ,Linux等主流操作系統上使用)的多媒體轉寫標注軟件。廣泛應用于口語語料庫建設、話語分析、態勢語研究等方面。2001年頒布,比較成熟,已有漢文版。本項目所以選擇Elan是因為:第一,它可同步實現語篇的三種標注——漢字、國際音標、普通話譯文;第二,可分別進行音頻、視頻文件的標注。這兩種性能與本項目語料文件儲存類型及語篇標注要求相吻合。按照項目組要求,王洪鐘教授和侯超實驗師研究了Elan性能和操作程序,并用已采錄語料實際演練,確定語篇標注工序。由侯超起草、項目負責人審定修改,形成本項目語篇標注規范,收入《漢語方言口語有聲庫語料采制工作手冊》下篇第三部分“語料整理規范”第六款第四條“語篇標注規范”。
另一款軟件可同步錄入用普通話翻譯方言語篇的口語語聲。這將在一定程度上緩解語篇標注的壓力。但這款軟件不夠穩定。可否改造為建庫所用,尚在考察中。
該組成員同時進行語言處理及計算語言學的相關研究,發表論文3篇。
2.2 子課題二:西部北部方言口語語料研究
負責人蘭州城市學院莫超教授。該組負責北方官話二級分區及晉語的9個方言點的語料研究。在2013年的前期基礎研究中,協同總項目組完成了語法采錄大綱的研制。專題研制了“蘭銀官話語法基礎語料調查提要”,為中期蘭銀官話語法語料的采錄提供了依據。
2014年2-5月,該子課題有8個方言點完成了以下三項基礎工作:
(1)梳理方言音系已有研究成果,匯總主要分歧,為歸納音系做準備。
(2)擬制本方言特有文化語料采錄底本。這是語篇采錄大綱的內容之一,約占一個方言點語篇總時長的20%。
(3)擬出本方言特征詞表。這是采錄詞表的內容之一,占一個方言點采錄總詞條數的3.6%。
本項目語料采錄大綱分所有方言共有和各方言特有兩部分,以共有語料為主,特有語料為輔。共有語料由總項目組設計。特有語料分特有文化語料和特征詞兩類。特有文化語料由各方言點根據語篇模型擬出初稿,由總項目組審核定稿。特征詞由總項目組提供初稿,方言點核實、補充、修訂,再由總項目組審核、定稿。兩類語料的設計模型均經過2014年1月的語料采錄試點的檢驗。2月,各方言點開始工作,5月全部完成。
特有文化語料歸屬語篇,項目組依據語篇模型規定其種類及數量,以保持各方言點語料的平衡。擬出特有文化語料底本的統一書寫模板,以保證語料采集大綱的整齊與一致。關于特征詞,項目組提供了精粗不一的初稿,各方言依據多種文獻和責任人此前的研究積累進行復核修訂。各方言修訂的幅度不同,有的未修訂,仍采用原稿;有的刪節大部分詞條,另做補充;有的基本保留原詞條,補充了詞義、例證等。提交的特征詞表各方言數目不等,需要項目組最終審核統一。關于音系綜述,有的方言點已有研究不多,尚無分歧,略去不做。
以上三項工作及完成情況的概括包含三個方言組,下文匯報另兩個方言組情況時不再重復。
本組有8個方言點擬定了特有文化語料采錄大綱:北京官話(馮青青博士)、膠遼官話(王淑霞教授)、冀魯官話(張燕芬副教授)、甘肅蘭銀官話和寧夏蘭銀官話(莫超教授)、東北官話(梁曉玲副教授)、新疆蘭銀官話(張洋教授)、晉語(史秀菊教授),共11.18萬字,平均每方言1.4萬字。有7個方言擬制了特征詞表(新疆點除外),共1634條,平均每方言233條;有5個方言做了音系綜述(膠遼官話、晉語、新疆蘭銀官話除外),總字數1.73萬字,平均每方言0.346萬字。
該組成員同時進行本方言的相關研究,發表論文12篇。
2.3 子課題三:中部東部方言口語語料研究
負責人浙江師范大學王洪鐘教授。該組負責吳語、徽語、湘語、江淮官話共5個方言點的語料研究。2013年的基礎研究階段,協同總項目組研究語篇采錄大綱,以及語篇標注軟件的引介工作。
2013年1-5月,王洪鐘首次研究了方言口語的語篇類型,擬出語篇采錄初稿,為本項目語篇采錄底本的后續研究奠定了良好基礎。同時,嘗試用Elan標注方言語篇,使本項目建庫軟件的開發借用進入了操作層面。
2014年1-4月,江淮官話南京方言點作為項目試點完成語料采錄。
2014年2-5月,本組的其他4個方言點完成了特有文化語料底本、特征詞表、音系文獻綜述等研究:南部吳語(王洪鐘教授)、北部吳語(顧勁松副教授)、徽語(栗華益副教授)、湘語(李康澄博士)。4個方言的特有文化語料底本總字數8.74萬,平均每方言點2.185萬字。4方言音系綜述共1.454萬字,平均每方言點0.36萬字。修訂特征詞表的有3個方言,共497詞條,平均每方言點166詞,徽語仍沿用項目組提供的詞表。
該組成員同時進行本方言的相關研究,出版著作一部,發表論文17篇。
2.4 子課題四:南部方言口語語料研究
負責人暨南大學陳曉錦教授,負責粵語、閩語、客家話、贛語4個方言點的語料研究。
2014年2-5月,粵語(陳曉錦教授)和客家話(侯小英博士)完成了擬訂文化語料底本、修訂特征表及音系綜述三項工作。粵語文化語料底本2.23萬字,特征詞162個,音系綜述0.83萬字。客家方言文化語料底本1.45萬字,特征詞208條,音系綜述0.35萬字。平均每方言點文化語料1.84萬字,特征詞185詞,音系綜述0.59萬字。
該組成員同時進行本方言的相關研究,發表論文9篇。
2.5子課題五:方言口語韻律研究
負責人南京師范大學顧文濤教授。根據開題評審專家“收縮任務”“研究韻律詞變調”的意見,本組研究任務調整為兩項:一是建設典型方言專用韻律數據庫;二是用實驗方法研究各方言點韻律詞(雙音節)變調,為研究方言語料標注軟件提供音變規律的支撐。因收縮了任務,顧文濤教授2013年另設計課題“社會情感的語音生成與認知的跨語言跨文化研究”,選為國家社科基金重大項目,競標后獲批,立項號13&ZD189。
該組的方言專用韻律數據庫正在籌建。
韻律詞變調研究需要語料做實驗。2014年5月,南京完成采錄語料的核對,6月初,選用了其中的542組雙音節韻律詞開始做實驗。目前正在分割組合音檔,做標注。預計7月底完成。這一研究的另一用意是通過試驗擬出韻律詞變調的研究規范。
該組成員同時還進行韻律及方言的相關研究,發表論文5篇。
三、調查研究
主要有文獻調查和實地語料采錄。
實地語料采錄是本項目中期的主要任務。2104年是中期研究第一年,上半年完成一個方言的試點采錄,下半年將全面推開。
2013年1月至今,項目組調查研究的重心是語料采錄大綱,分字表、詞表、句表和語篇底本四種。如前所述,研制語料采錄大綱經歷了三步:查閱文獻擬草稿,征求意見定初稿,試驗檢驗后定稿。四類語料底本的具體調查研究如下。
3.1字表。定稿字表分單字表和雙字組表(用來調查連讀變調)。定稿單字表4012字,分音系例字(1-337)和同音字匯(338-4012)兩部分,統一編號。第1-96號為聲調例字,97-234為聲母例字,235-337為韻母例字;338-4012為同音字匯。每字攜帶反切上下字、中古韻攝、開合、等、聲、韻、調及北京聲韻調。其中3904-4012的109個字沒有古音信息。先后參加字表擬定的有項目組成員吳莉、肖萍、馮青青、王會、魏漢杰、唐志強、劉俐李。
雙字組表用來調查最基本的雙音節連讀變調規律。按照中古四聲八調設計,共542組。這些組合首先確保符合調類組合規則,其次考慮常用性和通用性,考慮到有的方言可能不只八個聲調,預留了可補空間。先后參加雙字組表擬定的有侯超、馮青青、劉俐李。
單字表的源表是項目組前期成果“現代漢語方言有聲數據庫”(2005-2012)的采錄字表,經歷了四次修訂。總字數由源表的4033字到草稿的4082字、初稿的4052字,定稿為4012字。
第一次修訂(2013年2月至10月)擬出草稿。修訂原則:一字一音一義,不收方言不說的字、發音人難以確認的字、冗余字、極度低頻字和語義不明字。做了四項修訂:驗核補字,刪重,修繕,補充各字的古音信息。我們用三種材料檢驗字表收字,一是42卷本方言詞典共有詞的用字,二是“現代漢語方言有聲數據庫”6000詞匯表用字,三是社科院語言所的詞匯調查表用字,然后刪重補漏,修訂源表用字、用例、注釋、讀音等方面的不當及錯漏。總字數由源表的4033增至4082。
第二次修訂(2013年12月)后確定初稿。廣州方言會議征求意見后,主要修正了有誤的古音和北京音信息,查補了80余字原缺的古音信息,增加了音系例字中的韻母例字,刪節了30個不易采錄到的字,給字表重新排序。總字數由草稿的4082減至4052。該稿用于試點采錄。
第三次修訂(2014年2月)后初步定稿。初稿在南京試錄后根據試驗結果再次修訂。主要工作:再次排查重復字,刪節書面語字、少用字、不便言說的字,多義字選其口語常用義,給無音韻地位的字重新排序。總字數由初稿的4052減至4012。
第四次(2014年5至6月)核對古音信息,定稿。依據丁聲樹、李榮《古今字音對照手冊》和社科院語言所《方言調查字表》,參照《廣韻》、《康熙字典》和郭錫良《漢字古音手冊》逐字核對修正或補充4012字的古音信息及北京音信息,共修正補充了34字的相關信息。
3.2 詞表。定稿詞表分核心詞、基礎詞和特征詞三個大類。前兩類是各方言共有詞,反映方言的共性,可用于方言間比較。特征詞各方言點不同,反映方言的個性。核心詞采用斯瓦迪士的200核心詞,序號1-200。基礎詞共5260條,序號201-5460;按語義分作29類,按類排序。特征詞每方言點各有專屬詞表,詞目在100-300之間,起始序號5461。
用來制定詞表的源表是項目組前期成果“現代漢語方言有聲數據庫”(2008-2012)的采錄詞表,有6020條核心詞和基礎詞,各方言特征詞100-400不等。6020條詞表是多重研究的結果,以三篇系統研究漢語方言詞匯的碩士學位論文(南京師范大學,2009)為主。該詞表含42卷本方言詞典的3877條方言共有詞(經碩士論文自建數據庫統計得出)。源詞表的收詞及數量基本符合本項目,但還需要打磨。源詞表經過三次修訂,總詞數由6020詞減至5886、5646(用于試點錄音),定稿詞表為5460詞。修訂工作主要有:(1)核定收詞單位,刪節語素,保留詞、短語詞和成語、慣用語;(2)核定并注釋詞義,給容易岐解的詞、不易準確理解的多義詞注釋詞義(取基本義),做到一詞一義;(3)核定詞性,做到一詞一種詞性;(4)刪節同義重復詞、生僻詞、已亡詞、近亡詞、書面語詞、方言中難有對應說法的詞,刪節借用常用名詞或動詞的量詞,如一房子人,一挑水,刪節重疊、兒化等變形詞;(5)分類及歸類;(6)編碼;(7)排序。2013年11月前擬草稿,主要工作是(1)-(4);2013年12月擬出初稿,以(4)-(7)為主;2014年1月后的再次修訂,主要查誤補漏,涉及(1)-(7)全部。
參加詞表修訂的有侯超、宋益丹、唐志強、滕菲、王會、魏漢杰、唐志強、劉俐李。
3.3 句表。有100語法例句。語法例句不是本項目語料重點,因為本庫各種類型的語篇能提供數量較大、類型較全、自然度較高的語法例句。但自然語篇的語法例句類型及其數量的平衡不易控制,故仍需做此項設計。100條語法例句涉及句法結構、句法成分、語序、句型、句類、體貌、復句和特殊格式,以方便方言之間的比較。句表草稿擬出后修訂了一次,即廣州會議后的修訂,南京試驗時未發現問題。擬制句表的有侯超、莫超。
3.4 語篇。這是本庫語料建設的主體,但可資參考的文獻很少。我們認為,口語語篇類型及據此而研制的語篇采錄模型是擬制語篇底本的關鍵。2013年1月,項目開題后即由王洪鐘擔綱,從語篇類型入手展開研究。5月13日擬出初
稿。項目負責人根據初稿再研究,8月13日擬出第二稿,然后提交方言組學者討論。8月27日擬出第三稿。第三稿結合說話人角色和語料類型進行語料平衡處理,設定各類話題編碼,形成語篇采錄模型。然后用具體語料填充該模型,制成語篇采錄表。語篇采錄表經廣州會議征求意見和南京試錄檢驗后,調整了一些話語方式,最終定稿。馮青青參與了具體語料的研制。
確定語篇類型依循三條原理:(1)注重語篇形式與語篇內容的統一及充實;(2)語篇形式應涵蓋本項目所涉及的各種因素;(3)語篇內容應包含人、自然、社會和話語四方面,因為語篇映射客觀世界,客觀世界的基本元素有人、自然和社會;語篇還是話語單位,應有話語的內涵。語篇設計遵循四項原則:(1)類型全,篇量足;(2)注重反映方言的語音、詞匯、語法、語篇特點,注重反映方言所承載的地域文化特征;(3)便于各方言語料對比;(4)便于發音人言說和錄音人錄制。
定稿語篇采錄底本分為三大類:文本語篇(按照文本脫稿言說生成)、即席語篇(順著話題即時言說生成)、自錄語篇(根據語境現場言說生成)。三類語篇的自然度依次遞增,即:文本語篇﹤即席語篇﹤自錄語篇,但錄制與標注的難度順序相反。文本語篇分六類,即席語篇有四類,自錄語篇有兩類。
四、學術會議
舉辦了重大項目開題論證會。
先期召開了開題預備會。2012年12月15日項目組在寧全體成員參加,主要討論項目負責人的開題總報告,五個子課題的分報告。重點討論了語料庫管理及研發語料處理軟件問題,GIS(地理信息系統)技術與方言語料對接問題,語篇類型設計、采錄、標注等問題。安排了論證會的學術準備與會務籌備。
2013年1月13日,開題論證會在南京師范大學隨園舉行。會議由中國社會科學院語言所侯精一研究員主持,出席會議的有上海師范大學潘悟云、復旦大學游汝杰、復旦大學陳忠敏、南京大學顧黔等五位教授,江蘇省社科規劃辦主任徐之順,還有南京師范大學副校長繆建東、社會科學處處長秦國榮、文學院院長駱冬青、副院長黨銀平等教授。項目負責人劉俐李教授做開題總報告,子課題負責人蘭州城市學院副院長莫超、浙江師范大學王洪鐘、南師大計算機學院副院長曲維光、南師大文學院顧文濤四教授作子課題開題報告,骨干成員南師大地科院龍毅教授就本項目與GIS的銜接作說明。各位評審專家就數據庫規范、標注工作量、音變規律研究等問題提出精要見解與建議。侯精一研究員
作總結,認為本項目有“很高的熱情,很硬的要求,很大的工作量”,建議“收縮任務”并提出具體指導意見。這些意見和建議中肯、切實,使項目建設更具操作性。
組織了重要學術會議的專場討論。
“全國漢語方言學會第十七屆學術年會暨漢語方言國際學術討論會”2013年12月12-15日在廣州召開,這是國內最高層次的方言學研討會。遵照會議籌委會組織重大項目專場討論的動議,項目組組織了一組論文參會。項目負責人作大會主題發言“第三代語料庫和方言語篇庫設計——‘漢語方言自然口語有聲基礎語料庫建設’的設計”。與之呼應的有分會場的學術報告“漢語方言長篇采錄語料的設計與思考”(王洪鐘)、“蘭銀官話自然口語庫中語法基礎語料的設計與思考”(莫超)、“漢語方言自然口語庫語法調查設計”(侯超)、“漢語方言自然口語庫語音采錄語料的思考”(肖萍)、“吳語敘述型語篇韻律研究方案”(宋益丹)。這些發言引起了會場內外的熱烈討論。項目組成員廣泛征求意見,同時利用會議間隙集體討論了研究內容、研究策略以及語料采錄大綱的修訂與分工。會后,項目負責人被推舉為全國方言學會學術委員。
再次組織重要學術會議的專場討論。
第十一屆中國語音學學術會議(PCC2014)將于2014年8月在新疆大學舉行。中國語言學會語音學分會會長鮑懷翹研究員授意項目負責人組織實驗方言學專場。項目組將以一組方言聲調實驗與數據處理策略的論文參會。劉俐李參會論文“方言聲調大樣本單體實驗的啟示”、侯超“基于語音實驗的調系規整方法再議”、宋益丹“漢語方言調長和調型的關系研究”。
五、學術交流
學術會議
2012年11月至2014年6月,項目組成員出席國際、國內重要學術會議32人次。主要會議有“全國漢語方言學會第十七屆學術年會暨漢語方言國際學術討論會”(2013年12月,廣州),“第七屆官話方言國際學術研討會”(2013年11月,合肥),“首屆語言類型學國際學術研討會暨第二屆方言語音與語法論壇”(2013年11月,常熟),“方言學國際高端論壇暨慶祝《方言》雜志創刊35周年學術討論會”(2013年9月,濟南),“阿爾泰語與西北漢語方言接觸學術研討會”(2013年8月,西寧),“第七屆國際吳方言學術研討會”(2012年11月,
金華),“當代語言科學創新與發展國際學術研討會”(2012年10月,徐州),“第二屆中國地理語言學國際學術研討會”(2012年10月,南京)。
學術講座
2012年10月至2014年6月,項目組成員應邀外出講座5人次。
2012年10月,莫超教授與張建軍副教授應邀在寶雞文理學院做“西北方言文言文獻中的“語助辭”專題講座。
2013年4月,張洋教授應邀在新疆維吾爾自治區黨校做“新疆語言與文化”學術講座。
2013年5月,張洋教授應邀在新疆大學方言研究中心做“新疆漢語方言的語音”專題講座。
2013年9月,顧文濤教授應邀在日本東京大學做“Prosodic analysis and perception of Mandarin attitudinal speech”講座。
2014年3月,顧文濤教授應邀在日本東京大學做“Quantitative analysis of prosodic errors in nonnative speech”講座。
六、成果宣傳推介情況
項目組雖未舉行專門的成果發布會,但已多次在國際和全國性學術會議上推介階段成果,尤其“全國漢語方言學會第十七屆學術年會暨漢語方言國際學術討論會”,與會學者300余人,項目組發布了一組有關方言口語語料庫設計的系列論文,引起關注,影響較大。項目負責人的主題報告“第三代語料庫和方言語篇庫設計——‘漢語方言自然口語有聲基礎語料庫建設’的設計”反響熱烈,當場即有學者表示贊同或贊譽。項目組成員還在“第七屆官話方言國際學術研討會”、“方言學國際高端論壇暨慶祝《方言》雜志創刊35周年學術討論會”等重要學術會議上推介本項目成果及方言研究數字化理念。
項目負責人在《中國社會科學院報》(2013年2月18日第A07版)撰文介紹方言研究數字化成果“漢語方言實驗工作系統”,編者將文章標題改為“‘方言實驗工作系統’使方言研究更科學”,并在文前加有編者按。本項目倡導并實踐的方言研究數字化已為國家社科規劃辦采納,列為2014年度國家社會科學基金項目語言學課題指南的第12號“方言研究數字化基礎建設研究”(項目負責人劉俐李2011年上報“國家哲學社會科學重大基礎理論研究選題建議”的題目是“方言研究數字化基礎建設”)。
二、研究成果情況
一、代表性成果
1.《漢語方言自然口語有聲基礎語庫語料采錄大綱》(8.76萬字)
這是本項目語料采錄大綱,也可供方言口語研究用。由三部分構成。
第一部分“錄制語料概覽”,用6張表列出采錄底本的結構、語料種類、數量,各類語料錄制時長、錄制方式,不同角色發音人的具體任務。
第二部分“基礎語料錄制底本”,分語音、詞匯、語法。語音部分有單字4012個,雙音節韻律詞542個。詞匯分核心詞(200)、基礎詞(5260,29類)、特征詞(100-300)。語法有100例句。
第三部分“語篇語料錄制底本”,分文本語篇、即席語篇、自錄語篇三種。文本語篇有六類,分全部方言通用與各方言特用兩種,提供錄制底本。即席語篇有四類,各類下含三至四種,提供話題及話題引導詞。自錄語篇兩種,提供場景說明及錄制要求。
創新之處主要是第三部分。此前的方言調查大綱多為字、詞、句,即本大綱的第二部分,未見語篇調查大綱。在已有研究成果中也有語篇,但數量少,尤其缺少自然口語語篇(即席語篇與自錄語篇)。本成果提供了成系統的口語語篇采錄底本,就我們目力所及,在漢語方言研究領域應是第一次。方言口語語篇采錄底本有助于推動方言口語甚至共同語口語的調查與研究。此外,詞表分核心詞、基礎詞、特征詞的三分結構,基礎詞的多重篩選,字表附古音信息,字表添加韻律詞等,具有一定新意,會更方便漢語方言的調查與研究。
2.《漢語方言口語有聲庫語料采制工作手冊》(2.36萬字)
這是規范項目組各項工作的指導文件,分“概述”和“工作規范”兩部分。
“概述”含研究目標、方言選點、語料結構、任務進度、責任分工五項。可使每位項目組成員把握項目整體,定位各自職責。
“工作規范”有三項:(1)資料規范;(2)采錄規范;(3)整理規范。
(1)資料規范:有補充采錄底本(文化語料及特征詞)規范和確定音系規范。提出具體要求(類型和數目)、指明途徑、規范工作步驟。
(2)采錄規范:有采錄對象規范、采錄內容規范、音頻采錄與處理規范、
視頻采錄與處理規范、拍照規范五項。指明采錄對象和采錄內容,提出技術要求并予以指導,如硬件型號、軟件版本、技術指標、操作程序及注意事項等。
(3)語料整理規范:含音頻和視頻剪輯、轉寫漢字、標注國際音標、字詞標注和復核、例句標注和復核、語篇標注、數據模板和數據字典、入庫數據語料包等八項操作規范。同時寫明各類軟件的使用方法、操作步驟與具體要求。
工作手冊是規范本項目各種研究程序的文件,也是方言語料數字化研究方法、研究方式與技術手段的集成。方言研究的數字化是本世紀方言研究的趨勢,是本項目建設的目標之一。該工作手冊有助于推進方言數字化研究方式與技術手段的推廣與普及。
3.《江陰方言新探》(18.6萬字)
該書采用多學科交叉的多元方法研究江陰方言。首先構建江陰方言有聲數據庫(附光盤),應用數據庫語料實驗研究江陰16鎮18方言點的聲調。根據實驗結果,將江陰方言分為五片。應用歷史語料與年齡差語料揭示江陰方言近20年的變化。描寫并比較江陰5方言片以及新派的常用詞和特征詞。有同音字匯、記音語法例句、方言故事和曲藝音頻。抽樣調查江陰的語言生態,多項綜合統計表明,近20年來江陰方言快速萎縮、普通話發展迅速,這與江陰人的語言態度密切相關。
著名方言學家、復旦大學游汝杰教授書評評價:“同時具備四項新內容的‘方言志’,《江陰方言新探》應該是第一部”。廈門大學李如龍教授認為“采取多學科交叉、多種方法綜合的研究便可使現代的方言學‘插翅’”。
該書是運用多學科交叉的數字化方法研究單點方言的一個成功案例,其模式對推進單點方言的數字化研究有參考意義。本項目單方言點的后期研究成果將以此書為參照。
二、成果清單
序號 |
成果名稱 |
作者 |
成果形式 |
刊物、出版社名稱及刊發、出版時間 |
字數 |
轉載、引用、獲獎等況 |
1 |
漢語方言自然口語有聲基礎語庫語料采錄大綱 |
項目組 |
著作(稿) |
未出版 |
8.76萬 |
|
2 |
漢語方言口語有聲庫語料采制工作手冊 |
項目組 |
報告類 |
未發表 |
2.36萬 |
|
3 |
江陰吳語新探 |
劉俐李 侯 超 |
著作 |
世界圖書出版公司北京公司,2013 |
18.6萬 |
有書評 |
4 |
中古陽聲韻韻尾在現代漢語方言中的讀音類型 |
張燕芬 |
論文 |
《語言研究》2012年4期 |
1.4萬 |
|
5 |
江陰吳語近二十年的變化 |
劉俐李 |
論文 |
《語言研究》2013年1期 |
0.84萬 |
人大《語言文字學》2013年5期全文轉 |
6 |
試析湖北通城方言的入聲韻尾 |
栗華益 |
論文 |
《語言研究》2013年3期 |
0.7萬 |
|
7 |
試析漢語方言入聲韻尾邊音化 |
栗華益 |
論文 |
《方言》2013年4期 |
1.57萬 |
|
8 |
浙江仙居吳語濁內爆音的語音學考察 |
宋益丹 |
論文 |
《方言》2014年2期 |
0.6萬 |
|
9 |
東干語(陜西支)聲調共時差異實驗研究 |
劉俐李 |
論文 |
《民族語文》2013年5期 |
1.18萬 |
|
10 |
哈密方言的“上”所起的格作用 |
熱西旦·馬力克、張洋 |
論文 |
《民族語文》2014年1期 |
0.8萬 |
|
11 |
“方言實驗工作系統”使方言研究更科學 |
劉俐李 |
論文 |
《中國社會科學報》2013年2月18日第A07版 |
0.25萬 |
|
12 |
海洋方言:漢語方言研究新視覺 |
陳曉錦 黃高飛 |
論文 |
《中國社會科學報》2014年4月14日第七版頭條,并在第一版有提要介紹 |
|
|
13 |
基于統計學習模型的句法分析方法綜述 |
吳偉成 周俊生 曲維光 |
論文 |
《中文信息學報》,2013年,第27卷,第3期,9-19 |
0.5萬 |
|
14 |
A Practical Method for Chinese All-Word Sense Tagging |
Fu Jia, Qu Weiguang |
論文 |
ICIC Express Letters, Part B: Application, Volume 3, Number 6, p 1459-1466, 2012 |
0.5萬 |
EI檢索 |
15 |
詞義歸納綜述 |
孫玉霞 曲維光 狄 穎 周俊生 |
論文 |
計算機科學,2014,第二期,23-32 |
0.5萬 |
|
16 |
江淮方言入聲時長變異實驗研究 |
劉俐李 |
論文 |
《中國語言學》第六輯北京大學出版社 2013 |
1.5萬 |
|
17 |
試析漢語方言入聲韻的元音尾化 |
栗華益 |
論文 |
《語文研究》2013年1期 |
2.16萬 |
|
18 |
實驗方言學理念與方法芻議——以《江陰方言新探》為例 |
唐志強 劉俐李 |
論文 |
《語文研究》2013年4期 |
0.4萬 |
|
19 |
試析漢語方言入聲韻元音分尾現象 |
栗華益 |
論文 |
《語言科學》2013年3期 |
1.6萬 |
|
20 |
甘肅境內的中原官話研究 |
莫 超 尹 雯 |
論文 |
《語言科學》2013年6期 |
1.80萬 |
|
21 |
績溪華陽話兩字組連讀變調分析 |
栗華益 |
論文 |
《中國語學研究·開篇》(日本)第31期(2012) |
0.94萬 |
|
22 |
江蘇高淳(淳溪鎮)方言音系 |
侯 超 |
論文 |
《中國語學研究·開篇》(日本)第32期(2013) |
0.94萬 |
|
23 |
哈密方言非音質特征表達的意義 |
張 洋 |
論文 |
《語言與翻譯》2013年3期 |
0.5萬 |
|
24 |
哈密方言“走”字句 |
張 洋 田云華 |
論文 |
《語言與翻譯》2014年3期 |
0.6萬 |
|
25 |
哈密方言的“下” |
張 洋 |
論文 |
《新疆社科論壇》 2012年5期 |
0.55萬 |
|
26 |
試論詞匯研究在海外漢語方言研究中的重要性 |
陳曉錦 |
論文 |
《暨南學報》(哲社版) 2013年9期 |
|
|
27 |
漢語詞綴的功能與皖北方言的”子”尾 |
侯 超 |
論文 |
《南京師范大學文學院學報》2012年3期 |
0.9萬 |
|
28 |
普通話態度語音的感知實驗研究 |
顧文濤 |
論文 |
《南京師范大學文學院學報》2013年9月 |
0.6萬 |
|
29 |
方言與網絡語言 |
侯 超 |
論文 |
《語文建設》2013年2期 |
0.25萬 |
|
30 |
宿遷方言古咸山攝舒聲字的今讀 |
馮青青 |
論文 |
《江蘇大學學報》 2013年2期 |
0.77萬 |
|
31 |
日照巨峰方言音系及其特點 |
馮青青 |
論文 |
《山東理工大學學報》 2014年1期 |
1.06萬 |
|
32 |
《西游記》中“筑”字形義考辨 |
顧勁松 |
論文 |
《鹽城師范學院學報(人文社會科學版)》2012年6期 |
0.55萬 |
|
33 |
鹽城方言古全濁上及濁去字的今讀 |
馮青青 |
論文 |
《鹽城師范學院學報(人文社會科學版)》 2014年1期 |
0.95萬 |
|
34 |
現代漢語“夠+A”格式研究 |
侯 超 |
論文 |
《常熟理工學院學報(人文社會科學版)》2012第9期 |
0.7萬 |
|
35 |
蘇屬江淮官話n、l分混狀況考察 |
顧勁松 |
論文 |
《常熟理工學院學報(人文社會科學版)》2013年5期 |
0.80萬 |
|
36 |
現代漢語方言詞匯研究綜述 |
顧勁松 |
論文 |
《蘇州科技學院學報(社會科學版)》2014年3期 |
0.90萬 |
|
37 |
從民俗中發掘方言語詞的特殊讀音——梅縣客方言為例 |
侯小英 |
論文 |
《嘉應學院學報》 2014年4期 |
0.74萬 |
|
38 |
Data acquisition and prosodic analysis for Mandarin attitudinal speech |
顧文濤 |
論文 |
East Flows the Great River: Festschrift in Honor of William S-Y Wang on his 80th Birthday,香港城市大學出版社,2013年8月 |
0.8萬 |
|
39 |
Rhythmic Patterns of Nonnative Mandarin Speech |
顧文濤 |
論文 |
日本音響學會2014年春季研究発表會論文集,2014年3月 |
0.3萬 |
|
40 |
Prosody of Mandarin affective speech by mentally retarded children |
顧文濤 |
論文 |
Proceedings of WASSS 2013年8月 |
0.4萬 |
|
41 |
東北、華北方言中后置原因標記“的事兒” |
梁曉玲 |
論文 |
《語文教學通訊》 2013年9期 |
0.5萬 |
|
42 |
哈密方言的復數詞綴“跟前” |
張 洋 |
論文 |
《新疆職業大學學報》 2012年6期 |
0.55萬 |
|
43 |
哈密方言的處所疑問代詞“哪達” |
張洋 田云華 |
論文 |
《新疆職業大學學報》 2014年3期 |
0.6萬 |
|
44 |
悉尼粵方言廣府話 |
陳曉錦 |
論文 |
《粵語研究》 2012年12月,澳門 |
|
|
45 |
東南亞華人社區漢語方言創新詞分析 |
陳曉錦 |
論文 |
《南方語言學》第五輯,暨南大學出版社,2013年 |
|
|
46 |
東南亞華人社區兄弟漢語方言的互借詞 |
陳曉錦 |
論文 |
《粵語研究》2013年6月,澳門 |
|
|
47 |
從語言接觸看粵語對廣州地區客家話的影響 |
陳曉錦 肖自輝 |
論文 |
《第十五屆粵方言研討會論文集》,澳門粵方言學會,2012年12月。 |
|
|
48 |
廣州的客家方言 |
陳曉錦 鄭 蕾 |
論文 |
《第九屆客家方言學術研討會論文集》,中央民族大學出版社,2013年1月 |
|
|
49 |
馬來西亞沙巴客家話借詞淺析 |
陳曉錦 卓俊霖 |
論文 |
《第九屆客家方言學術研討會論文集》,中央民族大學出版社,2013年1月 |
|
|