• <samp id="sgkyk"><pre id="sgkyk"></pre></samp>
    
    
    2025年4月7日 星期一

    舊版網(wǎng)站入口

    站內(nèi)搜索

    中國(guó)英漢平行語(yǔ)料庫(kù)的設(shè)計(jì)與研制

    王克非2013年04月23日09:03

    北京外國(guó)語(yǔ)大學(xué) 中國(guó)外語(yǔ)教育研究中心 

    提要:本文論述超大型雙語(yǔ)平行語(yǔ)料庫(kù)的設(shè)計(jì)與研制問(wèn)題。在綜合述介國(guó)內(nèi)外雙語(yǔ)語(yǔ)料庫(kù)建設(shè)情況之后,作者著重論述了中國(guó)英漢平行語(yǔ)料庫(kù)這一超大型雙語(yǔ)平行語(yǔ)料庫(kù)的設(shè)計(jì)特點(diǎn)(主要有分類架構(gòu)、歷時(shí)處理、語(yǔ)料平衡以及通用的和各種專門語(yǔ)料的采集)和研制方法(主要講述語(yǔ)料的加工標(biāo)注、檢索平臺(tái)以及各個(gè)專門語(yǔ)料庫(kù)、歷時(shí)語(yǔ)料庫(kù)和口譯語(yǔ)料庫(kù)的構(gòu)建)。其設(shè)計(jì)與研制對(duì)于其他大型語(yǔ)料庫(kù)的建設(shè)具有借鑒意義。

    關(guān)鍵詞:中國(guó)英漢平行語(yǔ)料庫(kù);設(shè)計(jì);研制

    Abstract: The paper deals with the design and construction of a super-large-scale bilingual parallel corpus. After an overview of parallel corpora constructions and applications both in China and abroad, the design features (including classification and composition, diachronical arrangement, balance of textual materials, and collection of texts for general or specific purposes) and the construction methods (including tagging, concordance platform, and the construction of specialized corpora, diachronical corpora and interpreting corpora) of the super-large-scale China English-Chinese Parallel Corpus (CECPC) are focused on. The design and construction discussed are applicable to the compiling of other large-scale corpora.

    Keywords: China English-Chinese Parallel Corpus (CECPC); design; construction

    1、中國(guó)英漢平行語(yǔ)料庫(kù)的研制意義

    在全球化、信息化的當(dāng)今世界,翻譯已成為了解全球信息、擴(kuò)大對(duì)外宣傳、獲取國(guó)際資源的重要手段。同計(jì)算機(jī)技術(shù)結(jié)合而興起的雙語(yǔ)平行語(yǔ)料庫(kù)建設(shè),則為語(yǔ)言研究、翻譯研究、外語(yǔ)教學(xué)、詞典編纂和跨語(yǔ)言信息檢索等提供了最好的平臺(tái),同時(shí)還可用來(lái)考察和驗(yàn)證基于單語(yǔ)語(yǔ)料庫(kù)或者基于直覺(jué)提出的假設(shè),具有廣闊的應(yīng)用前景。

    平行語(yǔ)料庫(kù)承載著相互對(duì)應(yīng)的兩種語(yǔ)言,與語(yǔ)言對(duì)比研究有著天然的聯(lián)系,成為語(yǔ)言對(duì)比研究中的默認(rèn)數(shù)據(jù)源;平行語(yǔ)料庫(kù)中的兩種語(yǔ)言互為對(duì)應(yīng),記載著兩種語(yǔ)言中的對(duì)應(yīng)詞和對(duì)應(yīng)單位,成為詞典編纂者最可靠的數(shù)據(jù)來(lái)源;平行語(yǔ)料庫(kù)中的源語(yǔ)言和目標(biāo)語(yǔ)言互為對(duì)應(yīng),在翻譯教學(xué)和外語(yǔ)學(xué)習(xí)中的用途更是不言而喻。

    除此之外,平行語(yǔ)料庫(kù)對(duì)機(jī)器翻譯和自然語(yǔ)言處理也極為重要。對(duì)齊的平行語(yǔ)料能為基于例句和統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)提供實(shí)證模型,同時(shí)也可以為基于規(guī)則的機(jī)器翻譯提供驗(yàn)證規(guī)則,為機(jī)助翻譯提供大量翻譯記憶。正如歐赫(Och 2002)所言,“只要給我足夠的雙語(yǔ)對(duì)應(yīng)數(shù)據(jù),幾個(gè)小時(shí)內(nèi)我可以給你一個(gè)機(jī)器翻譯系統(tǒng)”。然而現(xiàn)有的英漢平行語(yǔ)料庫(kù)規(guī)模有限,且大多是利用現(xiàn)有同質(zhì)翻譯資源建立的,并非平衡語(yǔ)料庫(kù),常常不能較好地代表廣泛含義上的源語(yǔ)—譯語(yǔ)關(guān)系,依此生成的語(yǔ)言模型常常不能夠有效地解釋翻譯語(yǔ)言,這極大地阻礙了翻譯和詞典編纂等學(xué)科研究的深入,已成為提高機(jī)器翻譯譯文質(zhì)量的瓶頸。

    鑒于此,我們提出設(shè)計(jì)和研制更大規(guī)模、更多功能的超大型平行語(yǔ)料庫(kù),即一億詞以上的“中國(guó)英漢平行語(yǔ)料庫(kù)”,以滿足各方面研究的需求和語(yǔ)料庫(kù)事業(yè)的發(fā)展。

    中國(guó)英漢平行語(yǔ)料庫(kù)的研制意義可從以下兩方面體現(xiàn)出來(lái)。

    第一,理論價(jià)值:

    1)由于大型雙語(yǔ)平行語(yǔ)料庫(kù)規(guī)模超大、采樣嚴(yán)格,能夠較好地代表源語(yǔ)—譯語(yǔ)關(guān)系,因此能為翻譯研究、語(yǔ)言對(duì)比研究、語(yǔ)言演化研究、口筆譯比較研究等提供可靠的翻譯實(shí)例和量化數(shù)據(jù),從而提高上述研究的可信度。

    2)在超大型雙語(yǔ)平行語(yǔ)料庫(kù)建設(shè)的基礎(chǔ)上,我們還將展開多項(xiàng)具有理論意義的語(yǔ)言和翻譯研究。這些研究主要包括歷時(shí)研究、類比動(dòng)態(tài)描寫。研究分析時(shí)間跨度大,涉及層面多。

    第二,應(yīng)用價(jià)值:

    1)在研究方法上,我們將據(jù)此探索基于語(yǔ)料庫(kù)的翻譯語(yǔ)言動(dòng)態(tài)類比和描述,為語(yǔ)言的共時(shí)與歷時(shí)比較研究提供有效的、可操作性強(qiáng)的分析模式和研究平臺(tái)。

    2)在大型雙語(yǔ)平行語(yǔ)料庫(kù)的采樣和加工方面,將提出更有借鑒價(jià)值的模板和方法。

    總之,“中國(guó)英漢平行語(yǔ)料庫(kù)”這一超大規(guī)模的英漢/漢英平衡語(yǔ)料庫(kù),為今后其他語(yǔ)對(duì)的雙語(yǔ)平行語(yǔ)料庫(kù)或多語(yǔ)平行語(yǔ)料庫(kù)的研制、雙語(yǔ)對(duì)比與研究、英漢語(yǔ)言接觸與現(xiàn)代漢語(yǔ)歷時(shí)變化研究等,提供共同的大型的實(shí)證研究基礎(chǔ),為中國(guó)的語(yǔ)料庫(kù)研究走向世界前沿作出貢獻(xiàn)。

    2、國(guó)內(nèi)外雙語(yǔ)平行語(yǔ)料庫(kù)研制現(xiàn)狀

    平行語(yǔ)料庫(kù)的研制歷史并不長(zhǎng),從世界上第一個(gè)初步的平行語(yǔ)料庫(kù)The Canadian Hansard Corpus (包括英法語(yǔ)版本的加拿大議會(huì)辯論語(yǔ)料)到目前僅二十年左右。但由于平行語(yǔ)料庫(kù)對(duì)于語(yǔ)言對(duì)比研究、翻譯研究、翻譯教學(xué)、翻譯技術(shù)開發(fā)(如機(jī)器翻譯系統(tǒng)、機(jī)輔翻譯工具)、雙語(yǔ)詞典編纂等語(yǔ)言學(xué)和自然語(yǔ)言處理研究具有巨大的潛在應(yīng)用價(jià)值,平行語(yǔ)料庫(kù)的建設(shè)在世界上得到迅速發(fā)展(參見王克非等2004,McEnery & Xiao 2007)。目前,平行語(yǔ)料庫(kù)研究大多集中在歐洲,涉及語(yǔ)言也主要與歐洲語(yǔ)言有關(guān),特別是歐共體/歐盟等機(jī)構(gòu)的文件。

    如蘭卡斯特大學(xué)早期創(chuàng)建的ITU/Crater平行庫(kù)包含歐洲委員會(huì)有關(guān)電信的英法雙語(yǔ)文件各一百萬(wàn)詞,在句級(jí)對(duì)齊。

    歐洲委員會(huì)聯(lián)合研究中心的JRC-ACQUIS多語(yǔ)種平行語(yǔ)料庫(kù)包括成員國(guó)的22種歐洲語(yǔ)言,目前的3.0版包括五十年代至2006年的歐洲法律文件463,792個(gè),共計(jì)十億詞。

    歐洲人類語(yǔ)言技術(shù)研究網(wǎng)絡(luò)(ELSNET)1994年發(fā)布的歐洲語(yǔ)料庫(kù)規(guī)范多語(yǔ)種語(yǔ)料庫(kù)1期 (ECI/MCI)包括27種語(yǔ)言(主要是歐洲語(yǔ)言,也包括漢語(yǔ)、日語(yǔ)和馬來(lái)語(yǔ)),以官方文件為主,但也包括少量的報(bào)紙、小說(shuō)、技術(shù)報(bào)告、詞典和詞表;該庫(kù)共48部分,共計(jì)9,800萬(wàn)詞,其中12個(gè)部分包含有平行語(yǔ)料。

    MULTEXT語(yǔ)料庫(kù)是由歐洲語(yǔ)言資源協(xié)會(huì)資助的項(xiàng)目,其目的是開發(fā)多語(yǔ)種工具和語(yǔ)料庫(kù);該語(yǔ)料庫(kù)包括采樣于歐洲委員會(huì)官方雜志(JOC)的五種語(yǔ)言各40個(gè)文檔,句級(jí)對(duì)齊,其中10個(gè)文檔還作了詞性標(biāo)注。

    PAROLE語(yǔ)料庫(kù)包括歐洲14種語(yǔ)言,采樣年代為1997-1998,文本來(lái)源包括書籍(20%),報(bào)紙(65%),雜志(5%),以及雜類文本(10%),共計(jì)2,000萬(wàn)詞,每個(gè)子庫(kù)中25萬(wàn)詞按照統(tǒng)一標(biāo)準(zhǔn)作了詞性標(biāo)注。

    多語(yǔ)種語(yǔ)料庫(kù)合作(MLCC)項(xiàng)目建立了一個(gè)多語(yǔ)種平行語(yǔ)料庫(kù),包括九種歐洲語(yǔ)言,語(yǔ)料來(lái)源為上述提到的歐洲委員會(huì)官方雜志1992-1994年的文本。

    愛丁堡大學(xué)的Europarl Parallel Corpus收集了1996-2009年間歐洲議會(huì)會(huì)議記錄,涉及11種語(yǔ)言,以雙語(yǔ)平行的形式發(fā)布,句級(jí)對(duì)齊,丹麥語(yǔ)、德語(yǔ)、希臘語(yǔ)、西班牙語(yǔ)、芬蘭語(yǔ)、法語(yǔ)、意大利語(yǔ)、荷蘭語(yǔ)、葡萄牙語(yǔ)、瑞典語(yǔ)分別與英語(yǔ)對(duì)應(yīng),共約5千萬(wàn)詞(以英語(yǔ)計(jì))(Koehn 2005)。

    上述這些語(yǔ)料庫(kù)基本上都是文本來(lái)源單一、標(biāo)注也簡(jiǎn)單的歐洲語(yǔ)言專用語(yǔ)料庫(kù),主要用于語(yǔ)言識(shí)別、文檔級(jí)對(duì)齊、術(shù)語(yǔ)提取等自然語(yǔ)言處理研究,而非從語(yǔ)言學(xué)角度研究語(yǔ)言(參見Xiao 2008)。

    除此之外,也有少數(shù)幾個(gè)精心設(shè)計(jì)的平行語(yǔ)料庫(kù),如由挪威奧斯陸大學(xué)研制的最早的英語(yǔ)—挪威語(yǔ)平行語(yǔ)料庫(kù),包含英語(yǔ)和挪威語(yǔ)各100個(gè)1-1.5萬(wàn)詞的英-挪對(duì)應(yīng)母語(yǔ)文本及其挪-英翻譯文本,共260萬(wàn)詞,語(yǔ)料采樣考慮到平衡性而非局限于少數(shù)幾個(gè)語(yǔ)域或語(yǔ)體,涉及小說(shuō)(兒童小說(shuō)、偵探小說(shuō)、一般小說(shuō))和非小說(shuō)(宗教、社會(huì)科學(xué)、法律、自然科學(xué)、醫(yī)學(xué)、藝術(shù)、歷史地理)。該語(yǔ)料庫(kù)不僅在句子層面對(duì)齊,而且對(duì)英挪語(yǔ)料均作了詞性標(biāo)注和詞形還原(lemmatisation)處理。

    英語(yǔ)—瑞典語(yǔ)平行語(yǔ)料庫(kù)則是采用英語(yǔ)-挪威語(yǔ)平行語(yǔ)料庫(kù)的建庫(kù)標(biāo)準(zhǔn)、由隆德大學(xué)(Lund University)和哥特堡大學(xué)聯(lián)合研制的平衡語(yǔ)料庫(kù),包括64個(gè)英語(yǔ)原文文本及其瑞典語(yǔ)譯文和72個(gè)瑞典語(yǔ)原文文本及其英語(yǔ)譯文,共計(jì)280萬(wàn)詞。

    在這兩個(gè)語(yǔ)料庫(kù)的基礎(chǔ)上,近年來(lái)奧斯陸大學(xué)又以同樣標(biāo)準(zhǔn)開發(fā)了奧斯陸多語(yǔ)種語(yǔ)料庫(kù)(OMC),除了英語(yǔ)、挪威語(yǔ)、瑞典語(yǔ)外還涉及到了德語(yǔ)、法語(yǔ)、荷蘭語(yǔ)、芬蘭語(yǔ)、和葡萄牙語(yǔ)。這些精心設(shè)計(jì)的平行語(yǔ)料庫(kù)適合于翻譯與跨語(yǔ)言對(duì)比等研究,但局限于歐洲語(yǔ)言。

    歐洲語(yǔ)言之外的平行語(yǔ)料庫(kù),包括漢語(yǔ)在內(nèi),還不多見,精心設(shè)計(jì)的大型平衡語(yǔ)料庫(kù)則更少。主要有蘭卡斯特大學(xué)研制的英國(guó)少數(shù)民族語(yǔ)料庫(kù)EMILLE,包含了十五種南亞語(yǔ)言口語(yǔ)及書面語(yǔ)料近一億詞,其中平行語(yǔ)料庫(kù)部分包含20萬(wàn)詞的英語(yǔ)文本及印地語(yǔ)、孟加拉語(yǔ)、旁遮普語(yǔ)、古吉拉特語(yǔ)及烏爾都語(yǔ)平行對(duì)應(yīng)文本。語(yǔ)言數(shù)據(jù)聯(lián)盟(LDC)于2004年發(fā)行了香港平行文本庫(kù)(Hong Kong Parallel Text),包括590萬(wàn)詞的英語(yǔ)文本和980萬(wàn)字的漢語(yǔ)文本,英漢文本句級(jí)對(duì)齊;該庫(kù)由2000年所發(fā)行的三個(gè)英漢平行語(yǔ)料庫(kù)組成:香港法律辯論語(yǔ)料庫(kù)、香港法律語(yǔ)料庫(kù)、香港新聞?wù)Z料庫(kù)。英國(guó)蘭卡斯特大學(xué)創(chuàng)建的Babel英漢平行語(yǔ)料庫(kù)由從《英語(yǔ)世界》等刊物采樣的327篇英漢雙語(yǔ)時(shí)文構(gòu)成,采樣年代為2000-2001年,共計(jì)54萬(wàn)詞;該庫(kù)實(shí)現(xiàn)句級(jí)對(duì)齊,并對(duì)英漢語(yǔ)文本都進(jìn)行了分詞和詞性標(biāo)注。臺(tái)灣輔仁大學(xué)初步建立了范本財(cái)經(jīng)英日漢平行語(yǔ)料庫(kù),收集語(yǔ)料約10萬(wàn)句對(duì)。最近,香港理工大學(xué)和北京外國(guó)語(yǔ)大學(xué)的學(xué)者聯(lián)合研制了英漢旅游文本語(yǔ)料庫(kù),約100萬(wàn)字詞(參見李德超、王克非 2010)。

    在我國(guó)內(nèi)地,雙語(yǔ)平行語(yǔ)料庫(kù)的建設(shè)近十年來(lái)也取得了重大進(jìn)展,已有多個(gè)英漢及日漢等雙語(yǔ)平行語(yǔ)料庫(kù)建成。如北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所的漢英平行語(yǔ)料庫(kù)(5萬(wàn)多句對(duì))及其所承擔(dān)的863項(xiàng)目所建的英漢平行語(yǔ)料庫(kù)(20萬(wàn)句對(duì)),哈爾濱工業(yè)大學(xué)的英漢雙語(yǔ)語(yǔ)料庫(kù)(40-50萬(wàn)句對(duì))。不過(guò)這些語(yǔ)料庫(kù)有一個(gè)共同之處,即建庫(kù)目的主要是自然語(yǔ)言處理而非語(yǔ)言學(xué)研究,因此所謂的句對(duì)通常是脫離上下文、打亂次序的孤立的句子,英譯漢與漢譯英語(yǔ)料夾雜,用戶不易識(shí)別翻譯方向。另外,國(guó)內(nèi)近年來(lái)也建成了一些專門用途語(yǔ)料庫(kù),如上海交通大學(xué)的莎士比亞戲劇英漢平行語(yǔ)料庫(kù),燕山大學(xué)的紅樓夢(mèng)譯本平行語(yǔ)料庫(kù),紹興學(xué)院的魯迅小說(shuō)漢英平行語(yǔ)料庫(kù)等。這些語(yǔ)料庫(kù)因?yàn)槭菍iT性的,語(yǔ)料來(lái)源單一,規(guī)模比較小,適合專門研究而不適合通用語(yǔ)言研究。

    國(guó)內(nèi)學(xué)界平行語(yǔ)料庫(kù)研制方面最值得一提的是,2002年以來(lái),北京外國(guó)語(yǔ)大學(xué)中國(guó)外語(yǔ)教育研究中心先后在教育部人文社科重點(diǎn)研究基地重大項(xiàng)目基金和國(guó)家社科基金的支持下,建成了規(guī)模約三千萬(wàn)字詞的大型通用漢英平行語(yǔ)料庫(kù),是目前最大規(guī)模的平衡語(yǔ)料庫(kù),包括英譯漢和漢譯英雙向翻譯語(yǔ)料,而且采樣均衡,語(yǔ)體、語(yǔ)域及采樣年代覆蓋面廣,全庫(kù)實(shí)現(xiàn)句級(jí)對(duì)齊及詞性標(biāo)注。其中部分語(yǔ)料(200余萬(wàn)字詞)已提供在線檢索,為全社會(huì)服務(wù)。在該語(yǔ)料庫(kù)基礎(chǔ)上開展了一系列課題研究,如語(yǔ)料庫(kù)研制方面的研究(王克非等2004,常寶寶2004,等)、基于語(yǔ)料庫(kù)的翻譯學(xué)研究(秦洪武、王克非2004,王克非、黃立波2006,2008,王克非、胡顯耀2008,2010等)、基于語(yǔ)料庫(kù)的對(duì)比語(yǔ)言研究(秦洪武2009,王克非、秦洪武 2009,何文忠、王克非2009,秦洪武、王克非 2010)等。總之,該語(yǔ)料庫(kù)為超大型的中國(guó)英漢平行語(yǔ)料庫(kù)的建設(shè)提供了重要的語(yǔ)料庫(kù)基礎(chǔ)和相關(guān)研究基礎(chǔ),積累了研制大型平行語(yǔ)料庫(kù)的經(jīng)驗(yàn)。

    上面對(duì)國(guó)內(nèi)外研究現(xiàn)狀的簡(jiǎn)述表明,平行語(yǔ)料庫(kù)研究目前主要涉及歐洲語(yǔ)言,而且歐盟機(jī)構(gòu)和歐洲國(guó)家的研究基金愿意在該領(lǐng)域投入大量研究經(jīng)費(fèi)。現(xiàn)有涉及英語(yǔ)和漢語(yǔ)的雙語(yǔ)語(yǔ)料資源現(xiàn)狀與這一“大語(yǔ)種”語(yǔ)對(duì)的地位還不相稱,與研究的需要也不相適應(yīng),亟需一個(gè)大型、平衡的英漢雙向平行語(yǔ)料庫(kù),使之成為既適用于自然語(yǔ)言處理與語(yǔ)言工程,又能應(yīng)用于英漢語(yǔ)言對(duì)比研究(包括共時(shí)與歷時(shí)對(duì)比)和翻譯研究、翻譯教學(xué)與實(shí)踐、雙語(yǔ)詞典編纂的共同研究平臺(tái),以便從不同角度展開的研究能真正揭示語(yǔ)言的本質(zhì),避免由于不同研究使用不同數(shù)據(jù)而造成的差異。我們希望通過(guò)研制這個(gè)中國(guó)英漢平行語(yǔ)料庫(kù),并在此基礎(chǔ)上開展上述各項(xiàng)研究,使中國(guó)的雙語(yǔ)平行語(yǔ)料庫(kù)研制與加工走在世界前列。

    3、中國(guó)英漢平行語(yǔ)料庫(kù)設(shè)計(jì)架構(gòu)

    我們?cè)谑昵皠?chuàng)建漢英對(duì)應(yīng)語(yǔ)料庫(kù)的基礎(chǔ)上(參見王克非 2004),開始研制超大型英漢平行語(yǔ)料庫(kù)——“中國(guó)英漢平行語(yǔ)料庫(kù)”,包括歷時(shí)性的平衡語(yǔ)料庫(kù)和若干專門語(yǔ)料庫(kù)以及口譯語(yǔ)料庫(kù)。在此基礎(chǔ)上我們將進(jìn)一步開展1)平行語(yǔ)料庫(kù)深加工與標(biāo)注研究、對(duì)齊檢索等工具研究,2)英漢語(yǔ)言對(duì)比、英漢互譯、語(yǔ)言接觸與漢語(yǔ)歷時(shí)發(fā)展等方面的研究,3)專門語(yǔ)料庫(kù)和口譯語(yǔ)料庫(kù)的建庫(kù)類型與特點(diǎn)研究,4)建庫(kù)過(guò)程中的語(yǔ)料采樣標(biāo)準(zhǔn),數(shù)據(jù)源標(biāo)示等標(biāo)準(zhǔn)類研究。

    3.1 總體框架

    本項(xiàng)目設(shè)計(jì)的超大型英漢平行語(yǔ)料庫(kù),是研制與加工并重、語(yǔ)言研究與翻譯研究并重的語(yǔ)料庫(kù),是兼顧筆譯和口譯文本、兼顧文本共時(shí)和歷時(shí)研究的語(yǔ)料庫(kù),力求設(shè)計(jì)科學(xué),分類合理,加工到位。注重以下特點(diǎn)和要點(diǎn):超大規(guī)模、深度加工、多項(xiàng)檢索、軟件兼容、語(yǔ)料平衡、雙語(yǔ)雙向、共時(shí)歷時(shí)、通用專門、筆譯口譯。

    3.2 主要內(nèi)容

    1)提出科學(xué)的語(yǔ)料采集方法,使雙語(yǔ)語(yǔ)料的采集既符合隨機(jī)、真實(shí)的原則,又比較對(duì)應(yīng)、完整和具有一定代表性,便于今后語(yǔ)言、翻譯、教學(xué)等研究工作的開展。

    2)進(jìn)一步優(yōu)化雙語(yǔ)語(yǔ)料的對(duì)齊、標(biāo)注問(wèn)題,研制過(guò)程中開發(fā)和改進(jìn)相關(guān)軟件,探討適合漢語(yǔ)詞語(yǔ)切分和標(biāo)注的理論與方法,嘗試英漢專門語(yǔ)料和英漢口譯語(yǔ)料等特殊語(yǔ)料的標(biāo)注和檢索,為有深度的語(yǔ)料檢索打好基礎(chǔ)。

    3)探討優(yōu)化雙語(yǔ)平行語(yǔ)料庫(kù)的分類和架構(gòu),擬分文學(xué)、新聞、政論、科技、應(yīng)用文等五大類和若干子類,使之更適合建成后的語(yǔ)言與翻譯研究。

    4)研制適用基于語(yǔ)料庫(kù)的語(yǔ)言與翻譯歷時(shí)研究的檢索平臺(tái),充分發(fā)掘雙語(yǔ)語(yǔ)料庫(kù)的研究潛力。

    5)合理架構(gòu)英漢/漢英雙向語(yǔ)料,大致按英漢2/3、漢英1/3的原則收集。

    6)注意語(yǔ)料的時(shí)代標(biāo)志,擬將整個(gè)20世紀(jì)的對(duì)應(yīng)語(yǔ)料的一部分做歷時(shí)處理,在收集整理和標(biāo)注加工方面,注意每20年為一階段,重點(diǎn)收集各階段后五年或某五年的相關(guān)語(yǔ)料,以便開展歷時(shí)的語(yǔ)言變化研究及語(yǔ)言與翻譯的關(guān)系研究。

    就待建語(yǔ)料庫(kù)的構(gòu)架設(shè)計(jì)而言,為了兼顧語(yǔ)言研究和自然語(yǔ)言處理等語(yǔ)言工程的不同需要,并考慮到對(duì)一般語(yǔ)言和專門用途語(yǔ)言的研究需要,該庫(kù)將由通用型的平衡語(yǔ)料庫(kù)和專用型的特定語(yǔ)域的專門語(yǔ)料庫(kù)構(gòu)成,兩者大致各占一半。其中通用平衡庫(kù)約5000萬(wàn)字詞,兼顧共時(shí)與歷時(shí)及翻譯方向的平衡性。

    語(yǔ)料的共時(shí)平衡是指從語(yǔ)言實(shí)際應(yīng)用的角度,按一定比例包括盡可能多的語(yǔ)體和語(yǔ)域。“中國(guó)英漢平行語(yǔ)料庫(kù)”擬采用國(guó)際語(yǔ)料庫(kù)語(yǔ)言學(xué)界研制Lancaster-Olso-Bergen (LOB)等經(jīng)典語(yǔ)料庫(kù)的方法,按文本類別采樣后整合。但考慮到那些經(jīng)典英語(yǔ)語(yǔ)料庫(kù)在實(shí)際應(yīng)用過(guò)程中常常將建庫(kù)時(shí)分類過(guò)細(xì)的語(yǔ)體按大類合并檢索分析,我們將直接按五大類體裁采樣:文學(xué)、新聞、政論、科技、應(yīng)用文。各大類采樣時(shí)再兼顧小類的均衡性,如文學(xué)類中的小說(shuō)、戲曲等;新聞中的報(bào)道、綜述等,科技類的書籍與期刊等介質(zhì)、以及文理工農(nóng)醫(yī)等特定語(yǔ)域,等等。

    語(yǔ)料的歷時(shí)平衡是指從現(xiàn)代漢語(yǔ)發(fā)展的實(shí)際情況出發(fā),分段采樣以便所建語(yǔ)料庫(kù)能反映出現(xiàn)代漢語(yǔ)的發(fā)展軌跡,并在英漢平行語(yǔ)料庫(kù)的基礎(chǔ)上探究英漢語(yǔ)語(yǔ)言接觸及英語(yǔ)通過(guò)翻譯對(duì)漢語(yǔ)發(fā)展產(chǎn)生的影響。我們將克服英國(guó)國(guó)家語(yǔ)料庫(kù)(BNC)由于歷時(shí)連續(xù)采樣而造成的各階段差異模糊的缺陷,擬將二十世紀(jì)的平衡語(yǔ)料的一部分,大致分五個(gè)階段,重點(diǎn)收集各階段某五年的語(yǔ)料,各100-300百萬(wàn)字詞,計(jì)1000萬(wàn)字詞以上,總的平衡語(yǔ)料庫(kù)為5000萬(wàn)字詞以上。

    就翻譯方向而言,考慮到我國(guó)翻譯界的實(shí)際情況是英譯漢多于漢譯英,并且前者質(zhì)量高于后者,“中國(guó)英漢平行語(yǔ)料庫(kù)”將包括三分之二的英譯漢語(yǔ)料和三分之一的漢譯英語(yǔ)料。英漢對(duì)比部分主要指在所建平衡語(yǔ)料庫(kù)的基礎(chǔ)上研究英語(yǔ)和漢語(yǔ)這兩個(gè)不同語(yǔ)系的國(guó)際大語(yǔ)種之間在總體上的相同和相異之處,同時(shí)考慮兩種語(yǔ)言在不同語(yǔ)體之間的異同;語(yǔ)言對(duì)比的另一個(gè)方面是比較對(duì)應(yīng)的漢(英)語(yǔ)母語(yǔ)文本和漢(英)語(yǔ)譯文文本,以檢驗(yàn)?zāi)壳皣?guó)際上翻譯共性研究領(lǐng)域基于小型對(duì)應(yīng)語(yǔ)料庫(kù)所做出的假設(shè),在理論上做出新的探索。

    4、中國(guó)英漢平行語(yǔ)料庫(kù)的研制

    研制工作主要涉及語(yǔ)料庫(kù)設(shè)計(jì)、語(yǔ)料收集、語(yǔ)料加工、語(yǔ)料庫(kù)檢索工具的設(shè)計(jì)、基于語(yǔ)料庫(kù)的研究、語(yǔ)料庫(kù)在線檢索六個(gè)部分。

    4.1 研制上的簡(jiǎn)要描述

    語(yǔ)料庫(kù)設(shè)計(jì)

    語(yǔ)庫(kù)規(guī)模:1億字/詞以上

    語(yǔ)庫(kù)架構(gòu):1)通用英漢平行語(yǔ)料庫(kù)5000萬(wàn)字詞;2)專門英漢平行語(yǔ)料庫(kù)5000多萬(wàn)字詞,分交通英漢平行語(yǔ)料庫(kù),時(shí)政新聞?dòng)h平行語(yǔ)料庫(kù),財(cái)經(jīng)英漢平行語(yǔ)料庫(kù)和口譯語(yǔ)料庫(kù))

    語(yǔ)庫(kù)性質(zhì):雙語(yǔ)庫(kù),平行庫(kù);通用和專門,共時(shí)和歷時(shí),筆譯和口譯

    語(yǔ)料類型:書面語(yǔ)料為主,口譯語(yǔ)料為輔

    語(yǔ)料分類:分文學(xué)、新聞、政論、科技、應(yīng)用文等五大類體裁

    翻譯語(yǔ)向:英漢(2/3)和漢英(1/3)雙語(yǔ)雙向

    語(yǔ)料收集

    語(yǔ)料收集的原則:按照年代收集,跨度為一個(gè)世紀(jì)的英漢雙語(yǔ)語(yǔ)料,并注意各階段語(yǔ)料在數(shù)量和質(zhì)量上的大體均等。

    語(yǔ)料的體裁:通用語(yǔ)料庫(kù)考慮平衡性,借鑒國(guó)外平衡語(yǔ)料庫(kù)的建構(gòu)方法,按照五大體裁分類收集語(yǔ)料。

    語(yǔ)料加工

    元信息的設(shè)計(jì):按照語(yǔ)料的來(lái)源、年代、語(yǔ)域、題材等設(shè)計(jì)多維元信息標(biāo)簽,包括語(yǔ)料庫(kù)中英文名稱、所采集樣本的發(fā)生年代、語(yǔ)體、翻譯方向、原始數(shù)據(jù)篇名、作者、譯者、責(zé)任方(數(shù)據(jù)采樣人等信息)

    對(duì)齊方式:句對(duì)齊

    標(biāo)注:實(shí)施詞性標(biāo)注,根據(jù)研究需要嘗試對(duì)部分語(yǔ)料實(shí)施中英文句法標(biāo)注;視研究條件嘗試翻譯技巧信息的人工識(shí)別和標(biāo)注;人工識(shí)別翻譯對(duì)等語(yǔ)塊。

    存貯方式:采用tmx格式的xml標(biāo)記語(yǔ)言,統(tǒng)一碼UTF-8編碼,以便于存儲(chǔ)與交換;便于讀入數(shù)據(jù)庫(kù),也便于檢索和機(jī)器翻譯系統(tǒng)的直接利用。

    語(yǔ)料庫(kù)檢索工具的設(shè)計(jì)

    檢索工具擬綜合利用Perl和C等語(yǔ)言的優(yōu)勢(shì),充分利用元信息,針對(duì)不同用戶,提供簡(jiǎn)單檢索、復(fù)雜檢索和有條件檢索,包括實(shí)施較精確的詞匯、語(yǔ)塊檢索,實(shí)現(xiàn)搭配信息的呈現(xiàn)。

    基于語(yǔ)料庫(kù)的研究:

    主要包括:a)基于語(yǔ)料庫(kù)的英漢語(yǔ)對(duì)比研究;b)基于語(yǔ)料庫(kù)的歷時(shí)翻譯研究;c)基于語(yǔ)料庫(kù)的翻譯共性研究;d)基于語(yǔ)料庫(kù)的漢語(yǔ)歷時(shí)變化研究;e)基于平行語(yǔ)料庫(kù)的詞典研編問(wèn)題。

    語(yǔ)料庫(kù)在線檢索:

    在線平臺(tái)實(shí)現(xiàn)單機(jī)平臺(tái)相似的功能,同時(shí)實(shí)現(xiàn)語(yǔ)料庫(kù)的翻譯輔助功能:系統(tǒng)可將析出語(yǔ)料保存為tmx等格式,為現(xiàn)有的翻譯輔助軟件如Trados、Dejavu或者雅信等軟件所用。

    4.2 具體研制思路

    4.2.1 關(guān)于語(yǔ)料庫(kù)的加工標(biāo)注和語(yǔ)料檢索

    1)對(duì)語(yǔ)料庫(kù)中的各類文本進(jìn)行合理的元信息標(biāo)注,以便按照用戶設(shè)定的條件,從語(yǔ)料庫(kù)中抽取不同類型的雙語(yǔ)對(duì)齊文本。擬將元信息與文本分別獨(dú)立保存,即元信息脫離文本本身,便于對(duì)文本內(nèi)語(yǔ)言信息的快速檢索。

    2)對(duì)語(yǔ)料庫(kù)中的語(yǔ)言信息進(jìn)行標(biāo)注,以方便從語(yǔ)料庫(kù)中抽取用戶所需的多種語(yǔ)言信息。語(yǔ)言信息的標(biāo)注主要包括詞性標(biāo)注和部分文本的句法標(biāo)注。

    3)建立大規(guī)模機(jī)器翻譯記憶庫(kù)。研究中擬采用兼容性較好的通用標(biāo)記語(yǔ)言存儲(chǔ)文本,建立大規(guī)模機(jī)器翻譯記憶庫(kù)(translation memory),使語(yǔ)料庫(kù)可以為機(jī)器翻譯系統(tǒng)所直接使用。

    4)研制功能強(qiáng)大的配套軟件系統(tǒng)。軟件系統(tǒng)主要包括:a)元信息檢索系統(tǒng),用于根據(jù)用戶設(shè)定從語(yǔ)料庫(kù)中抽取文本;b)標(biāo)注文本還原系統(tǒng),用于析出便于用戶閱讀的檢索詞及語(yǔ)境;c)翻譯記憶交換文件(tmx)生成和解析系統(tǒng),用于自動(dòng)生成和解析翻譯記憶交換文件;d)單機(jī)和基于網(wǎng)絡(luò)的平行語(yǔ)料庫(kù)檢索系統(tǒng),用于準(zhǔn)確、高效地對(duì)語(yǔ)料庫(kù)進(jìn)行檢索。

    4.2.2 專門英漢平行語(yǔ)料庫(kù)的研制

    根據(jù)經(jīng)濟(jì)社會(huì)發(fā)展的現(xiàn)實(shí)需求,研制多個(gè)專門用途平行語(yǔ)料庫(kù)。

    1)專門英漢平行語(yǔ)料庫(kù)的研制:分別建立時(shí)政新聞?dòng)h平行語(yǔ)料庫(kù)(2000萬(wàn)字/詞),交通英漢平行語(yǔ)料庫(kù)(1500萬(wàn)字/詞),財(cái)經(jīng)英漢平行語(yǔ)料庫(kù)(1500萬(wàn)字/詞),英漢口譯語(yǔ)料庫(kù)(>100萬(wàn)字/詞)。分別收集處理各專門語(yǔ)料庫(kù),制定此類語(yǔ)料庫(kù)文本的選取和抽樣細(xì)則,并設(shè)計(jì)和研制適合此類文本標(biāo)注和檢索的應(yīng)用平臺(tái)。

    2)專門英漢平行語(yǔ)料庫(kù)的應(yīng)用研究。課題組擬應(yīng)用專門英漢平行語(yǔ)料庫(kù),深入分析漢英語(yǔ)言詞匯之間的對(duì)應(yīng)關(guān)系和轉(zhuǎn)換規(guī)律,研究當(dāng)代英漢翻譯規(guī)范、漢語(yǔ)文本英譯語(yǔ)言特征和英語(yǔ)文本漢譯語(yǔ)言特征,克服目前語(yǔ)料庫(kù)翻譯學(xué)研究過(guò)多依賴于文學(xué)語(yǔ)料的缺陷,從而提高語(yǔ)料庫(kù)翻譯學(xué)研究的可信度和說(shuō)服力。

    3)基于語(yǔ)料庫(kù)的漢英口譯研究。課題組擬應(yīng)用漢英口譯語(yǔ)料庫(kù),分析漢英口譯語(yǔ)言的具體特征、口譯過(guò)程中的語(yǔ)言轉(zhuǎn)換規(guī)律以及口譯策略和方法等,研究口譯認(rèn)知過(guò)程的本質(zhì)及口譯活動(dòng)的制衡因素,為構(gòu)建實(shí)證、科學(xué)的口譯理論框架提供重要的物質(zhì)基礎(chǔ)。

    4.2.3平衡語(yǔ)料的收集整理與歷時(shí)語(yǔ)言/翻譯研究

    在語(yǔ)料庫(kù)創(chuàng)建階段,按照子課題1制定的平衡語(yǔ)料收集和抽樣原則將選取的語(yǔ)料處理成機(jī)讀語(yǔ)料,完成語(yǔ)料處理的前期工作,主要包括雙語(yǔ)語(yǔ)料的校對(duì)、段對(duì)齊和片頭元數(shù)據(jù)標(biāo)注,為后期的語(yǔ)料處理打好基礎(chǔ)。

    除了前面說(shuō)過(guò)的歷時(shí)語(yǔ)料處理外,在語(yǔ)料庫(kù)建設(shè)后期,我們將使用該語(yǔ)料庫(kù)開展?jié)h語(yǔ)的歷時(shí)語(yǔ)言演化研究,重點(diǎn)研究翻譯在現(xiàn)代漢語(yǔ)發(fā)展過(guò)程中的作用;開展基于大型語(yǔ)料庫(kù)的語(yǔ)言與翻譯研究,探討翻譯共性、翻譯技巧的歷時(shí)變化、漢語(yǔ)翻譯語(yǔ)言的特性、不同語(yǔ)域翻譯文本的特征等。

    在處理歷時(shí)研究和共時(shí)研究的關(guān)系時(shí),我們采用歷時(shí)研究方法對(duì)翻譯規(guī)范和目的語(yǔ)語(yǔ)言規(guī)范的發(fā)展變化進(jìn)行類比研究,將共時(shí)研究滲透于各微觀研究層面,將靜態(tài)的整體性描述和動(dòng)態(tài)的連續(xù)性分析有機(jī)結(jié)合起來(lái)。

    在處理定性研究和定量研究的關(guān)系時(shí),擬將定性分析與定量分析相結(jié)合。定量分析描述語(yǔ)言成分的使用頻率、語(yǔ)言特征的相關(guān)性和語(yǔ)言變化的趨勢(shì);定性分析用于歸納、推理和解釋,即運(yùn)用合適的理論來(lái)闡釋語(yǔ)言變異。

    參考文獻(xiàn)

    1. Anderman, G. and M. Rogers (eds.) Incorporating Corpora: The linguist and the Translator[C]. Clevedon: Multilingual Matters Ltd. 2007.

    2. Koehn, P. Europarl: A Parallel Corpus for Statistical Machine Translation[A]. MT Summit 2005.

    3. Lüdeling, A. and M. Kyt? (eds.) Corpus Linguistics: An International Handbook[C]. New York: Walter de Gruyter, 2008.

    4. McEnery, T. & Xiao,Z. Parallel and comparable corpora: What is happening[A]? In M. Rogers and G. Anderman (eds) Incorporating Corpora. The Linguist and the Translator[C]. Clevedon: Multilingual Matters, 2007:18-31.

    5. Xiao, Z. Well-known and influential corpora[A]. In A. Lüdeling & M. Kyto (eds) Corpus Linguistics: An International Handbook [Volume 1][C]. Berlin: Mouton de Gruyter, 2008: 383-457.

    6. 常寶寶,2004,英漢對(duì)應(yīng)詞的自動(dòng)提取[A]。載王克非等《雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù):研制與應(yīng)用》。北京:外語(yǔ)教學(xué)與研究出版社,80-96。

    7. 馮志偉,2012,《統(tǒng)計(jì)機(jī)器翻譯》序[A]。載《統(tǒng)計(jì)機(jī)器翻譯》(Statistical Machine Translation)[M]。北京:電子工業(yè)出版社。

    8. 何文忠、王克非,2009,英語(yǔ)中動(dòng)結(jié)構(gòu)修飾語(yǔ)的語(yǔ)料庫(kù)研究[J],《外語(yǔ)教學(xué)與研究》(4):250-257。

    9. 李德超、王克非,2010,新型雙語(yǔ)旅游語(yǔ)料庫(kù)的研制和運(yùn)用[J],《現(xiàn)代外語(yǔ)》(1):46-54。

    10. 秦洪武、王克非,2004,基于語(yǔ)料的翻譯語(yǔ)言考察[J],《現(xiàn)代外語(yǔ)》(1):44-52

    11. 秦洪武、王克非,2009,基于對(duì)應(yīng)語(yǔ)料庫(kù)的英譯漢語(yǔ)言特征分析[J],《外語(yǔ)教學(xué)與研究》(2):131-136。

    12. 秦洪武、王克非,2010,論元實(shí)現(xiàn)的詞匯化解釋:英漢語(yǔ)中的位移動(dòng)詞[J],《當(dāng)代語(yǔ)言學(xué)》(2):115-125。

    13. 王克非,2004,新型雙語(yǔ)語(yǔ)料庫(kù)的設(shè)計(jì)與構(gòu)建[J],《中國(guó)翻譯》(6):73-75。

    14. 王克非、胡顯耀,2008,基于語(yǔ)料庫(kù)的翻譯漢語(yǔ)詞匯特征研究[J],《中國(guó)翻譯》(6):16-21。

    15. 王克非、胡顯耀,2010,漢譯文學(xué)作品中人稱代詞的顯化和變異[J],《中國(guó)外語(yǔ)》(4):16-21。

    16. 王克非、黃立波,2006,關(guān)于翻譯共性研究[J],《外語(yǔ)教學(xué)與研究》(5):36-40。

    17. 王克非、秦洪武,2009,英譯漢語(yǔ)言特征探討——基于對(duì)應(yīng)語(yǔ)料庫(kù)的宏觀分析[J],《外語(yǔ)學(xué)刊》(1):102-105。

    18. 王克非等,2004,《雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù):研制與應(yīng)用》[C]。北京:外語(yǔ)教學(xué)與研究出版社。 

    (責(zé)編:秦華)
    日本久久中文字幕精品| 国产精品国产三级在线专区| 亚洲中文字幕无码久久精品1 | 久久精品国产99国产电影网| 亚洲综合精品伊人久久| 国产精品久久久久jk制服| 国产精品美女久久久网站动漫| 久久精品国产亚洲AV果冻传媒| 青青青国产精品视频| 无码日韩精品一区二区免费暖暖 | 亚洲AV无码精品蜜桃| 99国产精品永久免费视频| 久久亚洲国产成人精品无码区| 国产精品国产亚洲区艳妇糸列短篇 | 国产精品伊人久久伊人电影| 精品国产高清久久久久久小说| 国产精品大bbwbbwbbw| 99re这里有免费视频精品| 国产乱人伦偷精品视频AAA| 精品精品国产高清a毛片| 免费看一级毛片在线观看精品视频| 四虎影视成人精品| 久久精品网站免费观看| 2022国产精品福利在线观看| 久久精品国产亚洲AV蜜臀色欲| 无码日韩精品一区二区免费暖暖 | 国产主播精品福利19禁vip| 精品久久久久久亚洲综合网| 亚洲国产精品ⅴa在线观看| 国产手机精品一区二区| 国产乱子精品免费视观看片| 亚洲国产成人超福利久久精品| 56prom在线精品国产| 亚洲精品欧洲精品| 亚洲精品国产电影午夜| 91精品国产91久久久久久青草 | 无码国产精品一区二区免费 | 国产精品俺来也在线观看| 91精品国产麻豆福利在线| 一区国产传媒国产精品| 国产精品福利在线|