一、 研究進(jìn)展情況
① 研究計(jì)劃總體執(zhí)行情況及各子課題進(jìn)展情況
1. 研究計(jì)劃總體執(zhí)行情況
漢語盲文語料庫建設(shè)的理論研究按照預(yù)期計(jì)劃進(jìn)行,基本達(dá)到了預(yù)期目標(biāo),成果表達(dá)略有滯后。首先對(duì)漢語盲文語料庫的理論地位和實(shí)際功能進(jìn)行了深入研究,明確了漢語盲文語料庫作為一種有鮮明特色的漢語語料庫,將擴(kuò)展?jié)h語語言資源類型和功能,豐富漢語語言資源,具備服務(wù)于盲文教學(xué)、盲文本體研究、盲文信息化、盲文教材、盲文詞典編寫等多種功能。將建設(shè)目標(biāo)確定為包含約1,000萬方盲文的平衡性較高、代表性好,經(jīng)過多層級(jí)信息標(biāo)注,在盲文領(lǐng)域內(nèi)通用性好,盲文-拼音-漢字對(duì)照的專用型語料庫。由于標(biāo)注可以選擇性刪除,如果將盲文及其相關(guān)標(biāo)注刪除,它可以變成一個(gè)較大規(guī)模的漢語語音標(biāo)注語料庫,也是特殊分詞連寫、特殊標(biāo)調(diào)的漢語注音語料庫。這也是對(duì)我國缺少漢語注音語料庫的一個(gè)積極補(bǔ)充。
盲文語料庫建設(shè)實(shí)踐研究略有超前。盲文語料的采集研究和實(shí)踐超額完成任務(wù),截止2015年6月底,采集589個(gè)語篇,盲文320萬方,完成了采集任務(wù)總量的32%,超額完成了2015年全年的采集計(jì)劃。對(duì)全部盲文語料進(jìn)行了拼音、漢字的自動(dòng)標(biāo)注,已經(jīng)完成了460個(gè)語篇(約250萬方)盲文及其對(duì)應(yīng)的拼音、漢字的人工校對(duì),其中270個(gè)語篇完成了三校,準(zhǔn)確率達(dá)到99.9%以上,超額完成了2015年全年的對(duì)照標(biāo)注計(jì)劃。開始了語言信息標(biāo)注試驗(yàn),包括對(duì)盲文(原始語料已經(jīng)分詞)的詞性標(biāo)注、對(duì)漢語原文的重新分詞及詞性標(biāo)注試驗(yàn)。按照預(yù)定計(jì)劃建成了漢語盲文語料庫小規(guī)模原型系統(tǒng),漢語盲文語料庫建設(shè)的路徑已經(jīng)從理論上打通,可以預(yù)期在下一步大規(guī)模建設(shè)中沒有不可逾越的障礙。
2. 各子課題進(jìn)展情況
2.1 盲文語料庫建設(shè)規(guī)范制定與質(zhì)量檢查子課題研究進(jìn)展
2.1.1 研究制定盲文語料庫采集原則與采集規(guī)范
通過恰當(dāng)?shù)倪x材原則提高盲文語料庫的語料平衡性和樣本代表性。為了將漢語盲文語料庫建設(shè)成通用性、平衡性較好的語料庫,盲文語料應(yīng)能夠代表1953年現(xiàn)行盲文發(fā)布至今的實(shí)際使用全貌,語料樣本的選取應(yīng)具有廣泛性和代表性。
語料樣本的歷時(shí)分布:
? 近期為主的原則(1995年國家標(biāo)準(zhǔn)頒布以后占70%左右)
? 早期為輔的原則(1953-1995年占30%左右)
? 早期不等比例遞減原則
語料樣本的共時(shí)分布:
? 正式盲文出版物為主的原則(占85%左右)
? 中國盲文出版社與上海盲文印刷廠等比例原則(約5:1)
? 圖書、教材為主,期刊雜志為輔的原則(約9:1)
? 圖書語料大類均衡性原則
? 非正式出版物(7%-8%)
? 盲校(試題、講義、校本教材)為主的原則
? 高校、其他單位為輔的原則
? 區(qū)域代表性原則
? 理論完備服從于現(xiàn)實(shí)可能的原則
? 個(gè)人語料(7%-8%)
? 規(guī)范性篩選原則(作文、答卷、投稿、通信等他讀文本)
? 區(qū)域代表性原則
? 年齡代表性原則
? 理論完備服從于現(xiàn)實(shí)可能的原則
根據(jù)開題專家建議,會(huì)同采集子課題組研究決定:由盲文出版編校人員按照出版的標(biāo)準(zhǔn)翻譯,增補(bǔ)與期刊比例相當(dāng)?shù)膱?bào)紙語料及網(wǎng)絡(luò)新媒體語料。
2.1.2 研究制定盲文語料庫標(biāo)注規(guī)范
為盲文規(guī)范化、標(biāo)準(zhǔn)化、信息化及盲文基礎(chǔ)研究和教學(xué)研究的需要,盲文語料庫需要對(duì)盲文文本進(jìn)行多層級(jí)的信息標(biāo)注。一方面需要標(biāo)注盲文的漢語拼音和對(duì)應(yīng)漢字,一方面需要標(biāo)注盲文的分詞連寫和標(biāo)調(diào)方式,同時(shí)還需要標(biāo)注詞性。為提高語料庫建設(shè)效率、提高成果的價(jià)值,參照已有的漢語語料庫規(guī)范標(biāo)準(zhǔn)和成熟方法,根據(jù)盲文語料的特點(diǎn)研究提出了盲文語料庫標(biāo)注規(guī)范。
重點(diǎn)標(biāo)注盲文字符和詞匯層面的信息,增強(qiáng)盲文語料庫的易用性。對(duì)盲文語料庫的生語料、對(duì)照語料、標(biāo)注語料以XML標(biāo)記語言的方式置標(biāo)和存儲(chǔ),參考XCES標(biāo)準(zhǔn),制定盲文語料庫XML語言信息項(xiàng)標(biāo)記和格式規(guī)范。與普通漢語語料相同標(biāo)注信息采用常規(guī)的標(biāo)注符號(hào),研究設(shè)計(jì)了特殊標(biāo)注符號(hào)集,以滿足盲文特殊的分詞連寫標(biāo)注的需要。
盲文語料庫標(biāo)注原則:
? 遵循常規(guī)的Leech標(biāo)注7原則
? 簡化原則
? 實(shí)用性原則
? 針對(duì)性原則(分詞連寫、標(biāo)調(diào))
漢語盲文與明眼文在語義層面是一致的,盲文語料庫不需要進(jìn)行語義標(biāo)注。盲文觸覺信息標(biāo)注的重點(diǎn)是組合缺陷符號(hào)標(biāo)注。單方缺陷符號(hào),可以由檢索表直接檢出、統(tǒng)計(jì),而不需要一一標(biāo)注。
2.1.3 進(jìn)行采集、標(biāo)注質(zhì)量檢查
研究制定了盲文語料庫建設(shè)質(zhì)量檢查方法,包括標(biāo)準(zhǔn)符合性、語料正確率、標(biāo)注正確率、標(biāo)注一致性等方面。采用計(jì)算機(jī)自動(dòng)全面檢查與人工抽查相結(jié)合,以計(jì)算機(jī)檢查為主的方法,并且把對(duì)上一道工序的檢查納入下一道工序的研究內(nèi)容。在語料庫建設(shè)網(wǎng)站開辟了“問題討論與交流”專區(qū),人人都是質(zhì)量檢查員。對(duì)采集環(huán)節(jié)中漢語原文圖片順序、盲文樣本方數(shù)超標(biāo)及不達(dá)標(biāo)問題進(jìn)行了監(jiān)督檢查,提請(qǐng)采集組及時(shí)進(jìn)行修改。對(duì)計(jì)算機(jī)拼音-漢字自動(dòng)標(biāo)注進(jìn)行檢查和人工校對(duì),對(duì)提出的問題集中修改軟件。對(duì)人工校對(duì)錯(cuò)誤率進(jìn)行全面普查,錯(cuò)誤率在0.5%以下的由檢查員修改,錯(cuò)誤率在0.5%以上的發(fā)回,由校對(duì)員重新校對(duì)。通過了第一次檢查的,再隨機(jī)抽取30%進(jìn)行二次抽查。
語言信息、觸覺信息標(biāo)注剛開始試驗(yàn),沒有檢查。
2.2盲文語料調(diào)查和語料采集子課題研究進(jìn)展
采集組成員主要分布在北京、上海兩家盲文出版單位,首先對(duì)各自單位的盲文出版物情況進(jìn)行了調(diào)查。盲文語料庫以新中國1953年正式頒布現(xiàn)行盲文以來所有的盲文語料為研究總體,以正式出版物為主,非出版物、個(gè)人語料為輔。由于現(xiàn)行盲文分詞連寫和標(biāo)調(diào)規(guī)則自由度大,建立了嚴(yán)格的采集規(guī)范。盲文語料的采集面要廣,樣本數(shù)要多,并且要適度增大樣本的容量。根據(jù)選材原則,采用分層隨機(jī)抽樣方法收集連續(xù)盲文文本片段,出版物語料占總語料的85%左右,每個(gè)語篇樣本采集5,000±500方,每個(gè)出版物最大采集3個(gè)語篇。非正式出版物和個(gè)人語料占總語料的15%左右,每個(gè)語篇樣本采集2,000±200方,每個(gè)人最多采集3個(gè)語篇。
根據(jù)語料采集原則研究制定了盲文出版物的采集方法,本著先易后難的原則,先采集中國盲文出版社、上海盲文印刷廠1995年以后有電子版的盲文語料及其漢語原文。研究了試點(diǎn)采集的方法與步驟,進(jìn)行了采集軟件試驗(yàn)。對(duì)電子版盲文語料直接采集上傳到盲文語料庫建設(shè)專用網(wǎng)站。由于盲文出版單位沒有漢語原文電子版,紙質(zhì)版上有許多盲文編校做過的標(biāo)示,嚴(yán)重影響識(shí)別準(zhǔn)確率。研究決定放棄OCR采集漢語原文電子版語料。通過掃描的方式將漢語原文語料以圖片形式上傳,通過采集軟件與對(duì)應(yīng)的盲文語料匹配。漢語原文電子語料通過計(jì)算機(jī)自動(dòng)標(biāo)注和根據(jù)原文圖片的人工校對(duì)獲得。
開始研究個(gè)人語料和無電子版盲文語料的采集。無電子版的盲文語料以圖片方式采集后,進(jìn)行數(shù)字化處理,人工校對(duì)。檢查合格后,盲文圖文對(duì)齊保存到語料庫。開始調(diào)研非正式出版物盲文語料、個(gè)人盲文語料的情況。已經(jīng)收集北京聯(lián)合大學(xué)特殊教育學(xué)院、長春大學(xué)特殊教育學(xué)院2014、2015屆單考單招盲文試卷(作文)266份(重復(fù)參加考試的尚未剔除),收集《盲人月刊》盲文投稿46件。待紙質(zhì)數(shù)字化能夠?qū)嵱煤螅俨杉矫の恼Z料庫網(wǎng)站。
2.3 盲文語料庫標(biāo)注加工子課題研究進(jìn)展
研究制定了盲文語料庫標(biāo)注方案,盲文語料庫要進(jìn)行三類標(biāo)注,即:盲文-拼音-漢字對(duì)照標(biāo)注、盲文觸覺信息標(biāo)注、語言信息標(biāo)注。語言信息標(biāo)注的重點(diǎn)是盲文分詞連寫單位及其語法屬性。漢語拼音是盲文和明眼文的中介層,拼音特別是聲調(diào)信息是標(biāo)注重點(diǎn)。盲文語料經(jīng)標(biāo)注后最終將生成9行對(duì)照文本。
1)盲文原文,盲文語料庫采用盲文字符Unicode國際標(biāo)準(zhǔn)字符集(U2800—U28FF)作為盲文字符規(guī)范,以提高語料庫的跨計(jì)算機(jī)、跨平臺(tái)兼容性,盲文語料存在不同編碼的情況,需要將語料樣本全部轉(zhuǎn)換成Unicode盲文字符。
2)觸覺信息標(biāo)注,主要標(biāo)注語料的觸覺特征,特別是組合缺陷符號(hào),方便用戶提取例文。
3)盲文拼音標(biāo)注,標(biāo)注盲文點(diǎn)字對(duì)應(yīng)的漢語拼音。
4)盲文詞匯標(biāo)注,標(biāo)注盲文對(duì)應(yīng)的漢字內(nèi)容,即盲文的連寫單位和特殊的分寫單位。
5)盲文詞性標(biāo)注,由于盲文分詞連寫中存在許多非詞單位,其詞性標(biāo)注需要制定特殊的規(guī)范,詞性標(biāo)注的重點(diǎn)是客觀描寫盲文連寫單位的構(gòu)詞特征。
6)漢語原文/譯文,根據(jù)盲文標(biāo)注出對(duì)應(yīng)的漢語原文,有原文的根據(jù)原文圖片進(jìn)行人工校對(duì),沒有原文的根據(jù)語境進(jìn)行人工校對(duì)。
7)漢語拼音標(biāo)注,根據(jù)漢語原文/譯文進(jìn)行拼音標(biāo)注,根據(jù)漢語拼音正詞法基本規(guī)則進(jìn)行聲調(diào)標(biāo)注。
8)漢語分詞標(biāo)注,根據(jù)漢語拼音正詞法基本規(guī)則對(duì)原文/譯文進(jìn)行分詞標(biāo)注。
9)漢語詞性標(biāo)注,對(duì)漢語標(biāo)注分詞單位進(jìn)行常規(guī)的詞性標(biāo)注。
課題組目前對(duì)采集的盲文語料已經(jīng)批量完成了第3、6層的標(biāo)注,其他層的標(biāo)注也已開始實(shí)驗(yàn),全部標(biāo)注采用機(jī)注人校的方式進(jìn)行。由于盲文基本未標(biāo)調(diào),計(jì)算機(jī)漢字標(biāo)注錯(cuò)誤多,需要大量的人工校對(duì)。目前,漢字標(biāo)注人工校對(duì)的主力是北京聯(lián)合大學(xué)特殊教育學(xué)院、濰坊學(xué)院特殊教育的23名學(xué)生,拼音校對(duì)或盲文疑難問題由上述學(xué)院的4位盲文教師和中國盲文出版社3位盲文編校(明眼人)校對(duì)。
經(jīng)質(zhì)量檢查,拼音及漢字錯(cuò)誤率低于0.1%的語篇為合格語篇,可以進(jìn)入下一步標(biāo)注工序。
2.4 盲文語料庫建設(shè)計(jì)算機(jī)輔助軟件研發(fā)子課題研究進(jìn)展
盲文語料庫建設(shè)既需要利用通用的信息技術(shù)手段,還需要研發(fā)盲文相關(guān)的專用輔助軟件。第一類是語料庫采集輔助軟件,主要為盲文語料采集、錄入、存儲(chǔ)服務(wù),如盲文電子化資料的數(shù)據(jù)采集軟件、紙質(zhì)盲文語料的數(shù)據(jù)采集軟件等。第二類是語料庫標(biāo)注加工輔助軟件,主要為語料庫漢盲對(duì)照標(biāo)注、語言信息標(biāo)注、觸覺信息標(biāo)注提供輔助,如漢盲多行平行對(duì)照標(biāo)注輔助軟件、語言信息標(biāo)注及人工校對(duì)工具軟件等。由于盲文點(diǎn)字之間的區(qū)分度小,標(biāo)注時(shí)易出錯(cuò),輔助軟件還要具備錯(cuò)誤提示功能,以提高標(biāo)注效率。
建設(shè)了漢語盲文語料庫建設(shè)專用網(wǎng)站,進(jìn)行元數(shù)據(jù)采集及管理,盲文語料與對(duì)應(yīng)漢語原文語料的采集、存儲(chǔ)、匹配等。從中國盲文出版社專用封閉的BWord文檔、上海盲校PRT盲文文件活化出盲文電子文本,使僵化的6點(diǎn)盲文離開專用軟件能夠生存,使課題組有了對(duì)漢語盲文信息化處理的基礎(chǔ)。
設(shè)計(jì)開發(fā)了盲文-拼音-漢字自動(dòng)對(duì)齊標(biāo)注軟件和人工校對(duì)輔助軟件。將漢語拼音從計(jì)算機(jī)后臺(tái)拉到顯示屏,突出了漢語拼音在漢語盲文中應(yīng)有的本源地位,架起了盲文與漢字溝通的橋梁。本軟件對(duì)盲文自動(dòng)拼音標(biāo)注準(zhǔn)確率達(dá)到到99%以上。對(duì)盲文標(biāo)志符號(hào)、指示符號(hào)進(jìn)行錯(cuò)誤提示。提供疑問、偏誤標(biāo)注按鈕,記錄錯(cuò)誤有利于訓(xùn)練標(biāo)注軟件,記錄疑問有利于核查。提供查找盲文—替換漢字功能,選中拼音,懸浮備選字詞,減少鍵盤輸入,提高人工校對(duì)效率。利用高準(zhǔn)確率的拼音行,盲文不熟練的學(xué)生也可進(jìn)行盲-漢校對(duì)。
語料庫管理軟件和盲文語料語言信息標(biāo)注軟件正在研制中。紙質(zhì)盲文數(shù)字化處理也正在研制中。
② 調(diào)查研究及學(xué)術(shù)交流情況(調(diào)研數(shù)據(jù)整理運(yùn)用、文獻(xiàn)資料收集整理、學(xué)術(shù)會(huì)議、學(xué)術(shù)交流、國際合作等)
進(jìn)行盲文正式出版物語料調(diào)查。盲文出版物的豐富性雖然不可與漢語同日而語,但是也有60年的積淀,有曲折復(fù)雜的歷史變化。我國對(duì)漢語盲文出版物的學(xué)術(shù)研究很少。摸清盲文出版物的情況,掌握第一手資料,進(jìn)而提高出盲文版物語料采集的代表性。
對(duì)中國盲文出版社1953年至2014年5162種盲文讀物(包括圖書和期刊),進(jìn)行整理統(tǒng)計(jì),各類讀物比例為:中國文學(xué)15.2%、醫(yī)學(xué)16.5%、醫(yī)學(xué)教材5.8%、文教科體11.7%、教材教輔12.2%、政治7.6%、歷史地理5.4%、馬恩列斯毛鄧著作5.1%;藝術(shù)3.8%、外國文學(xué)3.6%、法律3.4%、哲學(xué)2.9%、語言文字1.9%、經(jīng)濟(jì)類2.4%、綜合性讀物2.5%。醫(yī)學(xué)和醫(yī)學(xué)教材所占比例最大,這是服務(wù)盲人從事按摩推拿職業(yè)需求的結(jié)果。除了教材教輔外,將其余歸類整理為:文學(xué)、文綜、醫(yī)學(xué)、理綜、其他五大類,有利于分類采集。由于中國盲文出版社藏館較多,中間搬過家,存在館藏目錄信息不準(zhǔn)的情況,有些書目難以精準(zhǔn)查找。可以利用版本圖書館作為救急,但是,初步查詢后,發(fā)現(xiàn)版本圖書館并沒有真正保有每個(gè)盲文版本的圖書。歷史較長的盲校圖書館還可以做最后的補(bǔ)充。
上海盲校盲文印刷廠從1959年9 月開始為外校制作盲文教材。 1986年以來,為全國盲校印制盲文中小學(xué)各年級(jí)各學(xué)科(體育、美工除外)教材以及部分盲文課外讀物,該廠印制的盲文教材均以人教版為藍(lán)本。1995年開始制作盲人普通高中盲文教材。義務(wù)教育盲文教材為上海盲校盲文印刷廠專屬,包括語文、數(shù)學(xué)的隨班就讀用書。義務(wù)教育以上階段的教材和各學(xué)段的課外讀物、練習(xí)冊(cè)、詞語手冊(cè)等,北京、上海兩家出版社都有制作。
上海盲校盲文印刷廠生產(chǎn)的盲文教材樣本及其電子版(1995年以后)都保存完好。但是,其盲文電子版軟件的PRT格式不尋常,整個(gè)文件像一塊雕版,不可選中其中的部分,無法復(fù)制粘貼到另外的文檔。需要破譯其“密碼”,開發(fā)專門的PRT讀取工具,才能將要采集的盲文電子版上傳到盲文語料庫。
進(jìn)行非正式出版物及個(gè)人盲文語料調(diào)查。非正式出版物是指經(jīng)過他人校對(duì)并且機(jī)器刻印的盲文資料,主要包括盲校制作的試卷、講義、翻印的教材等。這些語料能夠反映盲文在實(shí)際使用中的情況,可以研究非專業(yè)出版人員使用漢語盲文的情況。通過調(diào)查摸清持有非正式出版物的盲文語料單位,語料的類型、數(shù)量、質(zhì)量等。在可能的程度上提高非正式出版物盲文語料的代表性。
個(gè)人語料是指盲人寫給他人讀的、未經(jīng)別人校對(duì)的盲文材料,例如:答卷、作文,投稿、通信等。通過個(gè)人語料可以研究盲人分詞連寫、標(biāo)調(diào)等情況,考察不同方言區(qū)盲人盲文標(biāo)調(diào)的情況。盲人自讀的盲文資料往往包含個(gè)人的簡記符號(hào),不宜收錄到盲文語料庫,不在調(diào)查范圍。
社會(huì)成年盲人語料的調(diào)查是難點(diǎn),已經(jīng)委托中國盲人協(xié)會(huì)進(jìn)行盲人個(gè)人保有盲文語料情況調(diào)查。進(jìn)行了北京聯(lián)合大學(xué)、長春大學(xué)2所特殊教育學(xué)院盲文作文試卷調(diào)查,并收集了近二年紙質(zhì)版盲文語料。開始了初等教育盲校制作盲文語料數(shù)量、種類及其電子版原文保有情況調(diào)查,數(shù)據(jù)還沒有反饋回來。
③ 成果宣傳推介情況(成果發(fā)布會(huì)、《工作簡報(bào)》報(bào)送情況、國家社科基金專刊投稿及采用情況等)
首次大規(guī)模宣傳是與開題論證會(huì)同時(shí)進(jìn)行的,開題會(huì)的同時(shí)進(jìn)行了新時(shí)期首都特殊教育發(fā)展高層論壇,擴(kuò)大了課題開題的影響力。許多傳統(tǒng)媒體和新媒體圍繞我國將首次建設(shè)漢語語料庫進(jìn)行了大量的報(bào)道,給予了高度評(píng)價(jià)。光明日?qǐng)?bào)、中國教育報(bào)、現(xiàn)代教育報(bào)及北京地方報(bào)紙等傳統(tǒng)媒體進(jìn)行了報(bào)道,新華網(wǎng)、光明網(wǎng)、鳳凰網(wǎng)、千龍網(wǎng)、國圖空間、國家手語和盲文研究中心、中國教育科學(xué)院及江蘇、河北、吉林等地方社科網(wǎng)站也進(jìn)行了報(bào)導(dǎo)。在北京聯(lián)合大學(xué)學(xué)報(bào)(社科版)等進(jìn)行了宣傳。
在中國殘疾人聯(lián)合會(huì)、中國盲人協(xié)會(huì)、國家手語和盲文研究中心相關(guān)會(huì)議、網(wǎng)站進(jìn)行了研究過程的宣傳和報(bào)道。在第八屆語言文字應(yīng)用研討會(huì)、第十屆中國信息無障礙論壇、全國盲人協(xié)會(huì)2014、2015年會(huì)上進(jìn)行了成果宣傳和推介。通過國家、省、自治區(qū)盲協(xié)主席,向廣大盲人宣傳國家對(duì)盲人文化基礎(chǔ)建設(shè)、盲人語言文字權(quán)益平等的高度重視。
2014年報(bào)送《工作簡報(bào)》一份、核心成果一份(《建設(shè)漢語盲文語料庫的意義與價(jià)值》5000字)。2014年10月30日向國家社科基金專刊投稿一份(《建設(shè)漢語盲文語料庫 推動(dòng)盲文基礎(chǔ)建設(shè)》2000字)未被采用。
④ 研究中存在的主要問題、改進(jìn)措施,研究心得、意見建議
由于我國盲文研究力量薄弱,全國僅有我們這一個(gè)團(tuán)隊(duì),而這個(gè)團(tuán)隊(duì)承擔(dān)國家社科基金重大項(xiàng)目很感力量不足,特別是理論研究方面。由于沒有博士點(diǎn),人才培養(yǎng)方面很困難,缺少一支骨干力量。北京聯(lián)合大學(xué)特殊教育學(xué)院計(jì)劃2015年招生特殊教育語言學(xué)盲文方向碩士1人,教育部語言文字應(yīng)用研究所的碩士生研究方向向盲文靠攏。北京聯(lián)合大學(xué)特殊教育學(xué)院計(jì)劃新進(jìn)半個(gè)計(jì)算語言學(xué)博士專職進(jìn)課題組,計(jì)劃動(dòng)員中國教育科學(xué)院特殊教育研究室、南京特殊教育師范學(xué)院有盲文研究基礎(chǔ)的專家為本項(xiàng)目研究貢獻(xiàn)力量。
近年來,國家社科基金連續(xù)部署了“基于漢語和部分少數(shù)民族語言的手語語料庫建設(shè)研究”和“漢語盲文語料庫建設(shè)研究”2個(gè)重大項(xiàng)目。這是國家對(duì)殘疾人語言基礎(chǔ)工程高度重視,是對(duì)弱勢(shì)群體語言文字權(quán)益平等的高度重視。課題組承擔(dān)這樣艱巨而光榮的任務(wù),深感責(zé)任重大、使命光榮、壓力無限,課題組成員決心勤奮努力、扎實(shí)工作,無愧于使命,無憾于自心。
盲文語料庫不僅建成以后可以為盲文研究服務(wù),在建設(shè)初期已經(jīng)能夠?yàn)槊の臉?biāo)調(diào)提供實(shí)證數(shù)據(jù)的基礎(chǔ),建設(shè)過程也是盲文研究深入的過程,并且與傳統(tǒng)研究的維度可以互補(bǔ)。
這些年從事盲文研究,動(dòng)力來自國家的重托和盲人的感動(dòng)。從2004年第一個(gè)國家社科基金項(xiàng)目,我們的團(tuán)隊(duì)和盲人群眾一直互相感動(dòng)著。本重大項(xiàng)目立項(xiàng)以來,首席專家和許多核心成員的身體健康指數(shù)、心理幸福指數(shù)大幅度下降。但是,為了弱勢(shì)群體語言文字權(quán)益平等、為了盲人文化的發(fā)展大業(yè),為了國家的重托和盲人的期望,誓將無怨無悔地把冷板凳坐到底。
在沒有管理國家重大項(xiàng)目經(jīng)驗(yàn)、沒有研究重大項(xiàng)目學(xué)術(shù)氛圍的單位,沒有博士點(diǎn)的學(xué)科設(shè)立重大項(xiàng)目確實(shí)應(yīng)慎之又慎。大家都有為國出力的良好愿望,重大項(xiàng)目是無尚光榮的任務(wù),同時(shí)也可能是超限的壓力。
二、 研究成果情況
三、 盲文語料庫建設(shè)工作網(wǎng)站
盲文語料庫建設(shè)網(wǎng)站基本架構(gòu)及研究資源
元數(shù)據(jù)采集界面
盲-漢語料采集上傳過程
盲文—拼音—漢語三重對(duì)齊信息化標(biāo)注
盲文—拼音—漢語語料人工校對(duì)
問題討論與交流專區(qū)
通過漢語盲文語料庫建設(shè)專用網(wǎng)站,可以跨時(shí)空作業(yè)。實(shí)現(xiàn)了網(wǎng)絡(luò)與單機(jī)的互通,可以利用全國各地的盲文人才資源,滿足不同空間課題組成員同時(shí)、異時(shí)研究盲文語料庫建設(shè)的需要,開拓了課題研究的時(shí)間與空間。
2.《漢語盲文語料庫建設(shè)方案》(論文)
本論文闡明了現(xiàn)行盲文的文字地位。現(xiàn)行盲文在詞匯層面與漢語拼音有顯著差別,它的分詞連寫和標(biāo)調(diào)(技術(shù)方案)與漢語拼音有本質(zhì)的不同,現(xiàn)行盲文還具有了流通性和法定性,參照周有光先生的觀點(diǎn),現(xiàn)行盲文應(yīng)該說是一種(拼音)文字。它既有別于漢語拼音,又與漢語拼音有密切的聯(lián)系。可以認(rèn)為現(xiàn)行盲文與漢語拼音是同源異構(gòu)體。作為記錄漢語的漢字,現(xiàn)行盲文與它的距離很遠(yuǎn),他們分屬性質(zhì)不同的技術(shù)方案。
《漢語盲文語料庫建設(shè)方案》從現(xiàn)行盲文分詞連寫和標(biāo)調(diào)方面的特點(diǎn)論述了建設(shè)專門漢語盲文語料庫的意義與價(jià)值。論證了盲文語料庫應(yīng)該是具有較大規(guī)模(約1000萬方盲文)、經(jīng)過語言信息和觸覺信息多層級(jí)對(duì)照標(biāo)注的語料庫。該語料庫的建設(shè)可促進(jìn)對(duì)我國盲文發(fā)展全貌的把握和了解,促進(jìn)盲文基礎(chǔ)研究、信息化、規(guī)范化研究,助力盲文信息無障礙水平提升。論證了語料庫選材原則、樣本采集、語料標(biāo)注規(guī)范、標(biāo)注方案、輔助軟件研發(fā)計(jì)劃等關(guān)鍵問題,詳細(xì)說明了盲文語料庫建設(shè)的主要內(nèi)容和初步方案,并確定了攻克盲文語料庫建設(shè)重點(diǎn)和難點(diǎn)問題的路徑和方法。
3.《漢語盲文的升級(jí)之路》(論文)
從我國盲文坎坷的發(fā)展歷程探討了盲文語料庫在漢語盲文未來升級(jí)的里程碑意義,介紹了盲文語料庫的功能與作用。通過對(duì)盲文語料庫中的語料進(jìn)行觀察、比較,在統(tǒng)計(jì)分析的基礎(chǔ)上尋找漢語盲文使用的規(guī)律,并對(duì)先前盲文規(guī)范的執(zhí)行情況進(jìn)行驗(yàn)證或總結(jié)。通過盲文語料庫可以直接對(duì)盲人實(shí)際讀寫的盲文語料進(jìn)行客觀的定量研究,全面了解現(xiàn)行盲文方案頒行60年來我國盲人語言生活狀況。通過盲文語料庫提供的符號(hào)、詞匯、語音等大量的真實(shí)語料及統(tǒng)計(jì)數(shù)據(jù),可以全面了解驗(yàn)證盲文規(guī)則的實(shí)際執(zhí)行情況,分析客觀存在的差異,作為修訂、構(gòu)建新規(guī)則的基礎(chǔ)。盲文語料庫可為升級(jí)盲文規(guī)則,修訂使用規(guī)范提供堅(jiān)實(shí)的基礎(chǔ)數(shù)據(jù)平臺(tái),面向未來的漢語盲文升級(jí)可以駛?cè)肟燔嚨馈?/p>
作為關(guān)鍵性基礎(chǔ)資源,盲文語料庫的建設(shè)將極大地助力盲文信息化,將為盲文信息化的研究提供高質(zhì)量訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),可以促進(jìn)面向盲文的語言科技的進(jìn)步,讓盲人有更多獲得信息的渠道、溝通方式,分享社會(huì)科技進(jìn)步成果。盲文語料庫能夠很好地服務(wù)于盲文教學(xué),提升盲文出版的規(guī)范化水平,為盲文詞典編纂、盲文教材編寫服務(wù)。盲文語料庫可以引領(lǐng)盲文研究從抽象轉(zhuǎn)向?qū)嶋H使用,這將有力提升我國盲文基礎(chǔ)研究的水平,并且可以占領(lǐng)國際盲文研究的制高點(diǎn)。
本文受到了中國殘疾人聯(lián)合會(huì)領(lǐng)導(dǎo)的高度重視。
4.《基于盲文語料庫的現(xiàn)行盲文標(biāo)調(diào)研究新進(jìn)展》(論文)
由于盲文研究難度大,加之我國盲文研究力量薄弱,漢語盲文在很多領(lǐng)域缺乏實(shí)證性基礎(chǔ)數(shù)據(jù),最迫切需要的是盲文出版物標(biāo)調(diào)的實(shí)證數(shù)據(jù)。文獻(xiàn)中唯一能夠找到的數(shù)據(jù)是“所有出版物中平均大約只有5%的音節(jié)標(biāo)了調(diào)”,找不到得出這個(gè)數(shù)據(jù)的統(tǒng)計(jì)樣本、方法、過程。這個(gè)數(shù)據(jù)的科學(xué)性不得而知。沒有盲文語料庫,這成了無法驗(yàn)證的數(shù)據(jù)。幾十年來,我國盲文研究領(lǐng)域一直渴望現(xiàn)行盲文出版物標(biāo)調(diào)率的實(shí)證數(shù)據(jù)。這是現(xiàn)行盲文標(biāo)調(diào)研究的基礎(chǔ),是隱性標(biāo)調(diào)研究、修訂標(biāo)調(diào)規(guī)則、制定國家通用盲文標(biāo)準(zhǔn)的基礎(chǔ)。沒有科學(xué)的基礎(chǔ)數(shù)據(jù),標(biāo)調(diào)問題的其他研究就成了空中樓閣。
鑒于本次較大規(guī)模實(shí)證研究結(jié)果的平均標(biāo)調(diào)率為11.35%,與以往結(jié)果差異很大。因此,有必要重新評(píng)估盲生的猜謎問題,可以嘗試用本研究成果解釋盲校教師、學(xué)生對(duì)現(xiàn)行盲文猜謎現(xiàn)象的觀點(diǎn)與專家迥異的原因。基于實(shí)證標(biāo)調(diào)數(shù)據(jù),展望未來現(xiàn)行盲文標(biāo)調(diào)規(guī)則修訂,標(biāo)調(diào)率上浮空間比原先的估計(jì)要大得多,篇幅增加的幅度小。未來國家通用盲文標(biāo)準(zhǔn)標(biāo)調(diào)率的上升,對(duì)盲校師生的沖擊比原先估計(jì)的更小,新舊銜接的跨度更小,更容易適應(yīng)和接受。
由于盲文出版物的特殊性,傳統(tǒng)的人工方式難以對(duì)現(xiàn)行盲文出版物標(biāo)調(diào)進(jìn)行大規(guī)模的實(shí)證統(tǒng)計(jì)。正在建設(shè)的漢語盲文語料庫發(fā)揮了重要作用,新世紀(jì)以來的盲文語料已經(jīng)有足夠的代表性,能夠提供大量的第一手計(jì)算機(jī)統(tǒng)計(jì)數(shù)據(jù),為現(xiàn)行盲文標(biāo)調(diào)實(shí)證研究提供了可能。這是我國首次以語料庫為基礎(chǔ)的盲文實(shí)證研究,有盲文專家感慨盲文語料庫:“牛刀小試,大顯威力”。