• <samp id="sgkyk"><pre id="sgkyk"></pre></samp>
    
    
    2025年4月8日 星期二

    舊版網站入口

    站內搜索

    漢語文本可讀性測評和分級的跨學科研究中期檢查報告

    2019年12月16日10:15來源:全國哲學社會科學工作辦公室

    一、研究進展情況

    主要內容:

    一、研究計劃總體執行情況及各子課題進展情況

    1 研究計劃總體執行情況

    第一階段(2017年11月立項—2018年10月):繼續完善研究的總體設計與各子課題的具體設計;進行與文本可讀性研究相關的中英文文獻收集和整理;開始采集中小學語文教材課文語料、課外讀物語料;為項目開題做準備。

    第二階段(2018年11月開題—2019年7月中檢):1)舉行項目開題咨詢會。課題組在第一個階段研究工作的基礎上,于2018年11月5日召開項目開題咨詢會,楊玉芳、儲澤祥、張赪、崔永華、宋柔等五位專家以及張旺喜副校長、科研處張健處長出席會議。首席專家、五位子課題負責人以及課題組主要成員、碩博研究生共六十余人參加了會議。2)課題組在已有研究計劃的基礎上,積極吸收開題咨詢會專家的意見和建議,對研究設計進行了微調,繼續推進各項研究工作,并取得了初步的研究成果。

    目前課題總體上已經完成的研究工作包括以下幾個方面:

    (1)系統收集和整理了相關的中英文文獻資料。

    課題組通過多種途徑和方法,完成了有關文本可讀性研究的國內外文獻(主要為中英文文獻)資料的收集和整理工作,包括中英文期刊論文、會議論文、碩博論文等5000余篇,圖書(包括電子書)1000余冊,為進一步的研究積累了豐富的文獻資料。

    (2)自建了6個漢語文本語料庫。

    大規模文本語料庫的建設是本課題研究的基礎。從立項至今(共20個月),課題組花費了大量的人力、物力和財力,自建了課題研究急需的6個漢語文本語料庫,語料規模達1280萬字。其中,漢語母語文本語料庫3個:分別為《中小學語文教材文本語料庫》(224萬字)、《中小學課外讀物文本語料庫》(871萬字)和《漢語句子難度標注語料庫》(61萬字);漢語二語文本語料庫3個:分別為《對外漢語教材文本語料庫》(85萬字)、《對外漢語課外讀物文本語料庫》(27萬字)和《新HSK閱讀文本語料庫》(12萬字)。

    這6個語料庫的具體信息如下:

    《中小學語文教材文本語料庫》:共105冊,3,773篇,2,561,439字。涵蓋現行主流的語文教材版本,三個出版社(北師大版、人教版和蘇教版)、兩個系列(義務教育課程標準、實驗教科書)。

    《中小學課外讀物文本語料庫》:共212冊,7,895,617字。包括人民教育出版社出版的《語文素養讀本(叢書)》(北京大學語文教育研究所,2015)中的讀物以及楊紅櫻、鄭淵潔、曹云軒等著名兒童作家的作品。

    《句子難度標注語料庫》:18,411句,615,314字。句子來源于中小學語文教材文本語料庫,剔除使用特殊語言的和不完整的文本,如文言文、詩歌、詩詞、劇本、識字文本等。對句子進行去重后,1392篇課文共產生51,298個句子,句子的平均長度為24.6字。使用成對比較的標注任務,通過眾包標注確定大規模句子的難度級別。每個句子被標注為1到5共5個難度級別,級別1表示很簡單,級別5表示很難。

    《對外漢語教材文本語料庫》:1690篇,856,416字,562,457個詞,73,959個句子。涵蓋最近10年(2008年—2018年)出版或修訂的主流代表性漢語精讀教材9套,共計68冊。包括北京語言大學出版社出版的《成功之路》《發展漢語》《爾雅中文》《HSK標準教程》《漢語教程》《新實用漢語課本》(6套),北京大學出版社出版的《博雅漢語》(1套)、華語教學出版社出版的《當代中文》(1套)、美國波士頓劍橋出版社出版的《中文聽說讀寫》(1套)。

    《對外漢語課外讀物文本語料庫》:493篇,270,153字。所選讀物包括《中文天天讀》(外語教學與研究出版社)、《漢語閱讀速成》(北京語言大學出版社)、《階梯漢語(中級閱讀)》(華語教學出版社)、《實用漢語分級閱讀叢書》(北京語言大學)等8套課外讀物中的16冊。

    《新HSK閱讀文本語料庫》:500篇,12萬字。包括2010年到2018年59套新HSK考試真題的閱讀測試文本(部分年份有缺失),其中5級18套、6級31套。

    上述語料庫的建設,為課題開展下一步的研究奠定了基礎。

    (3)各子課題根據研究任務開展實證研究,目前已經初步實現對母語者文本可讀性的量化測評。

    各個子課題分別開展語料分析、實驗研究、調研、預測試、計算建模等實證研究工作。包括面向可讀性研究的文本語言特征定性分析、漢語文本閱讀理解機制及其影響因素的心理語言學實驗、漢語閱讀能力測驗的設計和預測試、可讀性自動化分析的指標體系設計和漢語文本可讀性計算模型的初步建立等。目前已經通過多元回歸方程建立了的漢語文本可讀性公式,并建立了基于字、詞、句和語篇四個層面特征的可讀性預測模型,已經初步實現對母語者文本可讀性的量化測評。

    (4)取得了豐富的階段性研究成果。

    課題組出版了專著1部,英文編著1部(由國際知名出版社Routledge出版);共完成論文36篇,其中在國際國內權威期刊上發表了17篇論文(含錄用3篇),已給期刊投稿4篇,在國際國內會議上發表論文15篇;自建了6個漢語文本語料庫(共計1280萬字)。

    此外,指導課題組的研究生完成與課題相關的碩士、博士論文10余篇。

    2 各子課題進展情況

    (1)子課題一:面向可讀性測評的漢語文本語言特征分析

    該子課題從語言學的角度,在漢字、詞語、句子、語篇等層面對不同難度的漢語文本語言特征進行描寫分析,全面考察影響文本可讀性的語言因素,分析不同語言因素對文本可讀性的影響力強弱,為漢語文本可讀性測評奠定語言學基礎。

    目前該子課題已完成以下幾項工作:1)完成了低、中、高三級文本庫的建設工作,并在子課題組內部實現了語料共享。2)對不同難度等級的漢語文本在漢字、詞匯、語法、語篇等特征上的研究方案進行了總體設計和組內的交流討論。3)課題組成員分頭進行面向可讀性測評的漢字特征分析、漢語詞匯特征分析、語法特征分析和語篇特征分析。

    目前已完成研究論文5篇,另有2篇文章正在撰寫中,包括:

    孟 凱(2019)現代漢語詞法中虛義動詞性成分的功能分工與語義作用,《世界漢語教學》第1期。

    田 然(2018)基于語篇的“你好嗎”“你好”對比研究,《國際漢語教學研究》第4期。

    此外,該子課題組成員參加國內外會議6場次,舉辦學術講座4場次。

    (2)子課題二:面向可讀性測評的漢語閱讀認知機制研究

    該子課題從心理學的角度,針對漢語文本閱讀理解的認知機制問題,以漢語母語者和二語學習者為實驗研究的對象,完成了一系列反應時實驗、眼動跟蹤實驗和腦電實驗,從字、詞、句三個層面探究影響漢語母語者和二語學習者閱讀理解難度的文本因素,為漢語文本可讀性測評奠定心理學的理論基礎。

    目前該子課題已完成的工作包括:1)從理論和應用兩個角度切入,具體從可讀性定義及相關研究、影響可讀性的因素,以及閱讀文本的可讀性測評及閱讀文本的分級等方面收集文獻資料。2)對文獻資料進行梳理,將其整理為以下幾個方面:字、詞、句子、段落、篇章、概念、內容及運用、可讀性的度量及閱讀材料分級、讀者閱讀能力與閱讀文本的匹配、可讀性應用實例。3)完成有關的實驗研究4項,目前已完成論文4篇,其中,論文Effects of self-enhancement on eye movements during reading已在國際權威期刊Frontiers in Psychology(SSCI期刊,影響因子2.129)發表,另有3篇論文已經給國際期刊投稿。

    (3)子課題三:漢語文本可讀性測評公式和計算模型研究

    該子課題在子課題一、二研究的基礎上,進行漢語文本可讀性公式和計算模型研究。主要包括漢語母語者文本可讀性公式和計算模型研究、漢語二語文本可讀性公式和計算模型研究。

    目前已經完成的工作分為以下兩個方面:

    第一,面向可讀性測評的文本閱讀理解和認知加工的心理學研究。通過一系列實驗,從字、詞、句三個層面,研究了影響漢語母語者和二語學習者文本閱讀理解和認知加工的因素,為可讀性公式和模型的建立奠定基礎。目前共完成了10項實驗,測試漢語母語者和二語學習者被試共計800多人次。

    第二,子課題一、五的團隊合作,建立了6個漢語文本語料庫(具體如前所述),并以此為基礎開展了可讀性公式和模型的建構工作。這些工作包括:

    1)以《中小學語文教材文本語料庫》為基礎,利用機器學習初步建構了漢語母語者文本可讀性自動化分析模型。

    2)以《中小學課外讀物文本語料庫》和文本難度的人工評定為基礎,并且通過人工評定獲取讀物中常見的3000多個詞的語義指標(具體性、透明度),利用多元回歸模型建構了一個中小學生課外讀物的可讀性公式。通過這一文本可讀性公式,目前可以初步實現對母語者文本可讀性的量化測評。

    3)在《對外漢語教材文本語料庫》的基礎上,完成了其中1690多篇文本難度的人工評定(6個等級,與《歐洲語言共同參考框架》對應),并對人工評定的效度和信度進行多維度檢驗。

    4)開始嘗試建立針對漢語二語學習者的可讀性特征體系,并對一些特殊特征或指標進行量化和提取,為下一步建立漢語二語學習者的文本可讀性公式和計算模型奠定基礎。

    子課題團隊目前已經完成了有關論文11篇,其中已在核心期刊發表論文5篇(含錄用1篇),在國際國內學術會議發表論文6篇。

    目前部分實驗研究工作集中在探究能夠預測不同水平漢語學習者閱讀加工的認知變量上,已經收集了部分數據,基于這些數據的兩篇文章正在投稿中。

    (4)子課題四:漢語閱讀能力測評研究

    該子課題研究漢語閱讀能力測評方法,包括漢語母語者閱讀能力測試和漢語二語者閱讀能力測試,目的是將讀者/學習者的閱讀能力和讀物的難度等級進行匹配。

    目前該子課題已經取得了以下幾個方面的進展:1)完成了文獻搜集和整理工作。2)對漢語閱讀能力的測評體系進行了充分的調研和論證。3)編制了針對本科來華留學預科生(漢語二語學習者)的漢語閱讀能力測驗,并對國內10所高等院校的2650名本科來華留學預科生的漢語閱讀能力進行了預測試,對測試數據進行了初步分析。4)在系統考察現有的英語閱讀能力測驗和漢語閱讀能力測驗的基礎上,以英語Lexile閱讀能力測試為藍本,正在編制針對中小學生(漢語母語者)的漢語閱讀能力測驗。

    目前已經出版《第二語言閱讀測試問題研究》專著1部(33萬字)。

    (5)子課題五:基于文本可讀性和閱讀能力測評的分級閱讀網絡平臺建設

    該子課題有兩個任務:一是與子課題三的團隊合作,研究和建立漢語可讀性自動化分析系統;二是在子課題三、子課題四研究成果的基礎上,實現文本可讀性算法和閱讀能力測試算法的集成,以及有關數據、服務的整合,研制面向公眾開放的服務平臺。

    目前該子課題已經完成的工作包括:1)文獻收集:整理了可讀性相關的文獻近400篇。2)文獻綜述:課題組對近年來文本可讀性的自動分析工作進行了綜述,并從特征選擇方式和應用領域兩個角度分析了漢語可讀性研究的現狀,并將綜述撰寫成文,發表在《中文信息學報》上。3)數據庫建設:建立了《中小學語文教材文本語料庫》和《漢語句子難度標注語料庫》兩個數據庫(參見“研究計劃總體執行情況)。4)構建了表征漢語文本可讀性的特征集合,基于機器學習模型驗證了特征集合的效度。5)面向篇章級和句子級的漢語文本,構建了基于特征工程的自動評價模型。

    目前已經完成的成果:1)完成論文4篇,其中正式發表1篇,投稿1篇,在會議上發表論文2篇。2)建立《中小學語文教材文本語料庫》1個,《對外漢語教材文本語料庫》1個;3)建立《漢語句子難度標注語料庫》1個。

    二、調查研究及學術交流情況

    1 調查研究

    (1)文獻資料的收集整理。課題組總共收集和整理了可讀性和閱讀能力測驗方面的中英文期刊論文、會議論文和碩博論文5000余篇,中英文圖書(含電子書)近1000余冊。

    (2)漢語文本語料的收集和語料庫建設。建設了6個語料庫,共計1280萬字,包括:《中小學語文教材文本語料庫》《中小學課外讀物文本語料庫》《漢語句子難度標注語料庫》《對外漢語教材文本語料庫》《對外漢語課外讀物文本語料庫》《新HSK閱讀文本語料庫》。

    (3)文本閱讀理解實驗數據的收集。完成了針對漢語母語兒童、成人和漢語二語學習者的14項實驗研究,參加實驗的被試近1300名。

    (4)閱讀能力測試的預測數據收集。對國內10所高等院校的2650名本科來華留學預科生的漢語閱讀能力進行了預測試。

    (5)文本難度人工評定數據的收集。完成了1690多篇漢語二語教材文本的難度評定,每篇文本有10名評定者;完成了120多篇中小學課外讀物的難度評定,每篇文本有3名評定者。

    (6)句子難度人工評定數據的收集。使用成對比較的標注任務,通過眾包標注確定大規模句子的難度級別。

    (上述具體內容參見“研究進展”)

    2 學術交流情況(學術會議、學術交流、國際合作等)

    (1)學術會議和學術交流

    立項以來,首席專家、各個子課題負責人、課題組成員和研究生圍繞課題研究工作,參加了主題豐富、形式多樣的學術會議和學術交流活動,具體如下:

    首席專家參加的學術會議和學術交流:

    1)2017年11月22日,江新教授應邀在中央民族大學國際教育學院舉辦了題為“漢語第二語言學習者語塊加工研究”的學術講座。

    2)2017年11月23日,江新教授應邀出席國家開放大學《第二語言習得》課程教學大綱審定會。

    3)2017年12月7日,江新教授應邀在首都師范大學國際文化學院舉辦了題為“漢語語塊認知加工研究”的學術講座。

    4)2017年12月9日至10日,江新教授應邀赴西北師范大學做系列學術報告,報告的題目分別為“漢語第二語言認知加工的研究方法” “漢語語塊認知加工研究”。

    5)2017年12月2日,江新教授應邀出席北京大學對外漢語教育學院舉辦的“黌門對話”專家主題論壇“漢語作為第二語言的認知與習得”,并在論壇上作了題為“漢語第二語言學習者閱讀知覺廣度的眼動研究”的主題發言。

    6)2018年5月26日至28日,江新教授和碩士生史未卿、張嫚應邀參加了在南京師范大學舉辦的“第八屆中國國際眼動研究研討會”。

    7)2018年5月28日至31日,張博教授、江新教授應邀參加了在新疆喀什大學舉辦的“一帶一路”核心區語言教育與服務高端論壇,并在會上做了大會報告。

    8)2018年6月7日,江新教授應邀到中國人民大學舉辦了題為“漢語第二語言學習者語塊加工和學習研究”的講座。這是該校“心理語言學系列講座”的第四場報告。

    9)2018年6月22日至24日,江新教授和近10名碩士、博士研究生一起赴天津參加了在天津師范大學舉辦的“語言發展評估研討會”。

    10)2018年11月3日至4日,江新教授及其課題組研究生應邀參加了中國心理學會舉辦的“第二十一屆全國心理學學術會議”,江新教授組織并主持了“漢語第二語言字詞和閱讀認知加工”的專題報告。

    11)2018年11月8日至9日,江新教授應邀出席北京大學和中國國家漢辦/孔子學院總部聯合舉辦的“北京大學首屆世界漢語研討會暨第十三屆國際漢語教學研討會”,并在北京大學首屆世界漢語研討會做了題為“漢語教學的跨學科研究:現狀與發展”的特邀發言。

    12)2019年4月13日至14日,江新教授、田然教授以及碩士生袁若琳參加了“首屆新西蘭漢語作為第二語言教學與研究國際研討會”,并應邀在會上做了題為“語素位置信息對漢語二語學習者閱讀影響的眼動研究”、“二語學習者漢語語篇話題鏈習得研究”、 “漢語兒童和二語學習者圖畫書閱讀的眼動研究”的學術報告。

    13)2019年5月18日至19日,江新教授應邀在中山大學“第一屆語言與語言習得研究工作坊”作主題報告,報告的題目為“漢語二語學習者語塊加工優勢的眼動研究”。工作坊結束后,江新教授還應邀為中文系(珠海)的研究生和本科生作了題為“漢語二語學習者名名復合詞認知加工和學習研究”的學術講座。

    14)2019年5月31日至6月1日,江新教授應邀在浙江師范大學國際文化與教育學院作了題為“漢語二語學習者名名復合詞認知加工和學習研究”的學術講座,并出席了首屆“一帶一路”華僑華人與華文教育研討會。

    15)2019年7月5日至7日,江新教授應邀赴英國蘭卡斯特大學參加“第17屆英國漢語教學國際研討會暨2019年英國漢語教學研究會”,并在會上做了題為“語塊分行呈現對漢語母語者和二語學習者閱讀中語塊加工影響的眼動研究”的學術報告。

    子課題一的學術會議和學術交流:

    近兩年來,子課題組負責人、成員多次參加國內外學術會議和學術交流,例如:

    1)2018年5月,田然教授參加美國哥倫比亞大學漢語教學會議。

    2)2018年6月,田然教授參加悉尼大學會議,宣讀了本課題論文《基于語篇的“你好嗎”、“你好”對比研究》,并與參會學者進行了討論。

    3)2018年6月15日至17日,孟凱副教授應邀參加《語言教學與研究》編輯部和安徽師范大學文學院聯合主辦的“第二屆語言教學與研究國際學術研討會”,并做了題為“現代漢語詞法中虛義動詞性成分的功能分工與語義作用”的報告。

    4)2018年11月18日,孟凱副教授應邀參加中國人民大學文學院主辦的“第五屆北京青年語言學者(U50)學術交流會”。

    5)2017年11月3日至5日,張博教授赴美國塔夫茨大學參加由北京師范大學、塔夫茨大學和俄克拉荷馬大學共同主辦的“第三屆國際漢字漢語文化研討會”,做了題為“提高漢語第二語言詞匯教學效率的兩個前提”的報告。

    6)2018年5月10日,張博教授應邀在上海外國語大學國際文化交流學院作學術報告,題目是“漢語外來詞的界定原則與基于借用等級的判定方法”。

    7)2019年4月26日,張博應邀到北京大學對外漢語教育學院做題為《漢語并合造詞法對詞義結構與詞義發展的影響》的講座。

    子課題一舉辦學術交流活動4次:

    1)2018年9月25日,香港教育大學中國語言學系朱慶之教授應邀做學術講座,講座題目為“佛教文獻與漢語詞匯史研究”。

    2)2018年10月24日,北京大學中文系董秀芳教授應邀做學術講座,講座題目為“漢語詞法的幾個突出特征及其歷史根源”。

    3)2018年11月8日,中國社會科學院語言研究所譚景春研究員應邀做學術講座,講座題目為“動詞的目的義和名詞的用途義及其在詞典釋義中的處理”。

    4)2019年5月16日,浙江理工大學王艷助理研究員應邀做學術講座,講座題目為“漢語OVX結構的語義條件——兼論OVX結構與VOX結構的指稱化路徑”。

    子課題二的學術會議和學術交流:

    1)2018年4月26日至28日,李興珊教授應邀在澳大利亞悉尼市舉辦的澳大利亞眼動大會上作題為“中文閱讀過程中的眼動控制”的報告。

    2)2018年5月26日至28日,李興珊教授在江蘇南京舉辦的第8屆中國國際眼動大會上做了題為“中文閱讀中的字的位置編碼”的重點報告。

    3)2018年6月25日至30日,李興珊教授應邀在加拿大蒙特利爾舉辦的第29屆國際應用心理學大會做了題為“中文閱讀特異性的認知機制”的特邀報告。

    子課題三的學術會議和學術交流:

    1)Jin, L., Ren, Q., & Wang, J. (2019). Multimodal Measures for Writing Curriculum in a University Setting in Southwest China, 2019 Conference of College Composition & Communication, Pittsburgh.

    2)Zhang, M., & Jiang, X. (2018). The effects of word segmentation on Chinese Pinyin text reading: Evidence from eye movements, CICEM2018, Psychological college of Nanjing Normal University.

    3)Yuan, R. Y., & Jiang, X. (2019). Eye movements on picture book reading with Chinese elementary school students and second language learners of Chinese, Acquisition of Chinese: Bilingualism and Multilingualism, University of Cambridge, United Kingdom.

    4)蔡建永、江新(2018)完形填空測驗和漢語二語者語言水平的相關研究,北京語言大學第12屆科研報告會,三等獎,北京。

    5)蔡建永、江新(2018)完形填空測驗在漢語二語者語言水平測評中的作用,第六屆國際漢語應用語言學研討會,美國愛荷華。

    6)曹藝凡、江新(2018)字音和字形在漢語二語者雙字詞加工中的作用,第二十一屆全國心理學學術會議,北京。

    7)侯楓蕓、江新(2018)部件標識和筆順動畫對二語學習者漢字學習的影響——來自反應時和ERP的證據,第三屆《當代外語研究》二語加工國際學術研討會,哈爾濱。

    8)侯楓蕓、江新(2018)部件標識和筆順動畫對漢語二語者漢字學習的影響,第二十一屆全國心理學學術會議,北京。

    9)史未卿、江新(2018)使用篇章閱讀中的眼動指標區分讀者的閱讀理解水平:來自漢語母語者和二語者的證據,第八屆中國國際眼動研討會,南京。

    10)史未卿、江新(2018)預測漢語二語者閱讀理解水平的眼動指標體系的研究,第二十一屆全國心理學學術會議,北京。

    11)史未卿、江新(2018)預測漢語學習者閱讀水平的眼動指標體系的研究,第六屆國際漢語應用語言學研討會,美國愛荷華。

    12)邢濱鈺(2018)漢字位置信息對閱讀影響的眼動研究,2018對外漢語博士生論壇暨第十一屆對外漢語教學研究生學術論壇,一等獎,北京大學。

    13)邢濱鈺、江新(2018)語素位置信息對漢語母語者和二語學習者閱讀影響的眼動研究,第三屆《當代外語研究》二語加工國際研討會,哈爾濱。

    14)邢濱鈺、江新(2018)語素位置信息對漢語母語者閱讀影響的眼動研究,第二十一屆全國心理學學術會議,北京。

    15)邢濱鈺、江新(2019)語素位置顛倒對漢語二語學習者閱讀影響的眼動研究,The First Symposium on Chinese as Second Language Teaching and Research in New Zealand: Inheritance and Innovation, University of Auckland.

    16)徐晶晶、江新(2018)漢語二語者注音文本閱讀的眼動模式研究,《世界漢語教學》青年學者論壇(第6屆),北京。

    17)徐晶晶、江新(2018)文本類型對漢語二語者眼跳目標選擇的影響,第二十一屆全國心理學學術會議,北京。

    18)徐晶晶、江新(2018)文本類型對漢語母語者和二語者眼跳目標選擇的影響,語言教學與研究國際學術研討會(2018),安徽。

    19)徐晶晶、江新(2019)漢字和拼音文本閱讀效率的眼動研究,雙語與多語語境下的漢語習得研討會,英國劍橋大學丘吉爾學院。

    20)徐晶晶、江新(2019)文字呈現形式對漢語母語者和二語者閱讀效率的影響,第十七屆英國漢語教學研究會年會,英國蘭卡斯特大學孔子學院。

    21)許宏鑒(2018)大會報告點評,第五屆北京青年學者(G50)學術交流會, 中國人民大學。

    22)許宏鑒(2018)對外漢語進修課程學習成績和漢語水平考試成績的相關性研究,首屆漢語進修教育研討會,北京語言大學

    23)許宏鑒、江新(2018)漢語第二語言學習者語塊使用及其與作文質量關系的研究,北京語言大學第十二屆科研報告會,北京語言大學。

    24)袁若琳、江新(2019)漢語兒童和二語學習者圖畫書閱讀的眼動研究,首屆新西蘭漢語作為第二語言教學與研究國際研討會,新西蘭奧克蘭大學。

    25)張嫚、江新(2018)分詞呈現對漢語拼音文本閱讀影響的眼動研究,2018對外漢語博士生論壇暨第十一屆對外漢語教學研究生學術論壇,北京大學。

    26)2018年10月8日至11日,課題組主要成員蔡建永以及課題組研究生吳思遠和姜悅赴湖北武漢參加了由華中師范大學心理學院主辦的第六屆“網絡時代的心理與行為研究前沿”研討會。會議專門開設主題為“文本分析工具Coh-Metrix的理論基礎及應用”的工作坊。Coh-Metrix團隊核心成員——美國孟菲斯大學蔡志強教授作為工作坊主講人系統介紹了該工具的研發歷史、理論基礎、指標體系以及具體應用,而且特別提到了中文Coh-Metrix工具的研發情況。這些最新的學術前沿信息極大地加深了課題組成員對Coh-Metrix的深層理解,對于研發具有漢語特點的文本可讀性分析工具有重要的借鑒意義。

    子課題四的學術會議和學術交流:

    1)課題組召開內部研討會6次,每次研討會要求課題組全員參加,并先后邀請課題組以外的漢語閱讀測試專家8人次,高校漢語閱讀教學專任教師15人次參與課題研究意見征求會議,并將專家調查問卷數據進行了錄入、整理和分析。

    2)召開2次關于漢語閱讀能力測評方面的專題學術會議,重點探討了漢語閱讀能力測評體系的構想、測量對象、測量目標、測試內容、測試方式以及項目分析和分數體系等問題,對于測評體系的主要問題已經達成了共識。

    3)課題組負責人和成員先后參加了兩次國際學術會議,并提交了與漢語能力測評有關的論文,同時還邀請西班牙、英國等語言測試專家開展學術講座。

    子課題五的學術交流:

    1)于東、吳思遠、江新,漢語文本可讀性特征體系構建及其效度驗證,榮獲2018年北京語言大學第十二屆科研報告會二等獎。

    2)吳思遠、蔡建永、于東、江新,文本可讀性的自動分析研究綜述,第十七屆中國計算語言學大會(CCL2018)。

    3)吳思遠、耿朝陽、唐玉玲、于東 (已投稿)基于眾包標注的語文教材句子難易度評估研究,第十八屆中國計算語言學大會(CCL2019)。

    (2)國際合作

    課題組邀請了美國卡內基梅隆大學Keiko Koda教授、馬里蘭大學蔣楠教授、賓夕法尼亞州立大學李平教授等來訪,舉辦學術講座,并與課題組研究人員和研究生座談。通過這些活動,課題組與國際上著名學者建立密切的學術聯系和交流,并且開始進行了初步的國際合作研究。具體國際學術交流和合作如下:

    1)2017年10月30日至11月1日,第二語言閱讀研究領域的國際著名學者、美國卡內基梅隆大學Keiko Koda教授應邀到北語對外漢語研究中心舉辦三場學術講座。講座由江新教授主持,先后參加講座的師生近200人次。Koda教授的三場講座分別以二語測評、二語詞匯以及二語閱讀發展為主題展開,第一場題為“外語教學與測評的綜合方法”,第二場題為“提高外語詞匯學習能力”,第三場題為“一語對二語閱讀發展的促進作用”。Koda教授的三場講座精彩紛呈。她不但將二語測評、詞匯與閱讀發展的理論研究與實踐應用緊密結合,而且將研究問題與研究方法緊密結合,在每場講座中她都以問題的形式啟發、引導大家思考和討論,在提問與回答之中將講座推向高潮。每場講座大家都用英語積極參與討論,氣氛熱烈。子課題負責人柴省三教授等課題組成員參加了講座,并與Koda教授進行了學術交流。除三場學術講座外,Koda教授還應邀出席了兩場座談會,討論與課題研究密切相關的閱讀研究,并介紹了國際上可讀性研究的著名學者和日語文本的可讀性研究,為課題組成員和研究生進行相關研究提出了很多建議和幫助,并討論了將來可以開展的合作研究。

    2)2017年12月17日至12月22日,第二語言習得研究專家、美國馬里蘭大學蔣楠教授應張博教授的邀請來北語舉辦為期6天的“第二語言習得研究方法及期刊論文寫作工作坊”,并做了題為“第二語言加工研究:目的、方法、內容”“漢外語義結構對比和對外漢語教學”兩場學術報告。工作坊的報告和兩場講座均由江新教授主持。在工作坊中,蔣楠教授從論文選題、宏觀設計、微觀設計、結果—結論—論文等四個方面進行了精彩的講解。蔣楠教授通過深入淺出的解釋、精心挑選的文獻、豐富生動的案例,系統清晰地闡述了如何確定研究的問題、閱讀文獻、設計實驗、解釋研究結果和撰寫論文;通過不斷拓展的提問、形式多樣的互動、幽默風趣的語言,步步深入地引導大家思考研究選題、設計和結果解釋中的問題。在蔣楠教授來訪期間,課題組利用這個難得的機會,就課題研究工作的開展與蔣楠教授進行了深度的交流和討論。工作坊結束之后,課題組與蔣楠教授保持了密切的交流,并開始了兩項合作研究,第一項研究的成果已經撰寫成文,給國際英文期刊投稿。

    3)2018年10月30日至11月1日,國際知名的心理語言學家、美國賓夕法尼亞州立大學李平教授應邀在北語舉辦系列學術講座。李平教授為美國賓夕法尼亞州立大學心理學、語言學、信息科學與技術等專業終身教授,腦、行為、認知中心聯合主任,腦、語言與計算實驗室主任,計算科學研究院副主任,神經科學研究生專業負責人;Journal of Neurolinguistics主編, Frontiers in Psychology: Language Sciences副主編;美國自然科學基金(NSF)評審專家,美國白宮腦計劃、美國科學基金會科研課題首席科學家。在心理語言學、語言習得、計算機模型及雙語的認知神經機制等領域出版了大量的研究專著及學術論文。李平教授兩場講座分別以第二語言學習的腦機制、科技論文閱讀的認知加工為主題展開,兩場講座的題目分別為“Understanding the Second Language Learning Brain: Neurocognitive and Computational Approaches”“How Students Understand STEM Concepts: An fMRI study of Conceptual Representation through Expository Text Comprehension”。講座由江新教授主持,子課題負責人郝美玲教授等課題組成員與李平教授進行了深入的交流。李平教授還與課題組進行了兩場座談,就可讀性和閱讀能力研究中的問題提出了自己的意見和進一步研究的建議。

    4)2018年11月27日愛爾蘭利默里克大學? Ceallaigh博士應邀到北語進行學術訪問,并做了題為“基于內容的語言加工(Processing language through content)”的學術講座。T. J. ? Ceallaigh博士在愛爾蘭科克(Cork)大學教育學博士,現任教于愛爾蘭利默里克大學瑪麗伊瑪克特學院(Mary Immacurate College, University of Limerick)語言與讀寫教育系。這是? Ceallaigh博士級2017年1月訪問北語之后的第二次來訪。這次來訪,達成了愛爾蘭方資助課題組兩名博士研究生赴愛爾蘭利默里克大學研修半年的合作意向,兩名博士生即將于2019年9月啟程赴愛爾蘭研修。項目首席專家江新教授、子課題負責人郝美玲教授已先后獲愛爾蘭方資助赴愛爾蘭進行為期10天的學術交流和課題合作研討。

    三、成果宣傳推介情況

    1 項目開題報告已通過學�?蒲刑巿笏蛧疑缈苹鹨巹澽k;

    2 課題組通過參加學術會議、講座、召開座談會等形式宣傳課題的研究成果;

    3 通過網站、微信公眾號等途徑發布課題的有關信息。

    四、研究中存在的主要問題、改進措施,研究心得、意見建議

    1 主要問題和改進措施

    (1)大規模文本的難度標注問題。建立有難度等級標簽的大規模文本訓練集(黃金語料庫)需要花費大量的人力,而且需要取得評定者的合作,保證評定者在主觀上和客觀上都能夠認真完成評定,這有較大難度。課題組通過選擇多名評定者進入實驗室,進行分階段多次評定的方法,在一定程度上解決了這個問題。

    (2)通過近兩年的研究,子課題四(漢語閱讀能力測試課題組)發現如下問題:1)針對漢語能力測評體系的測量對象尚缺乏明確的界定。2)聘任兼具漢語閱讀能力測試命題經驗和專業素養的教師具有一定的難度。3)測量方式究竟采用紙筆測試方式還是機考方式,在成本、可行性方面尚未取得重要突破。4)研究人員在具體的測試開發中,對于漢語文本難度的把握存在一定的主觀性。

    針對上述存在的主要問題,課題組經過交流、討論和權衡后準備采取如下改進措施,進一步推動項目的進展速度。一是再設計一份問卷,對于漢語作為第二語言閱讀能力測試的對象進行需求分析(need analysis),對測量對象進行詳細的分類界定,從而針對不同水平、不同需求的測試對象進行測試分級體系設計;二是加大國內外漢語閱讀命題人員的培訓力度,招聘更多地漢語閱讀命題人員,滿足項目推進的客觀需要;三是對紙筆測試和機考測試的成本進行核算,最終確定測試方式;四是充分與子課題一和子課題二的研究人員進行溝通,借鑒子課題一和子課題二的研究成果,對命題人員初選的閱讀文本進行量化統計分析,基于量化指標對文本進行選擇,然后參考專家的意見制定文本選擇的統一標準。

    (3)在可讀性模型建立時,遇到以下幾個問題:1)在數據標注方法上,可讀性研究中文本可讀性的確定主要是請有經驗的專家或教師為文本可讀性打分,但是專家標注數據代價高,獲取難度大。2)在數據規模上,本課題組目前構建了規模較大的《漢語句子難度標注語料庫》和《中小學語文教材文本語料庫》,但兩個語料庫的規模無法滿足構建深度學習模型的需要。3)在建模方法上,本課題組使用特征工程方法構建了機器學習模型,但基于特征工程的方法學習能力有限,無法捕捉到文本語義層信息,且專家知識代價較高。

    針對這些問題,課題組提出以下改進措施:1)在數據標注方法上,使用眾包標注的方法收集文本難度的標注數據。與專家標注不同,眾包標注面向大規模的人群,通過眾包模式完成數據標注工作,適用于大規模標注工作。2)在數據規模上,未來的研究會考慮擴大《漢語句子難度標注語料庫》的標注規模。在篇章級語料庫上,考慮收集教輔材料中的文本數據,擴大篇章級語料庫的規模。3)在文本表示方法上,除了基于專家知識的語言特征表征方法,本課題組擬使用眼動追蹤技術的方法,通過記錄讀者在閱讀時的在線加工表現,作為新的文本表征方法。4)在建模方法上,使用深度學習模型提高模型的學習能力,構建性能更好,準確率更高的模型。

    (4)課題組研究時間和精力的問題。由于個別子課題負責人和成員同時承擔了其他課題的研究工作,有時候時間和精力不能集中本課題的研究上。有的課題組成員教學工作量大,或手頭有其他項目,因而投入本項目研究的精力有限。不同子課題的研究進展不太一致。今后要進一步加強課題組內部的交流,建立督促機制,推進課題研究;還應加強課題組研究團隊的建設、加強子課題之間的協調溝通與合作;結合研究生的培養和學位論文的指導,支持和鼓勵課題組的研究生更積極地參與項目的研究。

    (5)研究經費的缺口問題。通過申請滾動資助解決。

    2 研究心得、意見建議

    (1)隨著研究的深入,課題組越來越深刻地認識到,該課題的研究意義重大,甚至超過立項時的預想程度。隨著網絡文本的大量涌現,文本分析日益成為熱點,文本可讀性分析是文本分析的重要內容。而且,本課題的研究是一個大工程,需要分階段逐步完成研究目標。

    (2)從可讀性公式的研制,到可讀性自動分析工具和模型的建立,自然語言處理技術的進步為可讀性的自動分析提供了多種思路和方法。

    (3)機器學習模型可以有效預測漢語句子的難度級別,加入語言特征可以提升模型的預測準確率。句子是語言學習中常用的語言單位,也是多項自然語言處理任務的基本處理單元。句子級的可讀性研究受到越來越多的關注。

    (4)漢語閱讀能力測驗的研究,不僅具有理論價值,而且對于高校來華留學生漢語閱讀能力的教學與培養具有較高的推動作用,同時間接提高留學生的培養質量,對于回應目前國內針對來華留學生招生、培養質量的社會質疑也具有一定的社會價值。基于該考慮,我們建議相關教育職能部門與課題立項的主管部門聯動,共同推進針對來華留學生漢語閱讀能力測評體系的研發、構建和推廣力度,科學、全面地評價來華留學生的漢語閱讀能力,維護我國高等教育的國際形象。

    二、研究成果情況

    主要內容:

    一、代表性成果簡介

    1 專著:柴省三(2018)《第二語言測試問題研究》,對外經濟貿易大學出版社,2018年9月

    該著作對漢語作為第二語言測試的效度問題、信度問題、閱讀測試的公平性問題、測評體系的長度問題、測試的信息化問題進行了系統的研究。該專著的主要觀點是:語言測試體系的研發必須充分重視信度和效度問題,要充分考慮到不同考生的文化背景,避免測試文本在內容方面涉及到敏感問題(比如宗教、戰爭、領土爭端、性別歧視等);該專著對于漢語作為第二語言閱讀能力測評體系的研發在測量構想(construct)、測量內容、文本選擇、測量方法等方面具有一定的學術價值,同時在高校漢語國際教育、語言測試專業研究生培養中也具有一定的社會影響。

    2 編著:Xiaohong Wen and Xin Jiang(江新)(Eds.) Studies on Learning and Teaching Chinese as a Second Language. Routledge, 2019/1.

    Studies on Learning and Teaching Chinese as a Second Language represents the current advances in the field. It showcases theoretically motivated empirical studies and diverse methods used for better understanding how Chinese language is acquired as a second or foreign language. This contributes to L2 acquisition research in general and L2 Chinese specifically. Furthermore, this research is useful for teachers seeking to understand their students’ learning processes and adjust their pedagogical approach for more effective instruction. The book bridges the gap between research and instruction by providing pedagogical implications rooted in empirical findings.

    3 論文:Lou, Y., Cai, H., Liu, X., & Li, X(李興珊). (2019). Effects of self-enhancement on eye movements during reading. Frontiers in psychology, 10.

    基本內容:已有的研究表明讀者的眼動受到文本屬性和讀者個人的認知特征的影響。本研究進一步表明,讀者閱讀漢語文本時的眼動特征受到自我增強的社會動機的影響。實驗要求讀者默讀句子,這些句子用積極或消極特質描述自我或他人,同時記錄他們的眼動軌跡。結果發現,當積極詞匯被用來描述自我而不是描述他人時,首次注視時間和凝視時間更長,但是對于消極詞匯沒有發現該效應。這些結果提示,除了文本的視覺特征和認知因素,閱讀過程的眼動行為還受到自我增強動機的影響。主要觀點:人類動機尤其是自我增強動機,能夠影響閱讀中的眼動行為。為了增強或保持積極的自我,人們通常會選擇性地記住他們的優勢而非弱勢,所以會更多地關注描述自我的積極詞匯。學術價值:拓寬了我們對漢語文本閱讀過程中眼動控制機制的多種影響因素的理解;提示眼動跟蹤技術可以用來研究漢語文本閱讀理解過程中讀者的動機。

    4 論文:吳思遠、蔡建永、于東、江新(2018)文本可讀性的自動分析研究綜述,《中文信息學報》第12期

    文本可讀性問題最初由教育學家提出,初衷是輔助教師為語言學習者推薦適合其閱讀水平的文本。隨著計算機技術的發展及網頁文本的涌現,對文本進行可讀性分析有了更加豐富的技術手段和應用場景。該文對可讀性自動分析的相關研究進行了梳理,將可讀性自動分析的方法總結為公式法、分類法和排序法三類;然后進一步介紹了可讀性自動分析中的兩項重要內容:文本特征的選擇和數據集的使用;最后對可讀性研究的發展方向進行展望。

    5吳思遠、于東、江新(2019)漢語文本可讀性特征體系構建及其效度驗證,《世界漢語教學》(投稿,在審)

    本文主要研究如何利用漢語文本的語言特征對漢語文本的可讀性進行分析。目前,漢語可讀性研究多使用字詞層面的表層特征,較少涉及句法和篇章層面的特征,也缺乏對特征效度的對比分析。本研究首先從漢字、詞匯、句法和篇章四個層面出發,構建了一個預測漢語文本可讀性的多層面、多維度特征體系,然后以12個年級的《中小學語文教材文本語料庫》為基礎,通過建立機器學習模型考察了不同層面語言特征的預測能力。實驗結果顯示:基于漢字層面特征的模型、基于詞匯層面特征的模型預測準確率最高,基于篇章層面特征的模型準確率次之,基于句法層面特征的模型準確率最低;雖然基于單一層面特征的模型可以有效預測漢語文本可讀性,但多層面特征組合的模型預測力更強。我們還發現,不同層面語言特征的預測能力受文本的可讀性級別影響。

    6 論文:孟凱(2019)現代漢語詞法中虛義動詞性成分的功能分工與語義作用,《世界漢語教學》第1期。

    現代漢語中由虛義動詞性成分(V虛)“打、為、行、作、做”構成的“V虛+V”是古漢語遺存。這5個V虛的構詞力不同,“打”屬強勢構詞,其他幾個屬零星構詞。產生構詞力差異的原因主要在于這幾個V虛各有功能分工:“打”主要在詞法上構造“打虛+V ”,可組配的V語義類型豐富;構詞力一般的“行”與“作”,可組配的V語義類型的互補性較明顯,前者傾向于與強動作性或動作凸顯的V組配,后者傾向于與弱動作性或動作不凸顯的V組配;“為”和“做”的構詞力都較弱,“做”主要在句法上充當實義動詞前的形式動詞。V虛在詞法中的語義作用主要是:1)使“V虛+V”比V語義抽象,表現在使“V虛+V”與V的語義傾向不同和將V的[+動作]轉變為“V虛+V”的[+活動];2)使“V虛+V”與V的語體附屬義不同;3)使“V虛+V”與V多義關系的表現不同。輕動詞性V虛在漢、英詞法中都呈現出與其句法表現不同的功能分工與語義作用,這種詞法、句法差異具有一定的類型學意義。

    7 論文:李潤生(2019)漢字教學中正確運用“聯想識字法”應遵循的原則,《漢語學習》(錄用,將刊)。

    聯想識字法是漢字教學領域運用廣泛而又充滿爭議的識字法。實踐證明,恰當地運用聯想識字法,有利于提高漢字學習效率,但如果運用不當,就會給漢字教學造成混亂。正確運用聯想識字法,需遵循以下四個原則:(1)對漢字形義關系的聯想不能誤解成漢字的造字理據;(2)聯想識字法僅適用于部分漢字,特別是難學易錯的漢字,避免錯誤類推;(3)聯想具有多樣性和個體性,個人聯想的內容不宜隨意推廣;(4)形義聯想的內容不能沖擊漢字符號系統,以免引起學習者文字觀念的混亂。

    8 論文:田然(2018)基于語篇的“你好嗎”“你好”對比研究,《國際漢語教學研究》第4期。

    本文從話語分析視角對“你好嗎”“你好”這兩個問候語進行了對比分析。從使用頻率與適用廣度上看,“你好”具有顯著高頻特征,適用于從陌生到熟識的各種話語角色;而“你好嗎”則具有顯著低頻特征,只適用于高熟識度的親人、老友及情侶間。從情感功能方面看,“你好”情感量值顯著低于“你好嗎”。從歷史方面看,“你好”在清朝時出現,清朝中期“你好”根據語境應為疑問語氣,后人以問號標識,清朝末期用法與今日相同,今日用法與英語中問候語 hello 類似; “你好嗎”最早見于元朝,明朝、清朝均有用例,用法基本與今日相同,不能認為其來自英語,用法也與how are you不同。這兩個小句難度等級不同,“你好嗎”有更高的習得坡度,所以不適合在教材開篇時便教授給初級水平的漢語學習者。

    9 論文:郝美玲(2018)高級漢語水平留學生漢字認讀影響因素研究,《語言教學與研究》第5期。

    漢字的學習和掌握是留學生漢語學習的核心和難點,本研究旨在探討影響漢字認讀的客體因素,以期為留學生漢字教學提供參考。采用相關和回歸分析方法,本研究考察了35名高級漢語水平留學生對1200個常用漢字的即時認讀情況及其主要影響因素。結果表明,漢字使用頻率是留學生漢字認讀任務最重要的影響因素,語義具體性、讀音規則性和構詞能力,也對漢字認讀有顯著預測作用,但漢字基本視覺屬性,包括筆畫數和部件數未能表現出顯著影響。文章還比較了留學生與漢語母語者在漢字認讀影響因素上的異同。最后簡單討論了留學生漢字教學中需關注的幾個方面。

    10 論文:郝美玲、周思濃(2019)漢語初學者漢字閱讀準確性與流暢性影響因素研究,《世界漢語教學》(錄用,將刊)。

    元語言意識與認知技能在兒童字詞習得中扮演著重要角色,但是它們在漢語第二語言字詞習得中作用如何卻鮮有研究。本研究以初學漢語三個月左右的學習者為被試,考察了影響他們漢字閱讀準確性與流暢性的元語言意識和認知技能�;貧w分析發現,聲調意識和正字法意識可以顯著預測學習者漢字閱讀的準確性,而視覺加工技能、語音意識和快速命名卻可以顯著預測學習者漢字閱讀的流暢性。該結果模式表明,漢字閱讀準確性與流暢性是閱讀能力不可或缺的成分,二者的發展需要不同的認知能力�;诖�,我們建議,在未來的漢字教學中,除了要幫助學習者準確認讀漢字,還應加強流暢性的訓練,而元語言意識的培養可以從根本上促進漢字閱讀的準確性與流暢性。

    11 論文:房艷霞(2018)提高語塊意識的教學對漢語第二語言學習者口語產出的影響,《世界漢語教學》第1期。

    語塊在語言中大量存在,語塊加工是否存在優勢,對此學界還存在爭議。本研究以包含語塊和相對應非語塊的72個漢語句子作為實驗材料,以62名中級、高級漢語第二語言學習者和33名漢語母語者作為被試,考察閱讀過程中語塊與非語塊加工的差異。實驗結果顯示,在目標詞組(指語塊和非語塊)、目標詞組末尾字、目標詞組后位詞和整句四個興趣區,漢語母語者和第二語言學習者都表現出穩定的語塊加工優勢。這種加工優勢表現為更短的注視時間和更少的注視次數,且在閱讀的早期階段和后期階段都有所體現。在目標詞組興趣區母語者的語塊加工優勢比第二語言學習者更大。

    12 論文:徐晶晶、江新、張習文(2018)拼音文字背景的外國學生漢字書寫表征單位的初步研究,《漢語國際教育(中英文)》第3期。

    本研究采用基于數字墨水技術的實驗方法,探討拼音文字背景的外國學生在漢字書寫中的表征單位,并考察書寫表征單位是否與學生漢語水平和漢字結構有關。實驗以36名學習漢語的拼音文字背景留學生為被試,要求被試用Anoto數碼紙筆抄寫24對形近字(例如“窄”與“容”),考察關鍵筆畫間隔的停頓時間。結果發現:(1)關鍵筆畫間隔在部件之內的停頓時間顯著短于在部件之間,這種間隔位置效應與漢語水平無關,表明第二語言學習者與母語者一樣,將部件作為其書寫表征單位;(2)書寫上下結構和左右結構漢字時,關鍵筆畫間隔在部件之內的停頓時間都要比部件之間短,這表明部件作為書寫表征單位不受漢字結構的影響。本研究結果提示我們在漢字書寫教學中應重視部件的作用。

    13論文:華麗婭、江新(2018)摩爾多瓦人漢字抄寫和字形知覺的實驗研究,《漢語國際教育(中英文)》第3期。

    漢字對母語為字母語言的人來說是一種復雜的圖畫,對以羅馬尼亞語或俄語為母語的摩爾多瓦人來說也是如此。對沒有學過漢字的摩爾多瓦人來說,面對這樣一幅幅既繁雜又沒有意義的圖畫時,他們對漢字字形的感知有什么特點?本文通過抄寫實驗考察了22名摩爾多瓦人對不同結構類型漢字的字形知覺,使用數碼筆記錄漢字書寫的動態過程,以分析被試抄寫漢字時筆畫、部件書寫的先后順序。結果發現:(1)漢字書寫存在優勢筆畫;(2)被試的漢字書寫受母語負遷移的影響;(3)被試書寫筆畫數多的漢字容易出現缺少筆畫的現象;(4)多部件的漢字書寫可能受漢字結構的影響。

    三、下一步研究計劃

    1 各個子課題在已有工作基礎上繼續按計劃推進。

    2 擴大漢語文本收集范圍。1)計劃收集中小學教材中的文言文和課外讀物中的文言文,將可讀性的研究范圍從現代漢語擴展到古代漢語,嘗試研究文言文閱讀理解的難度因素并建立文言文可讀性分析模型。2)計劃收集海外主流的漢語教材課文,將漢語二語教材課文的收集范圍從國內擴展到海外。雖然自建的漢語二語教材語料庫已經包括了一套美國出版的教材,但是還應增加海外教材的數量。3)繼續收集和補充漢語水平考試的閱讀測試文本。除了收集真題語料,還可以收集模擬題語料,為考試文本語料的難度/可讀性分析奠定基礎。

    3 擴大研究對象。除了以中小學生、來華漢語學習者為研究對象進行實驗和調查,還計劃擴大研究對象的范圍:1)以新疆等少數民族地區漢語/國語學習者為研究對象進行實驗和調查,研究新疆少數民族漢語/國語學習者文本閱讀的難度和影響因素,比較他們與內地中小學生漢語文本理解難度影響因素的異同,研究適應新疆少數民族漢語/國語學習者的文本可讀性分析系統。2)以海外漢語學習者(包括成人和兒童青少年)為研究對象進行調查,考察他們理解漢語文本的普遍性和特殊性,研究適應海外漢語學習者的文本可讀性分析系統。3)對來華留學生的研究從普通的漢語教學階段擴展到入系學習專業的學術漢語教學階段。

    4 課題總體研究進度計劃和工作方案。

    (1)第一階段(2019年8月至2020年7月)

    1)擴大文本語料庫的規模,完善和補充現有自建語料庫(子課題一、三、四、五);

    2)繼續進行文本難度的人工評定數據的收集,完善黃金語料庫的建設,為可讀性計算建模準備好大規模的數據集(子課題三、五);

    3)繼續開展不同難度等級文本的語言特征分析、不同類型學習者閱讀理解的心理語言學實驗研究,在前期對不同難度文本進行字、詞層面特征分析和實驗研究的基礎上,重點聚焦句子、語篇層面的分析、描寫、實驗和特征量化。同時分析不同層面、不同語言特征對于文本難度的影響力大小,以及影響不同類型文本可讀性、不同類型學習者閱讀的重要因素,找出重要特征并進行量化。

    4)在以上工作的基礎上,對重要特征進行量化并實現自動化提取,利用機器學習算法建立針對母語者的漢語文本可讀性模型(子課題一、二、三、五)。

    5)基于Lexile閱讀能力構念和題型編制漢語閱讀能力測驗題目,并進行預測(子課題四)。

    (2)第二階段(2020年8月至2021年7月)

    1)對漢語母語者的可讀性分析模型進行內外部效度檢驗,對模型進行修正、完善,最終獲得一個可以應用的可讀性自動化分析系統(子課題一、二、三、五);

    2)借助文本難度預測系統,對文本進行難度計量和統計分析,獲得文本的難度指標,組織命題員進行較大范圍內的命題,選擇目標被試,進行預測試,以估計不同難度文本的各種參數,建立適當規模的閱讀能力測試題庫(子課題四);

    3)進行文本可讀性自動分析系統的開發(子課題五)。

    (3)第三階段(2021年8月至2022年7月)

    1)使用眼動追蹤技術的方法,通過記錄讀者在閱讀時的在線加工表現,作為新的文本表征方法(子課題二、三、五)。

    2)使用深度學習模型提高模型的學習能力,構建性能更好,準確率更高的可讀性預測模型(子課題五)。

    3)針對漢語二語學習者的特點,完成二語者可讀性預測模型的建立、效度驗證和模型修正(子課題二、三、五)。

    4)建立可讀性測評網絡子系統(子課題三、五)。

    5)設計和開發計算機多階段(MST)半自適應性測試,完成漢語閱讀能力系統的建設(子課題四、五)。

    (4)第四階段(2022年8月至2022年12月)

    1)將數據庫、文本可讀性測評、閱讀能力測評有機整合和集成,以統一形式呈現,作為課題最終示范應用平臺(子課題五)。

    2)基于漢語可讀性和閱讀能力測評的分級閱讀網絡服務平臺試運行(子課題五)。

    3)準備結題工作(所有子課題)。

    課題組供稿 

    (責編:孫爽、艾雯)
    国产精品国产三级国产av品爱网 | www.国产精品.com| 久久精品国产福利国产秒| 无码精品蜜桃一区二区三区WW | 亚洲国产婷婷综合在线精品| 日本尤物精品视频在线看| 免费精品一区二区三区第35| 国产精品青青在线观看爽香蕉| 亚洲国产成人久久精品大牛影视| 日韩精品无码AV成人观看| 999精品视频这里只有精品| 四虎国产精品免费久久影院| 最新国产精品亚洲| 亚洲国产精品综合久久2007| 久久精品中文字幕第一页| 国内精品久久久久久不卡影院| 国产一区二区三区日韩精品 | 日韩精品中文字幕在线| 日本精品视频一视频高清| 久久精品aⅴ无码中文字字幕重口| 国产在线不卡午夜精品2021| 三上悠亚国产精品一区| 国产精品亚洲综合专区片高清久久久| 国产精品亚洲综合| 精品久久久久久中文字幕女 | 99re在线视频精品| 久久精品国产精品亚洲艾| 嫩B人妻精品一区二区三区| 久久91精品综合国产首页| 大桥未久在线精品视频在线| 精品中文字幕一区在线| 国产手机精品视频| 国产成人久久精品麻豆二区| 日本精品视频一区二区| 日韩精品免费一区二区三区| 精品国产三级在线观看| 在线观看91精品国产不卡免费| 亚洲精品无播放器在线播放| 久久精品成人一区二区三区| 亚洲AV无码一区二区三区久久精品| 国产成人精品三级在线|