一、 研究進展情況
1、課題開題與子課題進展情況
按照項目書的整體研究計劃,針對具體的研究問題,現就項目的整體進行情況匯報如下。首先,完成了《毛詩引得》、《春秋引得》、《春秋左傳引得》、《春秋公羊傳引得》、《春秋谷梁傳引得》五部經書的全部文本的數字化,并制定了針對《漢學引得叢刊》特刊文本數字化的規范。完成了《史記及注釋綜合引得》《漢書及補注綜合引得》《后漢書及注釋綜合引得》和《三國志及裴注綜合引得》前四史的引得詞頭的錄入,初步完成了《四十七種宋代傳記綜合引得》《遼金元傳記三十種綜合引得》所涉及到的人物的姓名、字號的文本數字化。其次,基于四部經書的數字化文本,制定了涵蓋春秋以前的社會、經濟、政治和文化的詞匯底表,并對底表中的人名、地名和時間實體進行了標注。基于《毛詩引得》的領域知識、《春秋經傳引得》的詞匯分布特征,基于條件隨機產,構建了自動分詞、詞性標記和自動斷句的自動模型。再次,在所制定的《春秋經傳引得》詞匯底表基礎上,篩選出實體和非實體詞匯,并圍繞非實體詞匯,確定不同詞匯的義項,為構建周遍型和引得的典籍知識庫奠定基礎。又次,結合對64種81冊《漢學引得叢刊》的分析,從學理上對哈佛燕京學社引得編纂處的成員和哈佛燕京學社引得編纂處的成立與索引貢獻進行了系統而全面的分析與探究。對引得序言的文本數字化進行了實驗性的探究。系統調研了《引書》的研究狀況,分析了《漢學引得叢刊》中引書的整體分布狀況,擬定了《引書》文本數字化的初步框架。最后,結合《春秋經傳引得》詞匯底表,對春秋以前時期的詞匯分布狀況進行了分析。結合八部先秦典籍文獻,探究了支持向量機在先秦典籍分類上的整體性能,為后續人文計算使用自動分類模型打下了基礎。
在上述計劃總體執行情況的基礎上,各子課題具體執行情況如下。
一、《漢學引得叢刊》的數字化方面
以《春秋左傳引得》《春秋公羊傳引得》《春秋谷梁傳引得》為典型代表案例,對《漢學引得叢刊》的數字化方式、過程進行了探究。
(一)詞頭的錄入與校對
將《春秋經傳引得》中出現的詞頭以及子詞頭進行逐字地手動錄入生成相應的文檔。有的詞頭有多種含義,不管是名詞,動詞,形容詞都不做區分。但如果這個詞頭為特殊名詞,則在相應的詞頭項后面添加該詞頭的特殊釋義,并按照《引得》中出現的將其特殊釋義用括號表示,這里的括號采用的是中文字符,例如:“心、心(星名)”,前一個“心”在一般釋義為“心肺”或者“心意”。后一個“心”則為“星宿名”。此外,還有一些詞頭后括“參”表示方式一般用于兩種情況:
1.一人有多種稱呼,例如:
宋襄公(參:大子慈父,襄公,宋子,宋公,宋公慈父)
“宋襄公”在經傳文中有“大子慈父”,“襄公”,“宋子”,“宋公”,“宋公慈父”五種稱呼。
2.多人一種稱呼,例如:
文伯(晉,參:士文伯)
文伯(晉,參:荀躒)
文伯(魯,參:穀)
“文伯”在經傳文中不同的地方所指代的人物不同,前面的兩個“文伯”指“晉”國的“士文伯”和“荀躒”,后面的“文伯”指 “魯”國的“穀”。以上含括號的詞頭,在錄入時為了便于區分將括號及其內容一并錄入。
為了確保錄入的準確性,使用第二批人進行了二次的人工校對,對有存疑的字詞頭進行多方討論進行最后的判定。對于一些常見字的錯誤進行了總結和統一替換。對于多數繁體字不認識或者無法通過拼音錄入的情況,制定了相應的技術方案,解決了錄入問題。
(二)正文的獲取與校對
《春秋》三傳的主要由四部分組成:《春秋》《公羊傳》《谷梁傳》《左傳》。首先通過技術手段將《春秋》三傳的正文全部數字化,成為《春秋》三傳的電子版,再根據《春秋經傳引得》的正文順序對三傳進行了合并。經過人工的合并獲得了與《春秋經傳引得》格式相同的電子版正文。通過閱讀發現,電子版的正文與洪業先生所使用的正文存在大量的字詞差異。因此,在第一遍校對的基礎上進行了字的校對,以《春秋經傳引得》為基準,對電子版中不一致的地方進行更改。例如:電子版中繁體的“為”取“為”,而引得中作“爲”,所以可以全部替換為“爲”,“為”作部首的也改為“爲”,“偽”作“僞”,“蒍”作“蔿”。在電子版中還添加了頁碼信息,根據《引得》在電子版的正文中在每一頁結尾字的后面添加了頁碼用[num]的形式表示。此外,將引得的腳注信息也人工錄入,將有腳注的字詞用()括起來,添加相應的編號,在另一文檔中記錄腳注內容。例如:“63-4 一本輟上有而字下同”表示第63頁的編號為4的腳注內容。
為了確保利用計算機程序自動生成語境的準確性,根據《春秋經傳引得》對電子版的斷句進行了校對。若電子版與《引得》的斷句位置一致,則保留電子版的標點符號。若不一致則添加“/”或者刪除標點。此外,“、”不作為斷句標識,則保留。在春秋經傳引得正文中作為斷句的符號有:“,”,“。”,“:”,“?”,“/(校對過程中加的斷句標識)”,不作為斷句符號有:“、”,“「”,“」”,“《”,“》”,“『”,“』”,“<”,“>”。
(三)語境的生成與校對
根據校對完成的電子版正文和先前錄入的電子版詞頭,使用計算機程序進行自動生成語境。程序自動生成的語境可能存在錯誤匹配,我們通過人工的對每個詞頭下的每條語境進行校對,確保詞頭下的語境匹配完全正確。在抽取語境前將括號及其特殊釋義刪除,校對語境時邊校對邊添加,這樣重新生成了一份完整詞頭下的語境。在校對語境時我們使用“互參驗證”的方法將詞頭、《引得》、校對后的全文以及自動匹配的語境結合起來進行校對。具體實施步驟如下:
圖1 語境校對整個作業流程圖
最后,根據校對完的語境,將他們的詞頭(含人工再次添加的特殊釋義)再次抽取出來與原詞頭進行對比,檢查原詞頭和語境中詞頭是否一致。這次校對主要是提高詞頭后括號中的特殊釋義是否正確。通過檢查發現原詞頭和語境錄入的詞頭存在大量的不一致,這種不一致主要有兩種情況:一是詞頭主體錯誤,這種錯誤主要發生在一些沒有語境的異體字上。比如“鸞”、“?”、“竈”這種筆畫多結構復雜的字。還有部分字的簡繁混用情況,如“別”統一改為 “別”,“衛”統一改為 “衞”等。第二種不一致情況出現在詞頭后括號中的釋義上。通過將不一致的詞頭重新確認后確定最終版本的詞頭。
基于上述整個過程,本子課題完成了對《春秋經傳引得》的文本數字化,形成了針對《漢學引得叢刊》數字化的基本操作規范,并在該規范的基礎上, 完成了對《毛詩引得》、《史記及注釋綜合引得》、《漢書及補注綜合引得》、《后漢書及注釋綜合引得》和《三國志及裴注綜合引得》、《四十七種宋代傳記綜合引得》和《遼金元傳記三十種綜合引得》的全文本、詞頭的數字化。
二、面向《漢學引得叢刊》基本素材庫的多層級標注方面
首先,本文利用機器學習的方法對手工分詞的《詩經》語料進行模型訓練,并引入《漢學引得叢刊》中的《毛詩引得》領域詞表對測試效果最佳的訓練模板封閉測試后得到的分詞結果進行長詞校正,構建了針對《詩經》的自動分詞模型和語料庫,具體實現流程如圖2所示。
圖2 《詩經》自動分詞流程
根據訓練語料特性,結合《廣韻》字表,利用統計分析的方法構建特征模板,采用條件隨機場(CRFs)的機器學習方法搭建《詩經》的自動分詞模型,并對不同特征組合下的分詞模型采用準確率、召回率、調和平均值指標進行性能測試,從而完成自動分詞模型的構建。其次,選取《尚書》《禮記》《周禮》《孝經》《詩經》《周易》《論語》《孟子》等8本典籍,在制定的形容詞、擬聲詞、連詞、時間詞、副詞、助詞、方位詞、動詞、詞綴、使動用法、兼詞、為動用法、數詞、意動用法、普通名詞、標點、人名、其他語素或字、地名、語氣詞、專名、形容詞作狀語、介詞 、名詞作狀語、量詞、動詞作狀語、代詞等詞性規范集合的基礎上,結合單字詞及其詞性、多字詞的首尾字及其詞性特征、詞語長度、讀音等特征,利用條件隨機場模型完成面向先秦典籍的詞性自動標注模型構建,其中基于組合特征模板的的詞性標注模型調和平均值F能達到了94.79%,為后續展開大規模的先秦典籍詞性自動標記奠定了堅實的基礎。針對《春秋經傳引得》經過精加工的四部典籍數字化文本,根據語境加工過程當中對句讀的處理,在統計的基礎上人工分析句法的分布情況,并統計小句的長度、小句首字、首詞、尾字、尾詞的具體分布,構建面向《春秋經傳引得》的句讀分布特征。把每一個小句看成一個序列,把對句讀分類的問題轉化為序列化識別的問題,基于條件隨機場,構建了面向《春秋經傳引得》的句讀自動判定模型,并把該模型推廣應用到其他典籍語料上。
三、《漢學引得叢刊》典籍知識庫構建方面
首先,典籍知識庫當中最重要的構成部分是實體,結合已經實現的典籍數字文本,對典籍當中不同實體進行分析,形成典籍實體規范是本課題當前完成的一項工作。典籍實體規范的整體概貌如下:古漢語尤其是春秋時期的人名構成,與現代漢語人名構成方式有很大不同,不論是構成成分的種類,還是構成規則,都要更加的復雜和多樣。在這樣的情況下,對人名進行類別細化的必要性,成為一種必須認真對待的問題。以下為按本規范標注實體后的樣例:
夏,五月,鄭伯克段于鄢。
[TIME.季夏],[TIME.月五月],[PER.氏尊鄭伯]克[PER.名段]于[LOC.地 鄢]。本實體規范制定的目的是便于古漢語典籍的實體識別、實體消歧和實體關系抽取。實體識別是基礎和前提,也是最重要的一個環節。目前較為有效的實體識別技術大多基于條件隨機場等序列化標注模型,對于漢語來說,序列化標注的每一個特征項對應一個漢字。考慮到這一點,本規范在制定時,力求保證實體類別和命名規則可以作為序列化標注的特征項來使用。比如 “氏+尊稱+名”這一命名規則,人名構成成分“氏”、“尊稱”和“名”可以對應作為人名中每個漢字的特征項,詳見下例:
[TIME.月份五月],[PER.氏尊名鄭伯突]出奔[LOC.國蔡]。
五 月 TIME.B
月, 月 TIME.E
鄭 氏 PER.B
伯 尊 PER.M
突 名 PER.E
出 N N
奔 N N
蔡 國 LOC.S
這樣對于按本規范標注過命名實體的語料來說,有兩種重要的特征可以供序列化標注模型來訓練,且這些特征的信息量相對于以往漢語命名實體識別研究來說,是更為豐富的。
其次,結合已經制定的《春秋經傳引得》詞匯底表,對其中的非實體多義項詞匯進行了分析,根據已經確定的詞匯義項,后續利用決策樹算法完成對詞匯義項計算模型的構建,并把該模型推廣到其他典籍詞匯義項的確定上,從而實現對《漢學引得叢刊》整個多義詞義項的自動確認。
最后,《引得》的序言具有獨特的價值并且是典籍知識庫當中獨特的知識的一種。在項目執行過程當中,選取《荀子引得》的序言為案例,對《引得》序言的結構特點、語言特色進行了分析,并實現了對該序言的數字化,為后續整個《漢學引得叢刊》序言的數字化、分析與統計打下了基礎。
四、基于典籍知識庫的《漢學引得叢刊》研究方面
一方面,圍繞《漢學引得叢刊》的學理探究。對《漢學引得》叢刊的主要編纂人員進行了細致的梳理,系統而全面的展現了《漢學引得叢刊》編纂者的不同貢獻,比如李書春不僅親自參與了多部引得的編纂工作,如《太平御覽引得》《食貨志十五種綜合引得》等,并獨自完成了《唐詩紀事著者引得》,還是《引得》校印所的負責人。以民國初期“西學東漸” 、“整理國故”與“索引運動”的發端為大背景,說明了哈佛燕京學社引得編纂處成立的時代背景和成立的整體情況,并通過《漢學引得叢刊》和《引得說》系統闡述了哈佛燕京學社引得編纂處的貢獻和價值。另一方面,通過對《儀禮引得附鄭注引書及賈疏引得》《春秋經傳注疏引書引得》《禮記注疏引書引得》《毛詩注疏引書引得》《周禮引得附注疏引書引得》和《爾雅注疏引書引得》等經部引書數據的分析,制定了該類引書的數字化整體框架,同時通過設計的專門程序獲取了這八部經書的完整的注疏內容,為后續全面分析引書的整體分布奠定了堅實的基礎。
五、基于典籍知識庫的人文計算研究方面
一方面,對《左傳》、《尚書》、《詩經》三部上古文獻字的分布頻次進行了統計,發現均符合齊普夫定律,并對高頻字的分布進行了統計和分析,統計結果見表1。
表1 《左傳》、《論語》、《詩經》中前10高頻字詞分布情況
《左傳》 《論語》 《詩經》
序號 漢字 頻次 頻率(%) 漢字 頻次 頻率(%) 漢字 頻次 頻率(%)
1 之 7344 3.746 子 975 6.108 之 1176 3.796
2 子 4988 2.544 曰 759 4.755 不 630 2.034
3 曰 3732 1.904 之 613 3.840 我 590 1.905
4 不 3632 1.853 不 583 3.652 有 568 1.834
5 也 3601 1.837 也 533 3.339 其 545 1.759
6 公 3447 1.758 而 345 2.161 子 477 1.540
7 以 3426 1.748 其 270 1.692 于 338 1.091
8 而 3128 1.596 者 219 1.372 兮 324 1.046
9 其 2662 1.358 人 219 1.372 彼 308 0.994
10 人 2577 1.315 以 211 1.322 以 307 0.991
合計 38537 19.659 4727 29.613 5263 16.99
另一方面,結合典籍文本,從宏觀的角度和微觀的細節挖掘出相應的類別知識是人文計算的重要內容之一。在這一前提下,基于《論語》《老子》《管子》《莊子》《孫子》《韓非子》《孟子》《荀子》和《墨子》等九部先秦典籍,結合支持向量機,從宏觀的角度構建了先秦典籍類別自動判定模型。在構建自動分類模型過程當中所使用的TF-IDF、互信息、卡方統計和信息增益方法獲取特征詞的策略,為后續分類模型特征詞的選取積累了特定的經驗,同時在分類過程當中對特征維度的選取在一定程度為后續構建高性能的自動分類模型奠定了基礎。
2、調查研究及學術交流情況
(一)調研數據整理運用
在本項目執行的過程中,主要對典籍當中實體的情況進行了調研,調研范圍包括目前市面上所有的有關典籍的詞典,比如《春秋左傳詞典》《史記辭典》等,有關典籍的經典評介、教材,比如魯迅先生的《漢文學史綱要》袁行霈先生主編的袁行霈先生的《中國文學史》、王力先生的《古代漢語》等,整理形成了關于典籍中人名、地名和時間等實體規范的有關調研數據,下文具體給出了有關人名這一實體分布的調研情況,具體如下:
人名是最常見的命名實體。在現代漢語命名實體識別研究中,常根據“姓+名”這樣的人名構造規則,利用姓氏表、人名用字表等資源來提高識別效果。然而古漢語人名的構造規則與現代漢語有較大不同,且存在著多種規則并用的情況。對于多種命名規則,使用同一個實體類別來表示顯然是不利于實體挖掘研究,因此有必要對人名實體進一步分類,以對應不同的命名規則。現代漢語人名一般由“姓”和“名”構成。古代漢語中,“字”也是構成人名的重要成分。在春秋時期的典籍中,人名的構成更為復雜,“名、字、氏、尊稱、爵稱、出生、排行、謚號、職官、姓”等均是重要的構成成分。
不同人名的構成成分通過排列組合,可以形成種類繁多的命名規則。然而不可能所有的組合都能構成人名。春秋中人名構成成分繁多,構成規則復雜多變,而構成人名的漢字卻十分有限,而且春秋時期典籍文獻的數量和文字量相對較少。經過調研,我們對春秋時期的人名與稱謂的標注形成了一整套完整的規范,具體包括以下14種情況:爵稱和尊稱;字的構成與表示;“子”字;排行和尊稱;排行和氏;名;字;排行;“子”;氏;謚號;排行;合稱。
(二)文獻資料收集整理
圍繞著人文計算、數字人文、典籍數字化、古文自動處理等已有的相關研究,面向CNKI、萬方、維普和讀秀、Web of Science等學術文獻數據庫,拉網式地獲取了相關的研究文獻,并基于已經占有的相關文獻,針對古文數字化、智能處理和相關人文計算研究的已有研究,對古文信息處理的研究現狀進行了統計和分析。
二、 研究成果情況
①代表性成果簡介
在按部就班推進項目進行的過程中,形成了如下三類成果:
1、以《春秋經傳引得》為代表的典籍精加工語料庫。該語料庫不僅標注了實體、非實體、單一義項和多義項的等細顆粒度的語義知識,而且進行了自動分詞和詞性標記。該語料庫不僅為古文信息處理提供了第一手的極其寶貴的深標注語料,而且有益于古典文獻學、目錄學和古漢語的研究者基于該語料庫展開深入的數字人文探究。
2、面向典籍的知識挖掘模型構建。結合《毛詩引得》、《春秋經傳引得》等精加工的典籍語料,結合自動斷句、自動分詞、詞性標注、多義詞消歧等研究任務,通過條件隨機場、支持向量機、決策樹所構建的各種知識挖掘模型是本課題的代表性的研究成果之一。該系列知識挖掘模型的構建不僅能夠推進《漢學引得學刊》知識挖掘的探究向縱深發展,而且對于其他古漢語知識挖掘的探究也有極大的參考價值。
3、針對典籍知識挖掘探究刊發的系列論文。圍繞著《漢學引得叢刊》中的典籍所進行的《引得》數字化、典籍自動分詞、典籍詞性標注、相關研究狀況綜述、典籍自動分類和《引得》的學理性探究等問題,刊發了系列論文。該系列論文的刊發一方面有助于相關的研究者了解目前該領域的最新研究進展,另一方面有利于提升該研究領域在社會上影響力。
②階段性成果及內容簡介
1、王曉玉, 李斌. 基于CRFs和詞典信息的中古漢語自動分詞[J]. 數據分析與知識發現, 2017, 1(5):62-70.
以古籍語料為例,針對中古漢語的自動分詞問題,優化分詞原則,運用CRFs模型和詞典相結合的方法,消除中古漢語人工分詞結果中易出現的分詞不一致問題;同時在CRFs分詞中引入字符分類、字典信息兩種特征,并通過對比實驗選取每種特征最合適的分詞模板。實驗結果顯示,分詞結果的總F值在封閉測試中達到99%以上,開放測試的綜合測試中也達到89%-95%。結果表明,在有效提高分詞一致性的前提下,字符分類、詞典標記特征能夠有效提高中古漢語CRFs分詞的精確度。同時,所提出的中古漢語分詞系統可以服務于中古時期多類別的漢語語料。
2、黃水清,王東波. 基于優質人工語料的古籍文本人文計算[C].// 《中國索引》編輯部. 中國索引(第二輯). 上海:復旦大學出版社,2017.(二校結束)
在介紹了有關人文計算的主要研究機構和回顧了有代表性的古籍文本人文計算研究的基礎上,對《漢學引得叢刊》產生的歷史背景和內涵與外延進行了細致而全面的闡述。在簡述《漢學引得叢刊》在典籍索引編纂實踐和整體索引理論構建上的價值前提下,從中華文化和學術資源寶庫的角度,分析了《漢學引得叢刊》對古籍文本人文計算的獨特意義和價值。基于《漢學引得叢刊》的獨特體例,結合人工和計算機有機協同的策略,在對《漢學引得叢刊》的多層面優質人工語料進行加工的基礎上,擬對古籍文本的人文計算進行多角度的探究。
3、馬學良,耿兆輝,劉玲玲,王東波[J].哈佛燕京學社引得編纂處的成立與索引貢獻[J]. 圖書情報工作,2017,61(12):50-56.
文章通過文獻分析法和演繹法,總結了引得編纂處成立前東西方文化交流和中國傳統知識分子轉型的社會背景,分析了“整理國故”運動、“索引運動”影響下引得編纂處取得的索引成就。文章認為,哈佛燕京學社引得編纂處是民國時期“西學東漸”、“整理國故”及“索引運動”等眾多因素影響下的產物,成績斐然;引得編纂處的成就不僅局限于編纂了64種引得本身,還對中國索引事業發展起到了巨大的推動作用,對中國學術界產生了深遠影響。
4、劉玲玲,梁旭,馬學良. 哈佛燕京學社引得編纂處成員分析[J]. 圖書情報工作,2017,61(12):57-63.
文章運用文獻分析法和數據分析法,發現近年來關于哈佛燕京學社漢學引得叢刊研究過程中對于引得編纂處的成員構成始終是一個盲區,通過鉤沉史料,揭示了他們各自的生平、學術背景、學術思想及在引得編纂處所承擔的任務與角色。研究發現:擁有一批精干的專業人才隊伍,是哈佛燕京學社引得編纂處在古籍索引編纂方面取得斐然成就的關鍵要素。
5、黃水清,王東波. 古文信息處理研究的現狀及趨勢[J].圖書情報工作,2017,61(12):43-49.
隨著古文數字化、智能處理和相關人文計算研究的迅速發展,對這一領域的整體研究狀況進行梳理,不僅有助于從以往的研究當中總結相應的規律,而且在一定程度上有益于后續探究的展開。文章厘定了古文信息處理的概念,分析了古文信息處理的研究現狀,給出了古文信息處理研究的整體概貌。同時,在統計分析的基礎上,對古文數字化、智能處理和人文計算這3個方面的研究內容進行總結、回顧和研究趨勢的展望。研究表明,在古文信息處理研究中,古文數字化所取得的成就最大,古文智能處理在詞匯級的探究上取得了一定的成效,而對于人文計算來說,與古文相關的研究則才剛剛起步。
6、王東波,黃水清,何琳. 基于多特征知識的先秦典籍詞性自動標注研究[J]. 圖書情報工作,2017,61(12):64-70.
先秦典籍在古代典籍中的地位極為重要。本文提出對先秦典籍進行詞性自動標注的解決方法,以便更加準確地挖掘先秦典籍中的潛在知識。文章通過條件隨機場模型,結合統計方法確定組合特征模板,并最終得到針對先秦典籍的詞性自動標注算法模型。結果表明,在先秦典籍自動分詞的整個流程基礎上,得到簡單特征模板、組合特征模板下的詞性自動標注模型,基于組合特征模板的詞性標注模型調和平均值F達到94.79%,具有較強的推廣和應用價值。在構建詞性自動標注模型的過程中,通過融入字詞結構、詞語拼音和字詞長度的特征知識,使得模型的精確率和召回率得到有效的提升。
7、王東波,何琳,黃水清. 基于支持向量機的先秦諸子典籍自動分類研究[J]. 圖書情報工作,2017,61(12):71-76.
針對先秦諸子典籍進行自動分類的探究,以更加深入和精準地從古代典籍中挖掘出相應的知識。基于《論語》《老子》《管子》《莊子》《孫子》《韓非子》《孟子》《荀子》和《墨子》9種先秦諸子典籍構成的訓練和測試語料,采用支持向量機技術,提取TF-IDF、信息增益、卡方統計和互信息為特征,完成針對先秦諸子典籍的自動分類實驗。測試表明,基于先秦諸子典籍得到的自動分類模型調和平均值能達到99.21%,效果較好,具有較強的推廣和應用價值。
8、王姍姍,王東波,黃水清,何琳. 多維領域知識下的《詩經》自動分詞研究[J]. 情報學報,已投稿,外審過程中
《詩經》位居古文經學派“五經”之首,蘊含豐富。隨著人文計算的廣泛應用,本文結合《漢學引得叢刊》中《毛詩引得》的領域知識,采用機器學習的方法研究《詩經》的自動分詞。基于《詩經》手工分詞的語料,采用《廣韻》字表和統計分析相結合的方法,得到23組融合不同特征知識的特征模板,訓練產生機器學習分詞模型。對每個分詞模型進行性能測試,分析發現詞性特征對《詩經》分詞效果的影響最大,且分詞模型的調和平均值F值最高可達到97.42%。最后,采用《毛詩引得》領域詞表對測試性能最佳的分詞模型進行長詞校正的模型后處理,得到了融合引得專家詞匯知識的《詩經》分詞語料。本文融入多維領域知識實現《詩經》自動分詞的研究模式不僅對先秦詩歌體的相關研究起借鑒意義,而且對先秦典籍的自動分詞研究具有啟發性,《詩經》分詞語料作為本項目先秦典籍語料庫的一部分,對進一步實現先秦典籍的知識挖掘有較強的輔助作用。
課題組供稿