一、研究進展情況
主要內容:
①研究計劃總體執行情況及各子課題進展情況
本課題的研究前期主要是收集和整理兩岸關系的族譜資料和研發設計數據庫。在資料數據化、電子化的同時,開展相關的課題研究和學術交流活動。
資料收集電子化是一項龐大的工程,收集整理逾萬種的家譜資料不僅僅是完成資料掃描電子化那么簡單。慶幸地是我們在建設數據庫的過程中研發了人工智能識別系統,使我們將電子化的族譜資料進行人工智能識別時提高了效率,推進了數據庫的建設工作。
我們將以往收集到的族譜資料整理出版,完成了《客家珍稀譜牒文獻叢刊》(100冊),由廣東人民出版社正式出版。課題組成員已撰寫相關論文10多篇,并完成《閩臺族譜文獻研究》(20萬字)撰寫工作,正與九州出版社簽訂出版合同。
相關課題組正在編纂族譜目錄,并撰寫有關族譜與兩岸關系、閩臺社會等方面的研究論著。
②調查研究及學術交流情況
族譜資料的收集情況:課題組基本完成了各地族譜資料的收集工作,并派員赴臺灣收集族譜資料。我們先后有6人赴臺收集資料20天,有1人赴臺1個月訪學并收集課題相關的族譜資料。
2018年2月6日,利用課題開題之際,我們與福建省姓氏源流研究會共同舉辦了兩岸關系族譜資料數據庫建設會議,邀請了臺灣10余位姓氏研究會代表出席會議。
2018年12月7日——9日,我們在福州舉辦了第六屆兩岸文化發展論壇,與會代表100余人,其中臺灣代表出席會議亦有30人之多,會議以兩岸族譜研究、宗親關系等為題展開深入地探討。
2019年4月20日,我們同臺北大學人文學院陳俊強簽訂了福建師范大學與臺北大學人文學院學術交流的協議,雙方擬在在臺灣文獻資料研究方面,在臺灣民俗文化研究方面,加強合作。
2019年6月16日——18日,我們在福州舉辦了第十一屆海峽論壇之第七屆兩岸文教發展論壇,臺灣代表有30多位出席會議并發言。
圍繞兩岸關系我們亦邀請廈門大學臺灣研究院的李鵬、劉國深、唐永紅、張寶蓉;福建社會科學院的劉小新、劉傳標;全國臺灣研究會的汪毅夫;上海交通大學臺灣研究中心的林岡;臺灣世新大學的曾永義、臺灣淡江大學的呂正惠、臺灣東海大學的趙剛、臺灣中華兩岸和平發展聯合會的藍博洲、臺灣藝術大學的王慶臺、臺灣佛光大學的謝大寧等來福建師范大學閩臺區域研究中心(課題組依托單位)做學術報告。與研究臺灣問題的學者交流,與來自臺灣的學者專家交流,大大豐富了我們對課題研究的思路和眼界,有力地推動了兩岸關系族譜資料數據庫的建設工作。
③成果宣傳推介情況
在課題研究的過程中,由于資料數據化的工作極其重要,人工智能識別系統的應用特別引人矚目。我們開發使用的人工智能識別系統亦引起相關部門的注意,浙江師范大學圖書館、暨南大學圖書館、臺灣淡江大學EMBA福建考察團、福建省圖書館、廣州市圖書館都前來商談人工智能識別系統的應用事宜,并考察兩岸關系族譜資料數據庫的功能。
二、研究成果情況
主要內容:①代表性成果簡介
本課題主要的代表性成果——《兩岸關系族譜資料數據庫》的建設,具體情況如下:
截至2019年7月,征集加工入庫的族譜主要是福建、臺灣兩省1949年之前老譜,共計1517冊、144323頁,詳見:族譜深加工族譜目錄。2020年6月前計劃征集加工入庫的涉臺族譜共1.5萬冊,125萬頁(其中福建地區5542冊、70萬頁,臺灣家譜6781冊、25萬頁,其他2677冊、30萬頁)。
在《兩岸關系族譜資料數據庫》數據庫建設中,我們創建了OCR人工智能平臺,對于已經預處理的圖片進行文字比對識別,識別內容主要包括:文字、符號、數字以及表格等內容,F目前,OCR人工智能識別系統的識別率高達99%以上,極大提高了家譜資料識別準確率,從而降低人工校對的要求。兩岸關系家譜圖片成果達到全文識別,將使圖片數字化發展提升到一個新的階段,為我們的最終成果兩岸關系族譜資料數據庫的文獻查詢提供了技術支持。
其次,數據庫的建設過程中,生成了世譜樹,世譜樹是族譜中最重要的組成部分,基于OCR人工智能識別與校對,對出現在家譜中的譜系圖、譜系圖表、譜系描述文字等部分中的每一個人物進行置標以及二維關系的維護。對譜系人物的信息進行標引著錄,使人物及人物關系結構清晰化,生成完整家譜世系樹。通過對人物的坐標定位,可實現搜索、快速查找。世系樹的各節點都可以展示人員的詳細信息。
人物信息置標內容包括:姓、名、諱、字、號、別稱、謚號、性別、生、卒、世代、支派等。按照支派、世代的先后順序,同一支派的同一世代按照從右向左、從上至下的順序依次置標。
提供世系樹各節點數據的導入和導出功能!皩С觥焙汀皩搿惫δ苡糜谥С直鞠到y與外部系統的數據交換,導入數據用于選擇一個數據交換文件 (xml、excel)將其中的人物數據導入并將之作為選中人物的后代。導出可以對世系樹上的各個節點信息以及隸屬于該節點的族譜信息的導出,導出文檔模式可以根據客戶需要進行選擇。
第三方面,我們已完成了數據庫的“在線修譜”工作。族譜的編修是繼承傳統文化、家族命脈的需要,通過在線修譜可進行家族族譜的共同編修、修整和快速續譜,傳播譜牒文化知識。平臺在對老譜進行數字化深加工(族譜人工智能識別與校對)后,在線修譜軟件會分析原譜體例,產生規范家譜章節文本數據與世系樹,提供完整的族譜編修界面。
兩岸關系族譜資料數據庫的后臺管理也相繼完備,主要體現在⑴系統管理;⑵任務分配;⑶統計功能;⑷文件管理;⑸數據庫備份;⑹系統日志功能等方面。
《兩岸關系族譜資料數據庫》主要功能有族譜全文檢索、輸名尋祖、在線修譜等功能。應用系統總體建構采用分層設計思想,具體分為:表現層、接入層、應用層、數據層。今后的工作即充實數據庫的內容,不斷地完善數據庫功能。
三、下一步研究計劃
1. 族譜征集工作,尤其是臺灣地區的族譜還需實地調研征集。
2. 族譜資料數據化加工。人工智能識別族譜資料尚完成總體工作的12%還需進一步的推進。
3. 族譜總目編目工作需要盡快完成。
4. 繼續編寫相關的論文和著作。
5. 舉辦關于兩岸族譜研究的學術會議。
課題組供稿