《清末民國社會調查數據庫建設》自2016年4月開題后,到2016年12月底,共召開了三次較大的會議:分別是兩次關于屬性表的討論會(第一次為2016年6月29日的“屬性表錄入分工會議及填寫說明”,第二次為2016年11月7日的“屬性表填寫的進展情況匯報”),一次關于數據庫建設的進展報告會(2016年10月26日)。
在項目首席專家黃興濤教授的帶領下,課題組團隊緊密合作,積極推進相關工作,目前數據庫各子課題已經取得的進展如下:
子課題一:清末民國社會調查總體研究與數據庫設計。負責人:黃興濤
經過課題組與上海精靈天下數字技術有限公司8次開會討論溝通,數據庫的總體架構已經搭建完成,數據庫平臺建設預計在2017年1月底完成。
對清末民國社會調查的總體研究也已經開展,課題組成員討論“清末民國社會調查數據庫建設價值”的論文“新世紀中國的史料整理與人文社會科學研究”已發表在《光明日報》理論版,受到學界關注。
另外,課題組也參與舉辦了“數字人文與清史研究”學術工作坊。黃興濤教授在工作坊上指出,數字人文發展在目前史學研究中所代表的開創意義,在某種程度上構成了梁啟超百年前所提出“新史學”新的起點。歷史學者應該積極發揮作用,做出一些具有示范性的、典型的數據庫。數據庫的建設使史學站在了一個新的高點,其資料、視野的廣闊性有助于克服目前史學研究中“碎片化”的傾向。大家要緊緊抓住史學的本質,即“反思性的再現過去和反思過去”的基礎上做出高質量的數據庫,推進史學的進一步發展。
課題組成員林展向與會專家介紹了本課題的總體規劃和設計,得到與會專家的指導和好評。
子課題二:清末民國社會調查文獻收集整理與原始文獻庫建設。負責人:汪永紅
課題組依托中國人民大學圖書館資源,在兄弟院校圖書館和資料室的幫助下,目前已經收集到原始PDF文檔約2500萬字,所有收集到的原始文檔已經交到數據庫公司進行數據庫入庫之前的轉檔處理,目前大約已完成該子課題預定目標的50%。
子課題三:清末民國社會調查數據庫索引編制與多維分類。負責人:夏明方
清末民國社會調查數據庫索引編制已經取得較大進展,目前已經完成了近50萬字的文獻索引編制工作,已經完成預定計劃的50%。
另外,經過多次討論和修改,數據庫索引和多維分類的表格已經設計好并填寫完畢。
子課題四:清末民國社會調查全文檢索庫與專題應用庫建設。負責人:陳志武
全文檢索庫所需要的word文檔已經由數據庫公司實現轉檔,已經完成近2000萬字,已經完成子課題預定目標的40%。專題應用庫也已經收集到所需的調查報告,下一步將進行數據的錄入和整理工作。
綜上所述,本課題已經完成課題總體規劃目標的近50%,工作進展達到并超過約定目標。
下面對過去半年多幾次較大規模的課題組會議進行介紹。
一、關于屬性表錄入的兩次會議
1、分工會議
2016年6月29日上午9時,由中國人民大學歷史學院黃興濤教授主持的國家社科基金重大項目“清末民國社會調查數據庫建設”屬性表分工會議,在中國人民大學清史所400會議室召開。上海精靈天下數字技術有限公司及課題組成員夏明方教授、邱志紅、李章鵬、伍婷婷、林展、陳鵬、杜佩紅等課題組成員參加了會議。會議由中國人民大學歷史學院林展講師主持,主要討論了數據庫建設屬性表錄入的分工及填寫要求。
項目負責人黃興濤教授介紹了數據庫建設的工作規劃,要求項目組成員的屬性表填寫在三個月內完成,第一個月先交一份錄入表,時間暫定為7月20號,如有任何問題再行調整。
經過項目組的內部討論,決定先以《民國時期社會調查叢編》為基礎,進行第一次數據庫的錄入工作,之后再以《民國時期社會調查叢編》(二編)為基礎進行錄入。中國人民大學清史所夏明方教授對屬性表的錄入進行了具體的分工,并表示:“屬性表是數據庫建設的基礎。將調查報告的內容進行屬性分類,對每一條數據進行屬性提取,再整理入庫,是十分關鍵的工作,希望每一位成員能認真完成”。錄入成員主要分工如下:
姓名 負責卷類
伍婷婷 少數民族
邱志紅 宗教民俗、法政
李章鵬 城市(勞工)生活、華僑
韓祥 鄉村經濟、鄉村社會
林展 婚姻家庭、人口、底邊社會
陳鵬 社會保障、社會組織、醫療衛生與社會保障
杜佩紅 文教事業
為了實現全文檢索,在多維分類表確立后,需要設置關鍵詞,進行錄入工作。上海精靈天下數字有限公司負責人高寶龍先生介紹了數據庫屬性表錄入要求:
(1)錄入編號命名規則:編號為12位數,前面4位為著錄者編號。錄入者編號為(邱志紅1001;伍婷婷1002;韓祥1003;陳鵬1004;李章鵬1005;杜佩紅1006;林展1007。中間三位表示《叢編》的卷號:一編為鄉村社會101,底邊社會102,城市(勞工)生活103,文教事業104,婚姻家庭105,宗教民俗106,少數民族107,人口108,社會組織109,社會保障110。二編為鄉村社會201,鄉村經濟202,城市(勞工)生活203,近代工業204,文教事業205,法政206,宗教民俗207,少數民族208,人口209,社會組織210,醫療衛生與社會保障211,華僑212。后面5位為調查編號。調查編號統一都從00001開始。
(2)調查形式分為兩部分:主要調查形式、調查形式。調查形式的分類為:問卷、實地調查、通訊、訪談、其他。
(3)時間格式:調查時間若有多個時間都要列出來,中間用英文分號隔開。
(4)調查地點分為:國、省、市、縣、縣以下。
(5)在“館藏地”一欄下增加“版本說明”。
(6)“備注”一項下移,原“備注”一項改為“該調查是否有表格”。
2、屬性表填寫的進展情況匯報
(1)進展
2016年11月7日下午14時,由中國人民大學歷史學院黃興濤教授主持的國家社科基金重大項目“清末民國社會調查數據庫建設”屬性表分工會議,在中國人民大學清史所400會議室召開。課題組錄入成員邱志紅、李章鵬、伍婷婷、林展、陳鵬、韓祥、杜佩紅參加了會議。會議由中國人民大學歷史學院林展講師主持,議題包括屬性表錄入的進展情況匯報及數據錄入中的問題。
會議首先由黃興濤教授介紹了數據庫建設總體要求和項目進度,對課題組成員前期的錄入工作予以了肯定。他講道:“目前我們數據庫建設正有條不紊的進行中。數據庫建設最重要的是將基礎做牢做扎實,屬性表便是其中關鍵一環。現階段以《民國時期社會調查叢編》、《民國時期社會調查叢編》(二編)為基礎的屬性表已經錄入完畢,很感謝大家能按時完成”。
各成員錄入完成情況表
姓名 負責卷類 卷編號 完成條數
伍婷婷 少數民族 01 13
邱志紅 宗教民俗、法政 02、03 94
李章鵬 城市(勞工)生活、華僑 04、05 45
韓祥 鄉村經濟、鄉村社會 06、07 40
林展 婚姻家庭、人口、底邊社會 08、09、10 76
陳鵬 社會保障、社會組織、醫療衛生與社會保障 11、12、13 176
杜佩紅 文教事業 14 177
(2)問題及修改意見
接下來,林展講師介紹了屬性表錄入成員的錄入情況及錄入中出現的問題。課題組成員在錄入中,主要存在以下兩個問題:
一是個別信息如期刊數、頁碼、調查機構等缺漏,這些問題可能由于大家在錄入時查找不到相關信息或者漏填。針對這一問題,本項目第二子課題收集完原始的調查版本后,根據這些原始的PDF版文檔再進行補充修正。
二是每份調查的編號,由于數字太長,大家在錄入時,沒有進行文本格式轉換,因此再重新修訂時,成員們需要將其設置為文本格式。
二、數據庫建設進展報告會
2016年10月26日上午9時,由黃興濤教授主持的國家社科基金重大項目“清末民國社會調查數據庫建設”的數據庫建設進展報告會,在中國人民大學清史所400會議室召開。國家圖書館專家、上海精靈天下數字技術有限公司代表及課題組成員出席了本次會議。
會議由黃興濤教授主持,上海精靈天下數字有限公司的高寶龍先生介紹數據庫建設的總體情況,國家圖書館民國影印編輯室的李強主任及王濤助理擔任此次會議的評審專家。
會議首先由夏明方教授介紹了數據庫建設的總體要求和項目進度情況,夏明方教授明確了“數據庫建設預計在2016年年底完成一個基本雛形,2017年將數據庫中的調查全部錄入到數據庫中”。
(一)數據庫建設進展
隨后,上海精靈天下數字技術有限公司的高寶龍先生從數據庫的封面、檢索界面、閱讀器界面、專題閱讀界面進行了全方位展示。
(二)問題及意見
國家圖書館民國影印編輯室的李強主任、王濤助理及中國人民大學清史所夏明方教授對數據庫建設情況針對數據庫的建設情況進行了評議,指出了數據庫建設中存在的一些問題及修改意見:
1. 閱讀器:
(1)原稿圖片與文字的風格太接近,容易讓人混淆,需要把文字的字體進行調整,以示區分。
(2)閱讀器左邊固定為原稿圖,右邊固定為文本抄錄(如遇抄錄一頁顯示不夠,則增加橫向滾動條)。單擊按鈕,全書應該只顯示抄錄文本不顯示原稿圖;雙擊按鈕,則全書應該只顯示原稿圖不顯示抄錄文字;再點擊按鈕,則顯示圖文對照。
(3)閱讀器中,“反饋”改為“糾錯”。
2.檢索頁面:
(1)目前檢索頁面每一個篇章下面都是屬性標簽,不能夠顯示內容的這部分,需要去掉“檢索結果標簽”,在該處增加內容展示。
(2)結果標簽應改為:第一行:篇章名(顏色加深,現有顏色太淺)+作者;第二行:結果標簽+進入閱讀等4個按鈕;第三、四行不變,顯示內容標簽。行距可調小,盡量顯示更多的內容。
(3)希望能夠將“高級檢索”中的“下拉條件限定框”放到首頁的全文檢索框前面,減少用戶的二次操作。
(4)全文檢索框內,默認淺色顯示的字應由“輸入需要查找的調查名稱”改為“輸入需要查找的內容”。
(5)每一個篇章下面的標簽數據,希望可以點擊,單擊搜索出整庫所有跟這條數據有關的篇章。
3、專題閱覽:
(1)目前“主題”、“專題”兩個詞混淆,希望數據庫能夠在“專題閱覽”頁,顯示專題導航。例如:XX主題>XX專題XX專題XX專題。
(2)目前專題頁下的篇章顯示方式,跟外部不一樣,應該是所有篇章顯示要統一,篇章不應有圖片。
4、前臺設置:
(1)目前前臺系統字體不統一,繁簡混合。希望能將默認屬性改為全部顯示簡體,點擊上面按鈕,則整庫切換成繁體。
(2)前臺的“篇章”改為“題名”,或者每條數據前面不顯示“篇章”兩字。
(3)前臺首頁圖片過于簡單,體現不出“社會調查”的內涵,希望圖片背景設置為社會調查者田野調查活動圖。頁面下一排為民國時期社會調查幾個重要人物的滾動頭像。
(課題組供稿)