檢索頁面:
(a)目前檢索頁面每一個篇章下面都是屬性標簽,不能夠顯示內容的這部分,需要去掉“檢索結果標簽”,在該處增加內容展示。
(b)結果標簽應改為:第一行:篇章名(顏色加深,現有顏色太淺)+作者;第二行:結果標簽+進入閱讀等4個按鈕;第三、四行不變,顯示內容標簽。行距可調小,盡量顯示更多的內容。
(c)將“高級檢索”中的“下拉條件限定框”放到首頁的全文檢索框前面,減少用戶的二次操作。
(d)全文檢索框內,默認淺色顯示的字應由“輸入需要查找的調查名稱”改為“輸入需要查找的內容”。
(e)每一個篇章下面的標簽數據,希望可以點擊,單擊搜索出整庫所有跟這條數據有關的篇章。
專題閱覽:
(a)目前“主題”、“專題”兩個詞混淆,希望數據庫能夠在“專題閱覽”頁,顯示專題導航。例如:XX主題>XX專題XX專題XX專題。
(b)目前專題頁下的篇章顯示方式,跟外部不一樣,應該是所有篇章顯示要統一,篇章不應有圖片。
前臺設置:
(a)目前前臺系統字體不統一,繁簡混合。希望能將默認屬性改為全部顯示簡體,點擊上面按鈕,則整庫切換成繁體。
(b)前臺的 “篇章”改為“題名”,或者每條數據前面不顯示“篇章”兩字。
(c)前臺首頁圖片過于簡單,體現不出“社會調查”的內涵,希望圖片背景設置為社會調查者田野調查活動圖。頁面下一排為民國時期社會調查幾個重要人物的滾動頭像。
(四) 屬性表填寫進展情況匯報會議
(1)進展
2016年11月7日下午14時,由中國人民大學歷史學院黃興濤教授主持的國家社科基金重大項目“清末民國社會調查數據庫建設”屬性表分工會議,在中國人民大學清史所400會議室召開。課題組錄入成員邱志紅、李章鵬、伍婷婷、林展、陳鵬、韓祥、杜佩紅參加了會議。會議由中國人民大學歷史學院林展講師主持,議題包括屬性表錄入的進展情況匯報及數據錄入中的問題。
會議首先由黃興濤教授介紹了數據庫建設總體要求和項目進度,對課題組成員前期的錄入工作予以了肯定。他講道:“目前我們數據庫建設正有條不紊的進行中。數據庫建設最重要的是將基礎做牢做扎實,屬性表便是其中關鍵一環。現階段以《民國時期社會調查叢編》、《民國時期社會調查叢編》(二編)為基礎的屬性表已經錄入完畢,很感謝大家能按時完成”。
各成員錄入完成情況表
姓名 負責卷類 卷編號 完成條數
伍婷婷 少數民族 01 13
邱志紅 宗教民俗、法政 02、03 94
李章鵬 城市(勞工)生活、華僑 04、05 45
韓祥 鄉村經濟、鄉村社會 06、07 40
林展 婚姻家庭、人口、底邊社會 08、09、10 76
陳鵬 社會保障、社會組織、醫療衛生與社會保障 11、12、13 176
杜佩紅 文教事業 14 177
(2)問題及修改意見
接下來,林展講師介紹了屬性表錄入成員的錄入情況及錄入中出現的問題。課題組成員在錄入中,主要存在以下兩個問題:
一是個別信息如期刊數、頁碼、調查機構等缺漏,這些問題可能由于大家在錄入時查找不到相關信息或者漏填。針對這一問題,本項目第二子課題收集完原始的調查版本后,根據這些原始的PDF版文檔再進行補充修正。
二是每份調查的編號,由于數字太長,大家在錄入時,沒有進行文本格式轉換,因此再重新修訂時,成員們需要將其設置為文本格式。
(五) “數字人文”與清史研究學術會議
2016年5月28-29日,課題組與中國人民大學《清史研究》編輯部在北京合作舉辦了“數字人文與清史研究”學術會議。來自北京大學、中國人民大學、中國社科院、北京師范大學、復旦大學、陜西師范大學、上海交通大學、河南大學、蘇州大學、南京師范大學以及香港科技大學、耶魯大學、哈佛大學、臺北“中研院”等海內外14家學術單位的30余位專家學者參加了本次工作坊。
課題組首席專家黃興濤教授在工作坊上指出,數字人文發展在目前史學研究中所代表的開創意義,在某種程度上構成了梁啟超百年前所提出“新史學”新的起點。歷史學者應該積極發揮作用,做出一些具有示范性的、典型的數據庫。數據庫的建設使史學站在了一個新的高點,其資料、視野的廣闊性有助于克服目前史學研究中“碎片化”的傾向。大家要緊緊抓住史學的本質,即“反思性的再現過去和反思過去”的基礎上做出高質量的數據庫,推進史學的進一步發展。
課題組成員林展向與會專家介紹了本課題的總體規劃和設計,得到與會專家的指導和好評。
(六)《清末民國社會調查數據庫建設》數據庫平臺建設討論會
2017年11月12日13:30, 由中國人民大學歷史學院黃興濤教授主持的國家社科基金重大項目“清末民國社會調查數據庫建設”數據庫平臺建設討論會,在中國人民大學清史所400會議室召開。上海精靈天下數字技術有限公司及課題組成員夏明方教授、邱志紅、李章鵬、伍婷婷、林展、陳鵬、杜佩紅、朱星星等課題組成員參加了會議。會議由中國人民大學歷史學院林展講師主持,主要討論了數據庫建設平臺目前的進展情況。
根據會議討論結果,課題組認為數據庫建設需作如下調整:
(1)數據庫界面風格需要重新設計,確認后再開發。
(a)首頁設計:數據庫網站名稱應變更為“今鑒-清末民國社會調整數據庫”,“今鑒”二字設計為蝕刻印章圖片,“清末民國社會調查數據庫”幾字由課題總負責人黃興濤教授題字。網站背景可用人大紅,圖片可用中國人民大學老清史所照片。
(b)高級檢索:高級檢索多選屬性由后臺勾選顯示,支持排序,高級檢索年代選項部分需將中國紀年的名稱變更為“清朝、民國”,不再用朝代說法。
(c)專題閱覽界面:專題在推薦專題和普通專題兩種類型的基礎上,增加一個“應用專題”類型,該專題類型主要支持下載excel表格,后臺需要支持上傳excel表格附件文件。專題詳情頁,將之前的“書籍、篇章、圖集”字樣取消,變更為“叢編-調查報告”。專題閱覽的內容簡介要用關鍵詞代替,可進行詞頻分析。各專題背景底圖可用各專題調查的典型照片或封面。
(d)閱讀界面:圖文對照應變為在閱讀界面呼出圖文對照閱讀,即不論文字版還是圖片版,點擊呼起對照閱讀,即將閱讀內容換成純文字版,圖片用彈層顯示。閱讀時可支持書內檢索,檢索結果不應該針對全庫內容。
(e)全站UI:全站UI需要將字號放大,目前字小,空白多,字體顏色與背景對比不夠分明。
(f)分類導航:數據庫目前需要能顯示出調查地的樹狀分類格式。
(七)《清末民國社會調查數據庫建設》數據庫平臺建設進展報告會
2018年1月19日上午9:00時,由中國人民大學歷史學院黃興濤教授主持的國家社科基金重大項目“清末民國社會調查數據庫建設”數據庫平臺建設進展報告會,在中國人民大學清史所400會議室召開。上海精靈天下數字技術有限公司及課題組成員夏明方教授、邱志紅、李章鵬、伍婷婷、林展、陳鵬、杜佩紅等課題組成員參加了會議。會議由中國人民大學歷史學院林展講師主持,主要討論了數據庫建設平臺目前的進展情況。
這次會議的議題是對已初步完成的數據庫,就其各個界面布局、外觀、功能設計進行展示,請大家提出修改意見,并進行下一步的工作安排。
展示部分
首先,數據庫的界面根據上次的要求,調整如下:
(1)首頁展示:
(2)專題展示:
圖一:整體圖
圖二:專題底圖展示
其次,高級檢索部分,“年號”下拉部分調整為順治元年開始到民國三十八年
再次,專題數據庫的目錄名稱:將之前的篇章改為了“叢編-調查報告”
修改意見:
(1)首頁設計沒有體現出民國風格,還需要再行設計,最底端的展示部分一定要分兩排寫上中國人民大學歷史學院、中國人民大學圖書館、福建教育出版社、上海精靈天下數字技術有限公司。
(2)高級檢索年代從嘉慶年間開始,即公元1800年開始。
(3)專題部分:應該將“社會”、“經濟”、“內容簡介”等字樣去掉。
后續工作安排:
一是《清末民國社會調查目錄索引》的編制和出版工作,需要在2018年12月之前出版。
二是數據庫屬性表、內容的校對工作。在調查文獻入庫的過程中,發現重復錄入、錯誤錄入、遺漏等問題,經過近一個月的核對,絕大部分問題已經處理。目前,調查地點遺漏的還比較多,下一步需要繼續補充和核對。
三是專題應用庫的進一步建設工作。下一步,將根據民國婚姻家庭的相關問卷,在全國范圍內開展相應的調查,真正建立起古今貫通的專題數據庫。
(八)其它課題組會議和交流
除了上述會議外,課題組與上海精靈天下數字技術有限公司就數據庫建設相關的問題就行了18次溝通會議。
另外,項目組成員林展兩次被中國社會科學院近代史研究所邀請,介紹本課題的進展和相關經驗。
三、宣傳推介情況
本項目在推進過程中,通過中國人民大學科研處共計上報兩期工作簡報:
2016年4月《工作簡報》第1期
2017年1月《工作簡報》第2期
2018年1月《工作簡報》第3期
四、研究中存在的主要問題、改進措施,研究心得、意見建議
本項目在進行過程中也存在不少困難與問題,下面從資料整理與數據庫設計兩個方面予以簡要說明:
(一)原始調查文獻的掃描
1. 原始調查文獻的查找
受到目前各圖書館、檔案館對民國文獻加大保護力度的影響,部分原始調查文獻難以獲得,或者需要支付很高的費用才能獲取。子課題2計劃繼續通過文獻傳遞、加大資金投入等方式,尋求外界的幫助。
2. 原始文獻的掃描清晰度
清末民國時期的很多出版物,由于成本或技術的原因,所用紙張、油墨較差,使得保存下來的原始調查文獻存在不清晰的地方,特別是其中的表格、數字等,這給文獻辨讀帶來困難。子課題4將盡量比對不同來源的原始文獻,通過將不同行、不同列的數字進行運算等來確定正確的數據。據目前初步估算,本課題需要收集和掃描的原始資料共約5000余萬字,需要錄入和校對的原始資料約400萬字,目錄索引100萬字。其中很大一部分調查是油印本或手寫報告,為保證資料的準確性,須動員較大規模具有相當文化素質的人員從事錄入和校對工作,任務極其繁重。
(二)數據庫
1. 調查表格多、篇幅長
相對于已有的歷史數據庫,本數據庫的一大特色就是有眾多的調查表格。這些表格的存在也大大增加了數據庫建設的難度。在全文數據庫里面,這些表格需要被當做圖片來進行處理,否則不能相應的放大或縮小。
2. 專題數據庫重新整合難度較大
數據庫原計劃建立“婚姻家庭”專題數據庫,通過數據的重新整合,形成對于當時婚姻家庭調查的總體認識。但這些調查所展示的都是最終的統計結果,并沒有原始的調查記錄,這給數據的整合帶來困難。在后續的階段,將以調查的問題為基礎,對類似問題的的回答進行匯總處理。
3. 清末民國社會調查條目較多,工作任務量超大、復雜、繁重
目前本課題已開展編纂有關清末民國社會調查文獻的專門性目錄索引——《民國社會調查目錄索引》及《清末社會調查資料集》的各項工作。根據上海圖書館的檢索,其調查條目接近110萬條(共1069371條),條目量龐大且繁雜,因此需要招聘若干學生助理來對這些條目進行初步篩選,再利用全國報刊索引數據庫及大成老舊刊全文數據庫等,下載這些條目原文,確定哪些屬于社會調查,之后還需要對條目進行分類編排。這需要持續投入大量的時間、精力,不能一蹴而就。這一方面減慢了項目的進度,另一方面,使得項目需要的經費也要大大多于預期。
研究心得
本課題能否順利完成,關鍵在于文獻資源的獲取與數據庫的搭建。故目前的工作重心是文獻資源的獲取及數據庫平臺的完成,文獻資源獲取成功后,數據庫公司的入庫工作便能順利展開,之后的相關研究也即容易著手。
意見、建議
本課題在進行中需要大量人力與技術支持,目前進行的《清末民國社會調查文獻索引目錄》及《清末社會調查資料集》條目很多,需要吸收有一定學術基礎的研究生參加,故需要增加一些勞務經費,用于支付這些研究生的勞務費;另外數據庫的建設離不開技術的支持,上海精靈天下數字技術有限公司負責技術指導、數據庫、架構設計、數據庫設計、數據庫模塊設計、終端高級應用開發、數據庫底層支持及底層控件開發,為更好地對數據庫進行開發、維護,還需要大量的資金投入。
目前《清末民國社會調查數據庫建設》課題經費很是缺乏,迫切需要后續資金支持。
二、研究成果情況
1. 黃興濤、李章鵬:《現代統計知識和觀念的傳入與清末新史學》,《史學史研究》2016年第3期。
本文對于現代統計知識和觀念傳入中國的過程進行了系統梳理。為“清末民國社會調查數據庫”結構的搭建提供了重要的背景知識和理論支撐。
文章發現,在1897年之前,以具體統計事例為載體的西方統計知識和統計觀念已經傳入中國,1897年后,經日本消化吸收的社會統計學理論開始系統地引入,這對清末和民國統計的影響廣泛而深遠。清末時,梁啟超等人把統計材料匯編為歷史,陳黻宸等人明確主張以統計法來研究和表述歷史,他們固然受到西方史學理論的影響,但現代統計知識、觀念和外來成果所施予的直接刺激也不容忽視。
清末時已有人在史書編纂、地方志纂修和具體歷史問題研究方面,嘗試使用統計分析法,這構成為清末中國新史學有機的組成部分。可以說,“歷史統計學”的有關意識和實踐,在當時已經悄然醞釀、生發。只不過,清末尚沒有人明確提出“歷史統計學”的概念。這一任務直到20世紀20年代才由梁啟超、丁文江等人大體完成。清末學人在使用統計圖表分析歷史問題時,絕大多數都還沒有真正重視起數字,更沒有產生如何以精確的數字科學有效地分析和表述歷史的普遍觀念和系統見解。這是其明顯不足。實際上,清末民初時的中國史學,還遠不具備重視量化統計分析的社會文化基礎。甚至迄今,我們的史學在這方面仍有很多的課要補、很長的路要走。
2.林展:《新世紀中國的史料整理與人文社會科學研究 ——以<民國時期社會調查叢編>為例》,《光明日報》2016年4月6日第14版。
本文以《民國時期社會調查叢編》為例,討論了新世紀史料整理的重要性,以及建立“清末民國社會調查”數據庫的必要性。
文章認為,史料不僅是史學研究的基礎,也是眾多人文社會科學研究的重要基礎。20世紀初梁啟超倡導的新史學,如果脫離了史料的發掘整理,將是難以想象的。新世紀以來我國的史料整理工作,雖然借助于計算機與網絡技術,呈現出異乎尋常的突飛猛進態勢,但總體來說,并不盡如人意。一個突出的特點是,影印出版的史料大幅度增長,而經過歷史學者核對、比勘、系統分類的史料整理相對減少。這一現象對歷史學乃至整個人文社會科學可能產生的負面影響,迄今也沒有得到足夠重視。
難能可貴的是,盡管現行科研評價體制對史料整理工作并沒有給予足夠的重視和支持,但仍有少數富有遠見、不畏艱難的學者,基于對學術研究規律的信念,投身到大規模史料的系統整理工作之中,并對歷史學研究乃至其他人文社會學科帶來積極的影響。《民國時期社會調查叢編》(以下簡稱《叢編》)系列就是其中的一個顯例。
我們發現,《叢編》在他引方面呈現下面的特征。其一是總體引用次數比較高,據不完全統計,從2005年至2014年,累計引用數量接近1000次。其二,引用次數呈現逐年升高的趨勢。其三,影響的范圍廣,除中國大陸地區外,中國臺灣地區、日本、美國、澳大利亞等地都有學術著作引用,涉及學科包括歷史學、社會學、政治學、教育學、經濟學、心理學等。就期刊而論,自2005年至2014年,引用《叢編》的期刊論文一共有289篇,分布在199種期刊上。
這表明,以《叢編》為代表的專業化史料整理工作,具有重要的學術價值。當然,現有的專業化史料整理工作也存在局限性,比如出版成本高、周期長、容量有限、難以進行原文對照、無法進行全文檢索等。有鑒于此,專業化史料整理工作需要在歷史學者專業知識的基礎上,充分利用計算機技術,建設大規模集成式的歷史數據庫,從而為國內外同行搭建一個重要的基礎性資料平臺。
3.陳志武:《量化歷史研究的過去與未來》,《清史研究》2016年第4期
本文對于六十年來量化歷史研究做了細致的回顧與深入的思考。文章認為量化分析能使歷史研究向科學靠近。不管哪個領域,科學研究的基本流程應該保持一致:首先,提出問題和假說;第二,根據提出的問題和假說去找數據,或者通過設計實驗產生數據;第三,做統計分析、檢驗假說的真偽,包括選擇合適的統計分析方法識別因果關系、做因果推斷,避免把虛假的相關性看成因果關系;第四,根據分析檢驗的結果做出解釋;第五步就是寫報告文章。傳統歷史研究在第二至第四步上做的不夠完整。所以,量化方法不是要取代傳統歷史研究,而是對后者的補充,是把科學研究方法的 全過程帶入歷史領域。本文通過一些現有成果說明,量化史學不只是 “用數據說話”,而是通過統計分析,既可令人信服地證明或證偽現有假說,也可以從歷史現象中發現全新的認知。目前量化歷史研究方法已經有很多比較的好的成果出現。
文章中強調:“中國史料很多,但絕大多數史料以前沒有被數據庫化。隨著更多歷史數據庫的建立并且可以低成本地獲得這些數據庫,許多相對容易做的量化史學研究一下子就變得可行,所以,從這個意義講,越早進入這個領域,就越容易出一些很有新意的成果,也越容易發表,十幾、二十年后情況就會不同。”
量化歷史研究不只是幫助證明、證偽歷史學者過去提出的假說,而且也會帶來對歷史的全新認識,引出新的研究話題與視角,未來的十年、二十年將會是國內量化歷史研究的黃金期。
國家社科基金重大項目階段性成果清單
序號 成果名稱 作者 成果形式(著作、論文等) 出版社或刊物名 出版或刊發時間(年/月/日) 字數
(萬字) 轉載情況
1 現代統計知識和觀念的傳入與清末新史學 黃興濤、李章鵬 論文 史學史研究 2016年第3期 1.5 轉載《人大復印報刊資料?中國近代史》2016年第12期
2 新世紀中國的史料整理與人文社會科學研究 林展 論文 《光明日報》史學理論版 2016年4月6日 0.3
3 量化歷史研究的過去與未來 陳志武 論文 清史研究 2016年第4期 2.7 轉載《社會科學文摘》2017年第3期摘錄文章主要內容
4 農村經濟的平衡閥: 民國土地典當初探 楊雙利 論文 社會科學 2016年第4期 1.5
5 中國史學在數字化時代的變與不變 姜萌 論文 史學月刊 2017年5月24日 0.8
6 文本編纂與敘事解讀 ———基于涼山奴隸社會調查報告形成過程的分析 伍婷婷 論文 中國人民大學學報 2017年第1期 1.2
7 量化歷史研究與新知識革命:以財富差距和消費差距的歷史研究為例 陳志武 論文 北京大學學報學報(哲學社會科學版) 2018年第4期(即出) 2.3
三、下一步研究計劃
在接下來,課題組除了繼續按照計劃開展后續工作外,課題組將著重留意下面三項工作,一是加快文獻索引的編制;二是繼續查找原始調查文獻;三是不斷優化數據庫結構,測試數據庫各項功能,使數據庫的實用性、便捷性更上一層臺階;四是對已經錄入數據庫的原始文獻、全文文獻、屬性表進行交叉核對,確保錄入信息的準確、完整。
具體的研究計劃如下:
2018年8月-2018年12月
(一)資料校核
在目前的數據庫基礎上,對已經錄入的文獻進行核對、校正和補充。
(二)完成《清末民國社會調查文獻索引》
按原定計劃,將于2018年年底完成《清末民國社會調查文獻索引》的編纂工作,并爭取出版。該索引為著作(工具書),約100萬字。
(三)完善數據庫設計
安排子課題組成員試用數據庫,檢驗數據庫的各項功能是否達到預定目標。對于使用不便利的地方進行優化。
2019年1月——2019年12月
(一)完成全部全文數據庫、原始文獻庫的入庫工作
所有5000萬字全文數據庫,400萬字原始文獻庫全部完成入庫工作。
(二)數據庫結構和功能調試完畢
在本階段,數據庫的結構和各項功能要優化和調試完畢。
(三)召開學術會議
擬召開“清末民國社會調查數據庫與學術研究”學術研討會,邀請海內外學者使用該數據庫,并以此為基礎開展研究。
2020年1月——2020年12月
(一) 完成“婚姻家庭”專題數據庫建設
按照計劃,這一時期應該完成“婚姻家庭”這一專題應用庫的建設。即利用數據庫中與婚姻家庭相關的社會調查,對數據進行重新編碼和重組,然后進行統計分析或繪制地圖,實現可視化和量化分析。
(二) 完成清末民國社會調查數據庫,辦理結項手續。
(課題組供稿)
![]() |