• <samp id="sgkyk"><pre id="sgkyk"></pre></samp>
    
    

    舊版網站入口

    站內搜索

    中外關系數據庫建設中期檢查報告

    2019年11月18日14:13來源:全國哲學社會科學工作辦公室

    一、研究進展情況

    主要內容:

    一、研究計劃總體執行情況及各子課題進展情況

    為了評估中國周邊外交環境,課題組整理了中外關系數據來分析中國與外交關系。

    二、調查研究及學術交流情況

    (1)調研數據及文獻整理運用

    為準確衡量中外關系,本課題探究了大量相關數據庫,包括:

    一、中國權威的外交新聞網站

    二、西方整理的各類別專項數據庫:關于軍事沖突,有烏普薩拉沖突數據項目(Uppsala Conflict Data Program)與奧斯陸國際和平研究機構(International Peace Research Institute, Oslo)聯合制作的“武裝沖突數據集”(UCDP/PRIO Armed Conflict Dataset, Version 4-2014a)。關于國內政治治理,有Property Right Protection(PRS Group’s International Country Risk Guide)。關于經濟風險,有PRS Group’s International Country Risk Guide。國內風險有IMF數據,投資風險主要從法律政策變動風險、貿易保護主義風險、能源價格波動風險、通貨膨脹風險、匯率風險等進行評估。關于社會狀況,包括人口密度、民族數量, “世界概況(World Fact book)”。關于與中國經貿關系,即與中國貿易往來,有COW數據庫的“國際貿易數據集”(International Trade Dataset, version 3.0)。關于各國的軍費開支,有斯德哥爾摩沖突數據庫。

    三、西方整理的外交事件數據庫:本課題組參考了大量關于沖突的事件數據。其中重要的數據庫有以下幾項:國際學界常用的奧布萊恩(O’Brien)研究的綜合沖突早期預警系統(the Integrated Conflict Early Warning System),該系統采用從多種渠道獲得關于175個國家的650萬條新聞,并用機器編碼將之建構成數據集。賓夕法尼亞州立大學的“計算事件數據系統”項目(The Computational Event Data System),該項目嘗試將網絡上的大量關于沖突的新聞轉換成事件數據。“政治動蕩預測項目組”(Political Instability Task Force, 簡稱PITF,此前也稱國家失敗預測項目組State Failure Task Force),該項目試圖預測各國政治動蕩,建立對于全球政治穩定性問題的預警系統。

    四、引入網絡大數據: “綜合沖突早期預警系統”(the Integrated Conflict Early Warning System,ICEWS),以及使用電腦自動編碼的google提供的 GDELT全球事件數據項目(GDELT Event Database)。其他大數據來源,包括GIS地理信息系統(Geographic Information System或 Geo-Information system)和全球夜間燈光數據。

    五、全球新聞媒體,包括《紐約時報》、《華盛頓郵報》、英國《鏡報》、《衛報》、《路透社》、《法國新聞社》、新加坡《聯合早報》、《海峽時報》、馬來西亞《新海峽時報》 、《先鋒報》、《當今大馬》、《星報》 、《星洲日報》 、印尼《雅加達郵報》、《指南針報》、菲律賓《星報》、《馬尼拉公報》、泰國《曼谷郵報》柬埔寨《柬華日報》、韓國韓聯社、朝鮮朝中社、俄羅斯俄通社、日本《朝日新聞》、《讀賣新聞》。

    本課題組根據以上資料來源,通過整理海量新聞事件,建立了1950年至今的中國與美國、日本、俄羅斯、英國、法國、德國、印度、巴基斯擔、澳大利亞、越南、印尼、韓國、歐盟外交關系事件庫。與傳統的數據庫往往以年為單位不同,這一數據庫對于雙邊關系的衡量細化到以月為單位。例如,研究人員可以得到每個月中美關系正面事件的分值,負面事件的分值以及中美關系的分值。而且從具體事件看,該數據庫也細化到了以日為單位,例如研究者可以知道哪一天發生了雙邊首腦會晤或外長會晤等外交事件。每一個事件均被細分成多個維度。因此,這一數據庫對于學者們研究中國外交的特點,發現其規律具有明顯幫助。

    (2)學術會議

    2015年10月至今,本課題組每月召開中國對外數據統計分析會議,包括中國各高校專家和助理學生15人左右,至今已召開40多次。會議對每個月的中外關系進行數據挖掘、量化衡量、規律探究、經驗總結和關系預測,有效提高了本課題組對中外關系的預測和預警成功率。

    圍繞課題內容,課題組舉辦了各類國內的學術會議,包括:2015年12月舉行的“從清華路徑到道義現實主義”學術研討會,2018年7月舉行的 “中美關系再思考”研討會, 2018年7月舉辦的“大數據與國際關系研究”學術研討會。

    (3)學術交流

    在項目進展過程中,本課題組與機構進行了密切的交流與合作。

    (4)國際合作

    課題組也舉辦相關的國際會議,2016年12月在清華大學舉行了“中國學者爭論國際關系”國際研討會,該會議由澳大利亞格里菲斯大學和清華大學國際關系研究院聯合主辦,來自格里菲斯大學、美利堅大學、劍橋大學、亞利桑那州立大學、內華達大學以及國內各高校的20余位專家學者參加此次會議。

    三、成果宣傳推介情況

    (1)成果發布會

    由于本課題成果尚未徹底完成,當前還沒有召開成果發布會

    (2)《工作簡報》報送情況、國家社科基金專刊投稿及采用情況

    本課題組將在下一階段積極將現有成果投稿給《工作簡報》和國際社科基金專刊。

    四、研究中存在的主要問題、改進措施,研究心得、意見建議

    (1)主要問題

    本課題總體進展順利,相關研究成果陸續完成。研究成果的主要問題是:首先,本項課題只研究了1950年至今中國與七大國(美、日、俄、英、法、印、德)和五個周邊國家(韓、巴、印尼、越南、澳大利亞)的外交關系數據,囿于人力所限,沒能對中國與世界所有國家的外交關系進行數據梳理。其原因在于,為了確保數據的精確性,本課題只采用了人工編碼的方法。

    其次,課題在進程方面與國家社科規劃辦溝通不及時。

    (2)改進措施

    對于以上兩項問題,將通過以下措施進行改進。

    首先,采取人工編碼與機器編碼相結合的方法,爭取將中外關系衡量擴展到世界各國。

    其次,進行及時的溝通匯報。

    (3)研究心得

    首先,本數據庫是關于中國外交關系的第一個具體到國別的雙邊關系數據庫。在國際關系領域,目前國外已經有一些比較成熟和權威的數據庫,然而,國外的數據庫大多集中于西方資料,缺少與中國相關的數據,因此我國需要建立與本國相關的數據。在數據建設中,關鍵是要找到可以量化的變量,通過對變量的數據進行整理,可以有助與于推進學界研究進展。本數據庫解決了對中國外交相關變量和指標的衡量問題:關于中國外交,本數據庫不僅僅是衡量雙邊關系的具體程度和分值,還按照所屬領域性質,將所有相關維度區分為經濟類、安全類、政治類和文化類。例如,對于中國對于某一國家的外交關系,我們可以根據中國與這一國家的經濟往來、貿易協議、軍事交流以及首腦互訪等指標加以衡量。其中,上述指標都可以數量化,因此,就可以建立對中國對不同國別的雙邊關系的數據庫。

    第二、本課題組在分解事件維度時,按照國際關系專業的特性,將每一事件分成眾多維度。由于以上維度都可以直接變成國際關系領域的研究變量,這可以直接幫助研究人員進行研究。

    第三、本課題組借助大數據挖掘和機器學習算法,有效地提高了預測的準確率。本課題組對于數據維度、變量和指標進行了精心的整理。不同于ICEWS和GDELT采取自動編碼的方式,本課題組采用人工編碼,確保了數據的準確性。從數據維度上看ICEWS在CAMEO系統中總共有20大類超過300種不同的事件類型。而GDELT又將300多類的事件最終分成四個大類,即言語合作(verbal cooperation)、現實合作(material cooperation)、言語對抗(verbal conflict)和現實對抗(material conflict)。但以上維度容易忽視事件發生雙方的具體外交人員及其職務、以及合作或沖突的程度。

    第四、本數據建立了完善的入庫數據的真偽判別機制,能夠更真實地表達雙邊關系的特性。在大數據時代,有些研究人員會直接根據爬蟲等數據挖掘技術,將相關新聞報道直接算入數據,但是這會導致數據庫噪聲太大,需要多重清洗。如果清洗不干凈的話,可能會出現以下問題:對于某一事件,可能有多個新聞來源報道,則在挖掘時可能重復記入,導致數據庫不精確。此外,機器編碼還有可能在對事件編碼時錯誤抽取關鍵變量。

    (4)意見建議

    本課題組根據中外關系的大量數據,能夠觀察到中外關系變化的趨勢,對于中外關系的變化能進行成功預警,并且可以探究中國外交的深層原因、嘗試找到可行的解決方案。

    首先,成功對于中美關系的競爭狀態進行了早期預警。早在2017年,課題組就發布報告《2018年中美關系惡化但無冷戰危險》。

    其次、成功預測中韓關系在薩德事件后不會明顯惡化。對于中韓關系,本課題組預測,盡管“薩德”事件發生后,有人擔心未來中韓關系會因此而持續惡化,但是根據本課題組對2000年以來中韓關系變化的衡量,課題組認為“薩德”事件對中韓關系的負面影響不太嚴重,雙邊關系惡化程度不大(《“薩德”事件后中韓關系不會過度惡化》,《國際政治科學》2016年第4期)。根據課題組對中韓關系的衡量,自建交以來,中韓關系逐年穩步提升。在下圖中比較了中韓關系和中日關系自2000年以來的變化,從中可以看出,在2000年,中韓關系與中日關系水平接近,然而“釣魚島事件”等矛盾導致中日關系急劇惡化,相較而言,中韓關系曲線穩中有升,因此課題組預測,“薩德”問題對中韓關系未來變化的負面影響依然有限。

    第三、課題組成功對于中越關系作出了正確判斷。對于中越關系,根據我們的長期跟蹤研究,認為南海仲裁案對中越關系的影響是負面的,但尚不足以致使雙邊關系嚴重惡化。南海仲裁案結果發布后,越南政府無意改變南海地區的現狀,也無意為了南海爭端與中國全面對抗,故此中越關系可以維持現狀。(《2017年底前中越關系不會嚴重惡化》《國際政治科學》2016年第1卷第3期)

    二、研究成果情況

    主要內容:

    一、代表性成果簡介

    (1)基本內容

    研究成果分為三部分:首先、建立了兩個數據庫:①定量衡量的1950-2014年的中國與大國關系數據庫,②定量衡量的1950-2014年的中國與周邊中等國家關系數據庫。

    第三、完成了專著 1 本,發表中文 CSSCI 論文 18篇。自2015年以來課題組每月跟蹤中外關系變化,并且每季度發表對于中外關系衡量結果的報告,在CSSCI期刊《國際政治科學》發表了11篇中國對外關系的預測報告:此外,課題組成員在權威的國際關系期刊上,根據本數據庫和定量衡量發表了一系列相關研究,期刊包括《中國社會科學》、《世界經濟與政治》和《當代亞太》等。課題組就在整理數據庫的基礎上,出版了專著1本:閻學通與齊皓的著作《中國與周邊中等國家關系》(社會科學文獻出版2015年版)。

    (2)主要觀點

    本課題的主要目標是結合大數據挖掘和機器學習模型對中外關系進行衡量、預測,有效提出對外環境合理應對的建議。

    (一)雙邊關系衡量賦值

    本項目主要方法是對雙邊關系進行定量衡量,核心是解決從事件賦值向關系賦值的轉化,首先是對數據來源進行選擇。其次是將數據來源中與我們的研究對象和研究范圍有關的事件進行篩選和歸類。第三是在“沖突-合作”這一維度上,根據對雙邊關系的影響力大小將已發生事件轉換成一維的事件分值。第四是把事件分值進一步轉換成對雙邊關系的影響值。最后把由事件導致的雙邊關系的變化值疊加在上個月雙邊關系的分值上,得到當月的雙邊關系分值。

    要有效衡量國家雙邊關系友好或敵對程度,其核心問題是解決從事件賦值向關系賦值的轉化。我們的基本設想是,雙邊關系是由眾多事件組成的,這些事件隨著時間的推移形成了一個“事件流”,對雙邊關系的衡量需要在事件累積和流動兩個維度上同時進行衡量。也就是說,對事件影響力進行累積是我們衡量的起點,測量事件影響力隨時間流動的變化是衡量的過程,雙邊關系現狀是衡量的終點。將事件分值轉化為雙邊關系分值的合理性,將取決于轉化后的雙邊關系分值能否與實際經驗相一致,至少要有很強的相似性。為此,我們設計了如下定量衡量雙邊關系的流程。為此,我們設計了如下定量衡量雙邊關系的流程。

    (二)中國外交數據庫編碼

    為了更好地體現中外關系,使數據庫中的各個維度有利于對中外關系的研究,本課題組對具體事件的編碼維度做了如下劃分。按照外交事件的具體內容劃分細類,對于具體事件的不同維度,課題組將之劃分為五大類別。

    綜上可知,以上編碼是我們可以針對具體研究問題進行研究的基礎。

    (三)雙邊關系預測

    本課題組根據中外關系的大量數據,能夠觀察到中外關系變化的趨勢,對于中外關系的變化能進行成功預警,并且可以探究中國外交的深層原因、嘗試找到可行的解決方案。

    在對采集的數據建模中,本課題組也采用了大量適宜的模型,以提高預測的準確率和對深層因果機制的探究。課題組綜合采用傳統回歸方法和機器學習算法,包括以下模型和方法: ①Logit模型,這一回歸對因變量為分類數據的情況進行回歸,最后得出自變量對因變量概率變化的影響。②面板數據模型,包括動態面板模型和空間面板模型,本研究應用面板數據模型從抽象層面綜合分析中國與諸大國和周邊國家歷年來外交關系走勢,判斷核心影響因素,進而預測未來中國外交的情況!③時間序列預測:回歸預測對自變量的要求很高,若不能窮盡所有有影響的自變量,則可能預測準確度較差。時間序列預測是根據變量的過去變化推斷其未來趨勢。適用于自變量過于復雜,難以建立精確模型的情況。時間序列分析的實質是找到數據間的相關性,最后留下白噪聲(white noise)。在看似無序的數據中,分離出規律和無序。本課題將這一模型應用于雙邊關系預測。④樸素貝葉斯模型,這一模型是根據特征預測出其類別。但是因為樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。而在屬性相關性較小時,樸素貝葉斯性能最為良好。課題組采用這一模型進行事件預測,即預測未來三個月是否會發生首腦訪問等重大事件。⑤隱馬爾科夫模型(HMM),該模型假設模型的當前狀態僅僅依賴于前面的幾個狀態。n階馬爾科夫模型中n是影響下一個狀態的(前)n個狀態。 一階馬爾科夫過程包括狀態、pi向量和狀態轉移矩陣。本課題組將之應用于對中國與美國、日本、俄羅斯、英國、法國、印度和德國的雙邊關系進行預測。預測的時間段為未來三個月雙邊關系的變化。預測的內容包括兩方面:一方面是關系走向預測,即未來三個月雙邊關系是升、降還是平?另一方面是變化程度預測,即如果預測未來某個月雙邊關系會上升,那么將上升多少?⑥基于不完全信息的信號博弈。

    (3)學術價值

    本課題的學術價值是:首先、本數據庫是以中文權威材料為基礎的第一個最全的中國外交數據庫。盡管西方也有關于中國的研究。但往往來源于西方媒體,其研究結論可能受報道偏向引導。本數據庫資料來源權威。除此之外,本數據庫根據課題組成員的語言和研究專長,發掘研究對象國相關政府機構和重要媒體對雙邊關系信息的發布和報道。這樣的雙向數據收集可以增加信息來源的多樣性,通過比對雙方對同一事實的不同反應,有助于全面地記錄事實并增加賦值的客觀性。這為中國與周邊國家關系研究提供了大量原始數據和研究方法方面的啟示,近幾年來出現大量應用“數據庫”數據或者以此方法研究中國與其他國家關系的學術論文。

    其次,本數據庫借鑒了大數據GDELT,對傳統數據庫進行了補充,找出國際關系大數據挖掘的具體領域。同時,本課題組也采用大數據應用的機器學習算法,如隱馬爾科夫(HMM)模型、神經網絡分析等,用于對未來的關系變化的預測。建立在數據基礎上的關系研究可以為中國與周邊國家外交提供有價值的關系走向預測,幫助政策機構了解中國與周邊國家關系的階段性趨勢。

    (4)社會影響

    本課題組對相關數據進行了長期細致整理,得到了社會的廣泛關注。

    研究成果受到同行廣泛好評:此項數據庫被國內外學者廣泛應用:例如美國哈佛大學教授Iain Johnston應用該數據分析中美關系,參見Alastair Iain Johnston, “Stability and Instability in Sino-US Relations: A Respnse to Yan Xuetong’s Superficial Friendship Theory”, The Chinese Journal of International Politics, 2011, Vol.4. No.1, pp.5-29。國內學者李巍、張萌、龐昌偉、郭銳、王簫軻、徐奇淵、陳思翀等也應用此數據庫進行研究,成果發表于各CSSCI雜志!

    第三、本課題的核心成果——中外關系數據受到社會廣泛關注,被中國電子科技集團公司第二十八研究所采用。

    三、下一步研究計劃

    在項目推進的這幾年期間,大數據挖掘與機器學習、深度學習等建模技術突飛猛進,為了更好提高項目研究質量,與時俱進,本項目希望在以下方面繼續展開進一步的深入研究工作。

    1、對相關數據進行深入挖掘與整理

    (1)本項目組希望將中外關系數據從原來的1950-2014年擴展至1950年-2018年

    由于本項目立項時間為2015年,因此項目組在初期工作時將外交數據庫的整理截止時間設定為2014年。

    (2)本項目組希望引入GDEELT等大數據作為新的數據來源

    在本項目組的初期工作中,為了保證數據的權威性,采用的數據來源主要為國內權威新聞媒體和網站。然而在英文大數據中,GDELT全球事件數據項目(GDELT Event Database)提供了全球100多種語言的媒體、網頁上的事件信息,時間跨度為1979年至今。數據量上億,包括國家、事件類型、地理位置等多個維度。因此本項目組希望在下一階段將GDELT納入數據來源,增加本數據庫的完整性和權威性。

    (3)本項目組希望擴大雙邊關系衡量的研究對象數量

    在項目組的初期工作中,研究對象包括大國和周邊國家:美國、日本、蘇聯(俄羅斯)、英國、法國、德國、印度、韓國、印尼、澳大利亞、越南、巴基斯坦。在下一階段的工作中,本項目組希望可以將既有的數據庫中對雙邊關系的衡量作為測試集,采用交叉驗證( Cross Validation) 法,將從大樹數中挖掘到的數據集作為訓練集,用訓練集建模,用測試集加以檢驗。從而可以將雙邊關系衡量模型推廣到中國與其他各國的關系,進而衡量中國與其他國家外交關系的賦值。

    2、改進事件的編碼體系,使用人機結合的方式,將人工編碼與機器編碼有效結合

    (1)改進事件的編碼體系

    在數據庫中,對各變量維度的編碼是核心內容。在編碼分類上,西方的事件數據庫中,主要的研究動機是希望適用于沖突領域,因此其事件的劃分類型和具體維度往往圍繞沖突相關的變量而進行展開。在分析中國外交事件時,有些對于雙邊關系影響重大的類別,在CAMEO或者 ICEWS系統等西方常用編碼系統中則受到忽視。例如GDELT大數據庫使用的編碼體系也是CAMEO系統。在CAMEO系統中,共分為20大類,包括的事件有300個以上。在GDELT數據庫中,這300多類事件劃分為四個類別:口頭合作類(verbal cooperation)、事實合作類(material cooperation)、口頭沖突類(verbal conflict)和事實沖突類(material conflict),具體的維度有事件的發生時間、事件主動方的國家名、事件接受方的國名、事件的性質、事件的影響、該事件在各網址新聞等數據來源中被提及的次數,事件被報道時的語氣,事件發生地的地理經緯度、數據錄入時間、事件的信息來源等。因此,為了更好地體現中外關系,在新的數據庫中,將提供有利于分析和衡量中外關系程度的變量作為編碼系統。

    (2)采用事件的自動編碼軟件,使用人機結合的方式,將人工編碼與機器編碼相結合

    本數據庫的核心內容是對外交事件的編碼。數據庫內容中,最重要的就是對變量維度的編碼,因為這直接決定了研究的內容和方向。在西方創建的事件數據庫中,早期大量采取人工編碼方式。查爾斯·麥克萊蘭 (Charles McClelland)對外交史采取了人工手動編碼的方式。隨著計算機技術的進步,一些研究項目開始采取計算機自動編碼的方式。在上個世紀80、90年代,美國堪薩斯事件數據系統(Kansas Event Data System,KEDS)利用WEIS的事件編碼系統通過計算機自動編碼新聞事件。此外還有一些常用的編碼系統:Conflict and Mediation Event Observations(CAMEO),the Integrated Data for Event Analysis (IDEA) (這一編碼系統被以下項目使用the Protocol for Nonviolent DirectAction (PANDA)),斯洛德特還開發了使用這個編碼系統的軟件(Textual Analysis by Augmented Replacement Instructions ,TABARI)。隨著大數據挖掘的深入發展,西方一些科研項目采取了大數據挖掘和自動編碼相結合的結束。21世紀的項目the Integrated Conflict Early Warning System(ICEWS)針對亞太地區收集數據,這一項目采用的自動編碼程序為BBNACCENT。目前美國最新開發的新編碼系統是Political Language Ontology for Verifiable Event Records(PLOVER),編碼軟件是Python Engine for Text Resolution And Related Coding Hierarchy,PETRARCH-2。

    本數據在下一步將建立人機結合的編碼方式,以完善入庫數據的真偽判別機制。在大數據時代,很多數據是直接根據爬蟲等數據挖掘技術,將相關新聞報道直接算入數據,但是這會導致數據庫噪聲太大,需要多重清洗。如果清洗不干凈的話,可能會出現以下問題:對于某一事件,可能有多個新聞來源報道,則在挖掘時可能重復記入,導致數據庫不精確。此外,機器編碼還有可能在對事件編碼時錯誤抽取關鍵變量。

    為了避免以上數據挖掘和機器編碼的常見失誤,本數據庫將建立了人工編碼和機器編碼結合的入庫數據的真偽判別機制,主要依靠專業人士人為甄別。對于相關新聞和數據的真偽,可以由專業人士進行初步篩選,然后將所得數據給相關研究領域的專家進行判別,看數據結果與專家感覺是否一致,若差異不大,可以認為數據沒有大的疏漏。最后根據數據庫的研究問題,尋找數據庫來源以外的其他權威資料來源,根據多個資料對數據進行檢驗,從而增強數據的真實性。因此,本數據庫依據專家檢驗和史料核實建立判別機制,可以保證數據庫內容的準確性。

    (課題組供稿 )

    (責編:孫爽、艾雯)
    97久久国产露脸精品国产| 69久久精品无码一区二区| heyzo加勒比高清国产精品| 亚洲第一精品电影网| 亚洲精品少妇30p| 伊人久久大香线蕉精品不卡| 亚洲AV成人精品日韩一区| 午夜精品一区二区三区免费视频| 一区二区精品在线观看| 久久久国产精品va麻豆| 亚洲自偷精品视频自拍| 777午夜精品久久av蜜臀| 亚洲国产成人精品无码久久久久久综合 | 92国产精品午夜福利| 久久久免费的精品| 99精品久久精品一区二区| 国产精品久久亚洲一区二区| 亚洲欧洲精品成人久久曰| 91国内揄拍国内精品情侣对白| 亚洲国产精品无码久久久秋霞2| 国产69精品久久久久99尤物| 国产精品色午夜免费视频| 在线精品一区二区三区| 精品国产品国语在线不卡| 亚洲国产精品久久久久网站| 久草视频在线这里精品| 久久久久九国产精品| 精品人妻一区二区三区毛片| 国产精品久久久久网站| 日韩精品视频免费网址| 国产精品无码AV不卡| 亚洲AV永久无码精品一福利| 日本精品www色| 亚洲国产精品美女| 精品久久无码中文字幕| 亚洲精品成人久久| 337p日本欧洲亚洲大胆精品555588 | 国产精品白丝AV嫩草影院| 国产在线观看91精品一区| 国产在线麻豆精品| 国产在线视精品麻豆|