暨南大學陳光慧主持完成的國家社會科學基金項目《超總體模型輔助條件下抽樣估計方法及其應用研究》(項目批準號為:14CTJ014),最終成果為同名論文集。課題組成員有:馬志華、容越彥、曹偉偉、閆單單、楊檳羽。
一 研究的目的和意義
在整個抽樣調查過程中,抽樣設計和抽樣估計是影響抽樣精度最主要,也是最具技術性的兩個環節。抽樣設計研究如何從總體中抽出一個隨機樣本以更好地代表總體,在實際調查中一般使用復雜抽樣設計。國內外對此研究非常成熟,理論也相當完善。抽樣估計是在抽樣設計環節之后,基于樣本信息研究應用什么樣的抽樣估計方法對總體未知參數進行推斷估計。相對來說,抽樣估計方面的研究還遠不夠充分和完善。
1.研究目的
在既定的調查經費和樣本信息下,通過改進抽樣估計方法得出更優的估計結果,這對于提高數據質量的貢獻是潛在和巨大的。本項目理論研究目的在于,尋找現有抽樣估計中難以解決的關鍵技術問題,通過構建一套現代抽樣回歸估計方法的基礎理論體系,改進抽樣估計效率,為提高調查數據質量奠定方法論基礎。
近年來,我國政府統計部門在抽樣框、聯網直報、“一套表”和復雜抽樣設計等方面做了大量工作,但在抽樣估計方面考慮得并不多。本項目應用研究目的在于,在當前形勢下針對產生統計數據的最大源頭,即政府抽樣調查體系進行研究,重點解決抽樣估計問題,構建適應我國統計管理體制的抽樣估計體系,潛在地提高數據質量。
2.研究意義
(1)在理論方面,本項目拓寬了傳統抽樣估計方法的研究范疇,在超總體模型輔助條件下研究一套抽樣估計方法,將傳統的回歸理論與抽樣估計結合起來,在兩者的交叉領域進行研究,使得在既定的樣本信息下產生更加準確的估計結果。(2)在應用方面,本項目成果可為政府統計部門改革和完善抽樣方法提供借鑒和參考。比如基于復雜抽樣設計的廣義回歸估計方法、連續月度調查下的校準組合估計方法,這些必將有效指導我國開展統計調查工作,產生更加準確的調查數據。
二 成果的主要內容、重要觀點及創新之處
1.主要內容
本項目以超總體模型為基礎,圍繞如何產生更加準確的抽樣估計問題展開研究,將模型輔助下的廣義回歸估計與模型誤差設定、復雜抽樣設計、多水平模型、連續性樣本輪換調查結合起來得出精度更高的估計結果,并與我國實際抽樣調查結合起來,構建一套適應國情的抽樣回歸估計方法體系。
(1)為了改進模型識別的效果,在模型形式方面,根據輔助變量與研究變量之間的關系,將現行的線性回歸模型擴展到非線性、半參數和非參數模型。本部分在現有研究的基礎上,借鑒數理統計的最新研究成果,利用前沿的建模方法,研究建立一套模型體系,涵蓋各種模型形式,為后續回歸估計提供模型基礎。
(2)為了增強估計方法的推廣價值,在上述一般性模型體系下進行系統性的模型輔助抽樣估計研究。包括:將目前的比率估計、線性回歸估計、非參數估計等各種方法統一在廣義回歸估計體系下進行研究;根據樣本信息識別出恰當的模型形式,并通過上述廣義回歸估計體系得出具體的回歸估計量,如在非參數模型下應用局部多項式回歸估計,不需太多的模型假定,更接近實際調查情況。
(3)為了提高模型估計效果,在上述廣義回歸估計體系下,對估計方法進行改進研究。在模型設定方面,改變超總體模型誤差項的方差結構,從理論上對現行方法進行擴展;在誤差項方差函數中考慮各種復雜抽樣設計的影響,將抽樣設計引入估計量中;利用校準估計思想,對回歸系數和權重系數進行最優化校準,得出廣義校準回歸(組合)估計方法。
(4)針對復雜抽樣下的估計難題,引入多水平模型(Multilevel)進行廣義多水平回歸估計。本部分在現行的組回歸模型和單因素方差分析基礎上,考慮各階抽樣單元的水平差異和各群單元的類別差異,建立綜合的多水平模型,通過度量多層次樣本中的各層、各群和各階的影響,分層次開展廣義回歸估計,提高復雜抽樣下的整體估計精度。
(5)基于輪換樣本調查研究廣義回歸組合估計方法。首先,對于常見的輪換樣本調查,基于已有的平衡輪換模式研究廣義組合估計方法,利用各期信息更準確度量輪換樣本間的相關關系,得出有效性更高的估計量;其次,在廣義組合估計基礎上,利用各期輔助信息構建回歸模型,進行廣義回歸組合估計。另外,還與校準估計方法結合,提出校準組合估計方法,進一步提高估計精度。
(6)針對我國抽樣調查在估計環節存在的不足,建立適應政府管理體制的模型輔助抽樣估計方法體系。利用上述研究的理論方法,并借鑒發達國家建設抽樣估計系統的成功經驗,研究內容有:面對大數據時代的機遇與挑戰,提出現代政府統計調查體系改革的思路和建議;結合我國各類調查使用的復雜設計、輪換模式,構建具體的超總體模型,確定具體的模型輔助廣義回歸估計的程序和步驟。
2.重要觀點
(1)利用輔助信息進行模型識別,構建恰當的超總體回歸模型進行輔助估計;(2)放寬模型假定條件,將現行的線性回歸估計拓展到半參數、非參數估計的研究范疇,引入校準估計等方法改進廣義回歸估計;(3)將傳統的一階抽樣估計擴展到復雜抽樣下的多階估計;(4)研究近似模型無偏和一致的方差估計量,提高方差估計效果;(5)在各類實際調查中應用這一套模型輔助抽樣估計體系,實現連續各期協調運作,提高估計效率,全面、準確地提供抽樣調查數據。
3.創新之處
(1)關于模型回歸系數的樣本估計問題。本項目在估計回歸系數時,在主流的加權最小二乘估計法的基礎上,綜合利用復雜抽樣設計的包含概率、模型誤差項方差函數的信息,并校準樣本權重,得出更加準確的模型回歸系數估計量,以解決這一重點問題。(2)在連續性抽樣設計下構建超總體模型進行廣義回歸組合估計。在連續抽樣估計方面,以往主要是應用組合估計法,未考慮建立模型。本項目通過校準估計方法,使用現期和過去各期的輔助信息,研究模型輔助下的廣義校準組合估計方法,并根據實際情況應用到各類連續性樣本輪換調查中。(3)結合我國政府調查的實際需要,應用模型輔助抽樣估計方法。本項目結合大數據時代的特征,將這一套估計方法與現行政府抽樣調查的組織機構、調查制度、調查內容、調查指標等方面改革相結合,綜合考慮各方面的制約因素和阻力,在多方博弈中尋求調查制度與方法的更優平衡點,提高這套理論方法的實際應用價值。
三 成果的價值
該成果的學術價值在于:在借鑒西方國家前沿的抽樣估計方法研究成果基礎上,進行系統性的改進和創新,最終形成了一系列較為科學、合理的模型輔助抽樣估計方法體系,這套估計方法體系為我國政府統計的應用研究奠定了扎實的理論基礎。
該成果的應用價值在于:針對我國當前政府統計數據質量問題,該成果從抽樣估計的角度進行研究,給出一系列模型輔助抽樣估計方法,在不增加調查經費的情況下提高估計精度和調查數據質量,為前沿的模型輔助抽樣估計方法在我國政府統計部門的應用鋪平道路。