前言
抽樣調(diào)查是研究美國政治的重要觀測工具。自19世紀(jì)末至今,美國政治研究中的抽樣調(diào)查從起源、發(fā)展,到21世紀(jì)以來遇到挑戰(zhàn)。
面對概率抽樣調(diào)查覆蓋誤差增大、應(yīng)答率下降和成本上升,非概率抽樣調(diào)查的興起,以及來自大數(shù)據(jù)的競爭等問題,抽樣調(diào)查研究者們不斷創(chuàng)新,正在探索響應(yīng)式調(diào)查設(shè)計,非概率樣本的統(tǒng)計推斷,以及與大數(shù)據(jù)結(jié)合應(yīng)用等方法。
本文采用總調(diào)查誤差的框架,從測量誤差、覆蓋誤差、無應(yīng)答誤差和調(diào)整誤差四個方面分析2016年美國總統(tǒng)大選前民調(diào)失靈的原因。概率抽樣調(diào)查、非概率抽樣調(diào)查和大數(shù)據(jù)各有自己的主要應(yīng)用場域,未來的發(fā)展中三種數(shù)據(jù)采集手段會相互校驗、融合使用,而高質(zhì)量的概率抽樣調(diào)查是衡量非概率抽樣調(diào)查或大數(shù)據(jù)質(zhì)量的參照基準(zhǔn)。
1、抽樣調(diào)查的發(fā)展歷程
(一)1890年至1960年,抽樣調(diào)查萌芽期
抽樣調(diào)查是一種相對于普查的方法創(chuàng)新。普查的歷史悠久,最早可以追溯到六千多年前的巴比倫,主要目的是清點管轄區(qū)域內(nèi)的人口并掌握他們的基本信息。普查長期以來在美國具有重要的地位,因為美國的國會由參議院和眾議院組成。參議院的議員議席按照每州兩名的方式分配,而眾議院的議員議席則是根據(jù)各州的人口數(shù)分配。
然而,普查并非易事,耗時、耗資、耗力,各國要成立專業(yè)的統(tǒng)計部門來實施這項工作。1897年挪威中央統(tǒng)計局主任安德斯·凱(Anders Kaier),首次提出了用代表性樣本代替普查所有人口的做法。他提出的做法類似于配額抽樣,是依據(jù)一些輔助信息有目的地選取一個“平衡”的樣本,而該樣本的各方面特征可以反映出普查的人群特征。
這在當(dāng)時是一個革命的想法,安德斯·凱不屈不撓地到處宣傳,卻四處碰壁。盡管政府部門對這一方法持謹(jǐn)慎態(tài)度,商業(yè)調(diào)查公司卻樂于接受省時、省力、省錢的創(chuàng)新。于是1936年美國大選年發(fā)生了抽樣調(diào)查史上一個里程碑式的事件。大選年預(yù)測總統(tǒng)競選結(jié)果是美國政治的一個熱點,當(dāng)時久負(fù)盛名的《讀者文摘》(Reader's Digest)雜志邀請其大量讀者參與調(diào)查,曾經(jīng)在1916年到1932年間成功預(yù)測當(dāng)選的總統(tǒng)。在1936年的調(diào)查中,《讀者文摘》收到了240萬名讀者的應(yīng)答,統(tǒng)計結(jié)果顯示阿爾夫·蘭登將勝出。蓋洛普公司(Gallup)采用配額抽樣的方法,僅根據(jù)很少樣本的調(diào)查,得出了相反的結(jié)論。當(dāng)年大選結(jié)果如蓋洛普公司預(yù)測,富蘭克林·羅斯福當(dāng)選。這個事件在公眾中產(chǎn)生了強烈的反響,也影響到政府和學(xué)術(shù)界,代表性樣本的思想開始生根發(fā)芽。
抽樣調(diào)查史上另一個里程碑式的事件,是1934年著名統(tǒng)計學(xué)家耶日·內(nèi)曼(Jerzy Neyman)關(guān)于概率抽樣論文的發(fā)表。這篇文章論證并提供了從樣本推斷到總體的方法及基于大樣本的置信區(qū)間估計,為概率抽選代表性樣本奠定了理論基礎(chǔ)。學(xué)者們在這一理論的基礎(chǔ)上不斷探索,完善概率抽樣的步驟,并測試方法的有效性。在美國測試這一方法最佳的環(huán)境就是總統(tǒng)競選,終于在1948年的總統(tǒng)選舉中,概率抽樣的方法擊敗蓋洛普的配額抽樣方法,成功預(yù)測杜魯門獲勝。這一事件引起了美國社會科學(xué)研究委員會(Social Science Research Council)的重視,提出民意調(diào)查應(yīng)采用更佳技術(shù)提高準(zhǔn)確性的建議。這一建議結(jié)束了一段時期以來配額抽樣與概率抽樣之爭,概率抽樣成為美國公認(rèn)的最優(yōu)調(diào)查方法。
與此同時,問卷標(biāo)準(zhǔn)化提問方面也取得了很大進(jìn)展,社會學(xué)和心理學(xué)研究者們?yōu)榇俗龀鼍薮筘暙I(xiàn)。調(diào)查是社會學(xué)者常用的研究手段,特別是在19世紀(jì)末的社會改良運動中,諸多社會學(xué)者走入倫敦的貧民窟,匹茲堡的工人區(qū)等地通過訪談收集了豐富的信息。這些學(xué)者對訪談方法既有信心又有經(jīng)驗。然而,當(dāng)一些商業(yè)或私營調(diào)查機構(gòu)想做大量的訪問時,聘用的往往是缺乏訓(xùn)練的新手,而研究者發(fā)現(xiàn)提問用語和方式對于態(tài)度性問題影響尤大,于是他們設(shè)計了統(tǒng)一的標(biāo)準(zhǔn)化問題,要求訪員嚴(yán)格按照問卷文字提問。在態(tài)度性問題的設(shè)計上,研究者們開始借鑒心理學(xué)上的賦值方法,但又覺得那種賦值方法過于煩瑣。1929年,倫西斯·利克特(Rensis Likert)在他的博士論文中使用了一種單個問題加上分程度答案的形式,簡化了態(tài)度性問題的測量,這種方法一直沿用至今。
20世紀(jì)40年代到60年代是美國抽樣調(diào)查史上的“黃金時代”。當(dāng)時的數(shù)據(jù)采集手段以訪員面對面訪問和郵寄問卷自填為主,應(yīng)答率普遍在70%以上,而且無應(yīng)答的主要原因是接觸不到受訪者,而非被拒絕訪問。那時訪員通常由退休婦女或照顧孩子的專職媽媽承擔(dān),她們既有很好的資歷,又有對調(diào)查的熱情。同時,這一時期抽樣調(diào)查數(shù)量較少,人們對此還有較大的新鮮感。
這一階段也見證了知名抽樣調(diào)查專業(yè)機構(gòu)和研究協(xié)會的誕生。1941年,國家民意研究中心(National Opinion Research Center,NORC)在丹佛大學(xué)創(chuàng)辦,后來由于創(chuàng)辦者哈里·菲爾德(Harry Field)的意外去世,該中心由克萊德·哈特(Clyde Hart)接任而在1947年轉(zhuǎn)到芝加哥大學(xué)。1946年,密歇根大學(xué)抽樣調(diào)查中心在利克特的領(lǐng)導(dǎo)下組建。兩個機構(gòu)后來分別承擔(dān)了美國兩個重要的抽樣調(diào)查項目,一個是社會學(xué)的綜合社會調(diào)查(General Social Survey,GSS),另一個是政治學(xué)的美國全國選舉調(diào)查(American National Election Studies,ANES)。1947年,在哈里·菲爾德的倡議下,一些致力于民意研究的抽樣調(diào)查先鋒創(chuàng)辦了美國民意研究協(xié)會(American Association for Public Opinion Research,AAPOR),并于次年出版發(fā)行了至今仍有重要影響力的專業(yè)雜志《公共輿論季刊》。
回顧這一階段,從凱到內(nèi)曼,從喬治·蓋洛普(George Gallup)到利克特,這些人物對抽樣調(diào)查從無到有、從被拒絕到被接受,發(fā)揮了重要的作用。他們對抽樣調(diào)查的滿腔熱情也源于社會關(guān)懷,相信自己在為營造更好的社會創(chuàng)造有用的工具。如蓋洛普在《民主的脈搏》一書中提出通過抽樣調(diào)查來反映人民的聲音,而利克特也曾針對當(dāng)時新政集權(quán)化的形勢下政府官員遠(yuǎn)離民眾,提出通過抽樣調(diào)查了解民意的解決方案。
(二)1960年至1990年,抽樣調(diào)查發(fā)展期
在這一階段,技術(shù)促進(jìn)了抽樣調(diào)查的突飛猛進(jìn)。為了保證樣本的代表性,抽樣調(diào)查最重要的是建構(gòu)一個定義明確、無遺漏無重復(fù)的抽樣框。對于家庭調(diào)查來說,抽樣框就是一個完備的家庭列表。如果出現(xiàn)遺漏,則會有人或家庭沒有機會被訪問到(稱之為覆蓋誤差),這會嚴(yán)重影響到抽樣調(diào)查的代表性。
美國早期抽樣調(diào)查的家庭列表主要有兩種來源:
一是地理區(qū)域(如行政單位、普查地區(qū)劃分等)內(nèi)的住戶名單或住址列表;
二是商業(yè)公司編輯的電話號碼簿中的住宅電話號碼。
在住宅電話未能完全普及時,第二種來源的抽樣框顯然會有嚴(yán)重的覆蓋誤差。因此,“黃金時代”的高質(zhì)量抽樣調(diào)查僅采用第一種方法建構(gòu)抽樣框,只有一些商業(yè)或私營調(diào)查機構(gòu)使用住宅電話號碼組織訪問。
20世紀(jì)60年代末,美國住宅電話得到了普及。由于使用住宅電話號碼建構(gòu)抽樣框效率高,費用低而得到越來越多調(diào)查機構(gòu)的青睞。在沒有統(tǒng)計理論支撐的情況下,政府和學(xué)術(shù)調(diào)查往往采取觀望的態(tài)度,而調(diào)查統(tǒng)計學(xué)家們則有巨大的壓力為這一實踐賦以合理性。一種建立在概率抽樣理論上的電話號碼隨機抽樣的方式誕生了。這種方法考慮美國電話號碼的構(gòu)成,前六位數(shù)字對應(yīng)特定的地理區(qū)域,于是隨機生成后四位號碼,實現(xiàn)電話號碼的隨機抽選。同時計算機技術(shù)也有了進(jìn)步,并開始應(yīng)用在電話訪問上,被稱為計算機輔助電話訪問(Computer-Assisted Telephone Interviewing,CATI)。
這一時期調(diào)查研究者將認(rèn)知心理學(xué)理論和方法應(yīng)用到問題用語和問卷結(jié)構(gòu)等方面的測試中,這方面研究成果最為豐碩的是密歇根大學(xué)霍華德·舒曼(Howard Schuman)教授,他利用在抽樣調(diào)查中嵌入隨機分組的實驗方法(稱為調(diào)查實驗),研究了問題順序、開放或封閉的答案選項設(shè)計、態(tài)度問題中設(shè)立中間選項等做法對受訪者應(yīng)答的影響。
這一時期美國聯(lián)邦政府和研究基金會投入了大量資金用來支持抽樣調(diào)查,多個全國大規(guī)??v貫追蹤調(diào)查都是在這一時期啟動的。
抽樣調(diào)查為了解大規(guī)模民眾或群體的態(tài)度及變化打開了大門,成為用政治事實闡釋政治科學(xué)的重要工具。與早期蓋洛普對于抽樣調(diào)查與民主關(guān)系的樂觀態(tài)度不同,這一時期政治研究者們深深被抽樣調(diào)查中的一些發(fā)現(xiàn)所困擾。美國式民主制度標(biāo)榜民治、民有、民享的政府,公眾是如何參與政治及通過投票選擇執(zhí)政方成為政治學(xué)研究者們最迫切想要了解的問題。
總的來看,抽樣調(diào)查在20世紀(jì)60年代至90年代的30年里鞏固了其在社會科學(xué)研究領(lǐng)域中的地位,雖然已出現(xiàn)了一些令人不安的跡象,如應(yīng)答率的下降和調(diào)查成本的上升,但憂患主要來自內(nèi)部。然而,進(jìn)入20世紀(jì)90年代以后,科技的進(jìn)步帶來了外部的挑戰(zhàn),抽樣調(diào)查一時迷失了方向。
(三)1990年至今,抽樣調(diào)查迷失期
不幸的是,調(diào)查者們的研究發(fā)現(xiàn)全球的抽樣調(diào)查都不同程度地顯示出應(yīng)答率下降的趨勢,直接原因是受訪者拒絕接受訪問的比例增加,而社會資本下降是造成這一現(xiàn)象的重要社會原因。
當(dāng)時應(yīng)答率的計算方式多樣,常常會造成不同調(diào)查項目之間無法比較。因此美國民意調(diào)查研究協(xié)會在1998年出版了《標(biāo)準(zhǔn)化定義:抽樣調(diào)查案例代碼的最終配置與結(jié)果率》,制定了統(tǒng)一的應(yīng)答率計算標(biāo)準(zhǔn)。調(diào)查者們努力尋找辦法來提高應(yīng)答率,他們嘗試了培訓(xùn)訪員轉(zhuǎn)化拒訪的技巧、調(diào)配不同特征的訪員,提升受訪者的酬金等方法,然而這些措施不但沒有改變應(yīng)答率下降的趨勢,反而使調(diào)查成本越來越高。
技術(shù)進(jìn)步加劇了抽樣調(diào)查的困境,甚至導(dǎo)致了抽樣調(diào)查的退步。移動電話普及后,一些家庭不再安裝使用住宅固定電話,造成原有的基于住宅電話的抽樣框出現(xiàn)嚴(yán)重的覆蓋誤差。然而對于移動電話,一個家庭可能不僅只有一個號碼,甚至一個人也可能擁有多個號碼,而且移動電話和居住區(qū)域之間不是完全對應(yīng),因此,僅依靠移動電話號碼建構(gòu)抽樣框會產(chǎn)生更為嚴(yán)重的問題。這時,嚴(yán)謹(jǐn)?shù)某闃诱{(diào)查不得不退回到基于郵遞系統(tǒng)的住址列表來選取代表性調(diào)查樣本,無力承擔(dān)昂貴調(diào)查費用的商業(yè)調(diào)查公司在尋找新的替代方案。
同時互聯(lián)網(wǎng)技術(shù)的發(fā)展催生了網(wǎng)絡(luò)問卷調(diào)查,這種調(diào)查屬于最為傳統(tǒng)的受訪者自填調(diào)查模式,類似于早期郵寄問卷調(diào)查。與紙版問卷相比,網(wǎng)絡(luò)問卷問題形式更為豐富,不僅包括文字性問題,也可以插入音頻、圖片和視頻等多媒體信息。然而,這種調(diào)查模式的致命弱點是無法確定抽樣框。政府或?qū)W術(shù)調(diào)查會從郵政地址列表中抽取代表性樣本,將網(wǎng)絡(luò)調(diào)查的鏈接通過郵件發(fā)送給選中的家庭,然后采用電話或真人到訪的方式進(jìn)行補訪。一些商業(yè)調(diào)查公司則走上了當(dāng)年《讀者文摘》的老路,在網(wǎng)站上推送鏈接,網(wǎng)民自愿參與調(diào)查。還有一些調(diào)查公司建設(shè)網(wǎng)絡(luò)調(diào)查樣本庫,主動招募網(wǎng)絡(luò)調(diào)查的志愿者,登記他們的基本社會人口信息,然后采用配額抽樣的方法發(fā)送調(diào)查鏈接。2010年,美國民意研究協(xié)會宣布盡管這樣的樣本庫有一些用處,“當(dāng)研究目標(biāo)是為了精確地估計總體參數(shù)值時,研究者應(yīng)該避免使用在線非概率樣本庫”。此外,在網(wǎng)絡(luò)調(diào)查自制(DIY)工具的輔助下,似乎人人可以做調(diào)查,抽樣調(diào)查的專業(yè)化被漠視,抽樣設(shè)計被忽略,測量設(shè)計上也魚目混珠,抽樣調(diào)查被“游戲化”或“娛樂化”。抽樣調(diào)查統(tǒng)計學(xué)家們又遇到和當(dāng)年電話調(diào)查普及時同樣的壓力,就是如何為這種非概率抽樣的網(wǎng)絡(luò)調(diào)查提供理論支持,于是非概率抽樣調(diào)查的統(tǒng)計推斷問題成為這一階段的研究熱點。
這一時期出現(xiàn)的另一個“復(fù)興”是調(diào)查實驗,就是通過把調(diào)查樣本隨機分配到實驗組和對照組,將實驗設(shè)計嵌入抽樣調(diào)查中。如前所述,這一方法早就被應(yīng)用在抽樣調(diào)查方法的比較研究中。與傳統(tǒng)的實驗室實驗相比,調(diào)查實驗的被試(樣本)是概率抽選,在概率論的支持下可以將實驗結(jié)果推論到更大的總體(稱之為外部效度);而且被試(樣本)數(shù)量大,同質(zhì)性低,也提高了實驗結(jié)果的有效性(稱之為內(nèi)部效度)。當(dāng)經(jīng)濟(jì)學(xué)的觸角伸入抽樣調(diào)查中,用調(diào)查數(shù)據(jù)分析因果機制成為重要的需求。政治學(xué)者們在這方面深受影響,當(dāng)計算機輔助調(diào)查的技術(shù)得到應(yīng)用,對樣本的隨機化分配成為易事,他們便馬上利用這一技術(shù)優(yōu)勢,將調(diào)查實驗嵌入大型抽樣調(diào)查中。他們還發(fā)明了一種測量敏感問題態(tài)度的實驗,稱之為列舉實驗(list experiment)。這種方法是將問卷分為兩個版本,隨機分配給受訪者。一個版本的問卷中包括一組有關(guān)態(tài)度或行為的常規(guī)問題,另一個版本的問卷中同樣包括這些問題,但多出一條關(guān)于態(tài)度或行為的敏感問題。通過比較兩組問題的均值,就可以得出敏感態(tài)度或行為的發(fā)生比例。美國政治學(xué)家保羅·辛德曼(Paul Sniderman)是推動將調(diào)查實驗運用到美國政治研究中的核心人物。在他自己關(guān)于種族偏見與歧視的研究中,調(diào)查實驗是重要的研究方法。他還申請到美國自然科學(xué)基金(NSF)的資助,創(chuàng)建了社會科學(xué)分時實驗室(Time-sharing Experiments in the Social Sciences,TESS)。社會科學(xué)分時實驗室采用一個調(diào)查項目搭載多個調(diào)查實驗的方法,公開征集調(diào)查實驗的研究計劃,并搭建了擁有全國代表性樣本的網(wǎng)絡(luò)調(diào)查平臺采集調(diào)查實驗數(shù)據(jù)。
互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交媒體的普及,開辟了數(shù)據(jù)采集的新階段。任何電腦、移動設(shè)備或傳感器上的操作都可以被機器自動記錄、存儲或傳輸,產(chǎn)生了巨大數(shù)量的數(shù)據(jù),被稱之為“大數(shù)據(jù)”。大數(shù)據(jù)給人的感覺是可以記錄下任何人所做的任何事。這種情況下既無須抽樣,也無須調(diào)查,數(shù)據(jù)已經(jīng)在那里了。一時間,抽樣調(diào)查仿佛遇到了“滅頂之災(zāi)”。然而,大數(shù)據(jù)這個巨人對于社會科學(xué)研究也有諸多羈絆。一是大數(shù)據(jù)并非是理想中的總體數(shù)據(jù),總是有一些人會被有意無意地排除在這些設(shè)備或網(wǎng)絡(luò)之外,不同的人被機器捕捉到數(shù)據(jù)的概率不同且不知。與非概率抽樣的網(wǎng)絡(luò)調(diào)查數(shù)據(jù)相似,大數(shù)據(jù)雖在規(guī)模上取勝,但同樣不能推論總體;二是大數(shù)據(jù)是有機產(chǎn)生的,或稱“有機數(shù)據(jù)”,數(shù)據(jù)量雖大,但信息含量低,噪音干擾多,數(shù)據(jù)處理不易。對于研究者來說屬于“二手?jǐn)?shù)據(jù)”,如果不清楚數(shù)據(jù)產(chǎn)生的機制,很容易得出錯誤的結(jié)論;三是大數(shù)據(jù)并非公共資源,大多掌握在商業(yè)公司或私營機構(gòu)中,在很大程度上成為謀利的私有財產(chǎn),而無意于幫助理解社會。雖然如此,對于研究者來說,大數(shù)據(jù)獲取相對容易,成本也低,具有很強的吸引力。
在這一階段,抽樣調(diào)查遇到了嚴(yán)峻的挑戰(zhàn),分別是:第一,應(yīng)答率的下降及調(diào)查成本的上升;第二,非概率抽樣調(diào)查的死灰復(fù)燃;第三,大數(shù)據(jù)的橫空出世。抽樣調(diào)查研究者們沒有姑息待命,下部分將重點介紹他們在這方面的努力。
2、抽樣調(diào)查的新探索
(一)概率抽樣調(diào)查的自救:響應(yīng)式調(diào)查設(shè)計
雖然可以簡單地認(rèn)為,抽樣調(diào)查應(yīng)答率低,概率抽樣就不能保證提供對于總體特征參數(shù)的無偏估計,但是應(yīng)答率低到何種程度才能破壞推斷的有效性卻一直沒有明確答案。抽樣調(diào)查應(yīng)答率的降低促使調(diào)查研究者們不得不認(rèn)真考察無應(yīng)答率與無應(yīng)答偏差的關(guān)系。格羅夫斯在2006年和2008年兩次發(fā)表論文證明無應(yīng)答率和無應(yīng)答偏差沒有直接聯(lián)系。如他和同事利用59項研究中的959個估計值進(jìn)行分析,發(fā)現(xiàn)無應(yīng)答率與這些估計值偏差相關(guān)系數(shù)僅在0.20左右,只有在調(diào)查變量與應(yīng)答傾向高度相關(guān)的情況下,無應(yīng)答率才會影響到無應(yīng)答誤差。因此,同一個調(diào)查內(nèi)的不同變量的無應(yīng)答誤差是不同的。美國抽樣調(diào)查專家邁克爾·布里克(Michael Brick)和羅杰·圖蘭吉(Roger Tourangeau)利用同樣的數(shù)據(jù)進(jìn)一步分析發(fā)現(xiàn),當(dāng)把這些估計值偏差按照所屬研究進(jìn)行匯總時,可以發(fā)現(xiàn)無應(yīng)答率與無應(yīng)答偏差在調(diào)查之間存在較強的相關(guān)性。也就是說,較高應(yīng)答率的調(diào)查,研究變量的總體偏差相對較低。
針對越來越多的家庭或個人不愿意參與抽樣調(diào)查,格羅夫斯等利用計算機輔助調(diào)查能夠獲取并及時提供關(guān)于調(diào)查過程的數(shù)據(jù)(稱之為并行數(shù)據(jù))的便利,在2006年提出了“響應(yīng)式調(diào)查設(shè)計”(responsive survey design)的思路,其基本框架包括以下四個方面:
• 預(yù)先確定一組可能會影響到調(diào)查成本和誤差的設(shè)計特性;
• 針對設(shè)計特性,確定一套測量成本和誤差屬性的指標(biāo),并在數(shù)據(jù)采集的最初階段監(jiān)測這些指標(biāo);
• 在權(quán)衡成本和誤差得失的基礎(chǔ)上,在后續(xù)階段改變設(shè)計特性;
• 將不同階段的數(shù)據(jù)組合成最終的數(shù)據(jù)集。
研究者們在這個框架的基礎(chǔ)上進(jìn)行拓展。一個研究取向是在調(diào)查開始,根據(jù)抽樣框或其他關(guān)于樣本的輔助數(shù)據(jù),對不同的人群總體分派不同的調(diào)查操作指示,這種方法也被稱為“適應(yīng)式調(diào)查設(shè)計”(adaptive survey design),有別于在調(diào)查開始后基于前一階段的情況進(jìn)行修改的響應(yīng)式設(shè)計。另一個研究取向是不再劃分為獨立的階段,而是在全過程中根據(jù)需要進(jìn)行調(diào)整,這種做法被稱作“動態(tài)調(diào)查設(shè)計”(dynamic survey design)。
這些設(shè)計共同關(guān)注的四個元素是:設(shè)計特性、輔助數(shù)據(jù)、質(zhì)量和成本的測量指標(biāo),以及質(zhì)量-成本的優(yōu)化。輔助數(shù)據(jù)是測量指標(biāo)設(shè)計的基礎(chǔ)。按照所利用的輔助數(shù)據(jù),這些指標(biāo)可分為三大類:第一類是應(yīng)答率,僅依據(jù)受訪者是否應(yīng)答即可計算;第二類指標(biāo)除了應(yīng)答率,還加入了抽樣框數(shù)據(jù)和并行數(shù)據(jù),如R指標(biāo)(R indicator)和分組應(yīng)答率的變異系數(shù);第三類指標(biāo)比第二類指標(biāo)又增添了調(diào)查數(shù)據(jù),如缺失信息率等。其中,R指標(biāo)嘗試采用模型的方法來預(yù)測受訪者的應(yīng)答傾向,對輔助數(shù)據(jù)的來源和質(zhì)量要求更高。如聯(lián)系記錄和訪員觀察等并行數(shù)據(jù)極易產(chǎn)生測量誤差,會減弱他們與調(diào)查變量或受訪者應(yīng)答傾向間可能存在的關(guān)系。
抽樣調(diào)查研究者們通過真實的項目、實驗或仿真模擬對響應(yīng)式調(diào)查設(shè)計的效果進(jìn)行評估??傆[這些研究,圖蘭吉等人得出以下結(jié)論:
第一,調(diào)查方案的重大變化(如更短的問卷、更大的激勵措施或轉(zhuǎn)為面訪),與簡單堅持一貫的數(shù)據(jù)采集方案相比,更有可能減少無應(yīng)答偏差。但是,在調(diào)查預(yù)算不斷縮減的時代,所有調(diào)查都很難減少無應(yīng)答偏差。第二,盡管許多嘗試使用傾向模型來提高數(shù)據(jù)收集的效率,但是無論是提高應(yīng)答率還是對降低應(yīng)答傾向的變異,收獲甚微。究其原因有幾個方面:(1)受當(dāng)時的調(diào)查環(huán)境所限,取得顯著進(jìn)展的難度較大;(2)輔助變量對于應(yīng)答傾向的預(yù)測力不足,導(dǎo)致傾向模型對于數(shù)據(jù)采集沒有起到有效的指導(dǎo)作用;(3)即使模型準(zhǔn)確地預(yù)測了應(yīng)答傾向,實地執(zhí)行時不一定選擇了有效的干預(yù)措施;(4)即使選擇了有效的干預(yù)措施,卻不能有效地監(jiān)控訪員忠實地執(zhí)行指令。第三,相比依據(jù)同樣的輔助變量對調(diào)查數(shù)據(jù)進(jìn)行事后加權(quán),在數(shù)據(jù)采集時利用響應(yīng)式調(diào)查設(shè)計實現(xiàn)樣本的平衡不僅有助于降低偏差,還可以減少加權(quán)對調(diào)查估計值方差的影響。
響應(yīng)式調(diào)查設(shè)計被認(rèn)為是現(xiàn)代抽樣調(diào)查的核心技術(shù)。為此,密歇根大學(xué)抽樣調(diào)查中心設(shè)置了專門的暑期培訓(xùn)課程,用以推廣這個技術(shù)在美國及全球抽樣調(diào)查實踐中的應(yīng)用。
(二)非概率抽樣調(diào)查的希望:統(tǒng)計推斷
研究者們一邊努力尋找挽救概率抽樣調(diào)查的良方,一邊重新審視死灰復(fù)燃的非概率抽樣調(diào)查。2011年,美國民意研究協(xié)會任命了一個特別工作組,由美國國內(nèi)知名抽樣調(diào)查專家組成,“研究在何種情況下,不使用概率樣本的各種調(diào)查設(shè)計仍可用于推斷更大的總體”。
這里的“推斷”指的是“統(tǒng)計推斷”,用工作組給出的定義是:對總體特征進(jìn)行估計,并且對這些估計的可靠性提供某種度量的一組程序。這組程序要基于理論和明確的假設(shè),那些沒有理論基礎(chǔ)而收集數(shù)據(jù)并做出估計的方法不能用作統(tǒng)計推斷。例如街角攔訪、網(wǎng)上自愿參與的方便抽樣(convenience sampling)調(diào)查在進(jìn)行估計時如果沒有任何基于理論的調(diào)整,是與統(tǒng)計推斷無份的。
非概率抽樣被孟曉犁比喻為“快餐”,能快速滿足人的需要,但含有對人體有害的成分。這些“有害的成分”表現(xiàn)為:(1)有部分人被排除在調(diào)查之外,導(dǎo)致嚴(yán)重的覆蓋誤差;(2)受訪者自愿參與,導(dǎo)致自我選擇的偏差;(3)高水平的無應(yīng)答率。雖然在網(wǎng)絡(luò)和大數(shù)據(jù)時代,非概率抽樣調(diào)查可以在短時間內(nèi)采集到大量的數(shù)據(jù),然而也無法降低對總體估計值的偏差。孟曉犁提出,估計值的偏差是三個部分?jǐn)?shù)值的乘積:第一部分是數(shù)據(jù)質(zhì)量測量,表現(xiàn)為研究變量X與樣本應(yīng)答指標(biāo)R的相關(guān)系數(shù);第二部分是數(shù)據(jù)數(shù)量測量,表現(xiàn)為(N-n)/n的平方根,其中N是總體規(guī)模,n是樣本規(guī)模;第三部分是問題難度測量,采用X的標(biāo)準(zhǔn)差。由此可見,首先,估計值偏差并非是樣本規(guī)模的函數(shù),而是樣本規(guī)模F與總體規(guī)模比值的函數(shù);其次,樣本相對規(guī)模對估計值偏差的影響會同時受到質(zhì)量測量和難度測量的制約。因此,在沒有考慮數(shù)據(jù)質(zhì)量的情況下,樣本量的大小不能決定估計值的準(zhǔn)確程度,反而會出現(xiàn)“大數(shù)據(jù)悖論”,即“數(shù)據(jù)越多,我們越容易欺騙自己”(the more the data,the surer we fool ourselves)。
提升非概率抽樣調(diào)查的數(shù)據(jù)質(zhì)量是讓這一方法獲得新生的唯一希望。在抽樣調(diào)查中,利用樣本估計進(jìn)行統(tǒng)計推斷有兩種不同的思路,分別是基于設(shè)計的估計和基于模型的估計。概率抽樣調(diào)查屬于基于設(shè)計的估計方法,隨機化抽樣設(shè)計保證每個樣本的入選概率是可知的,入選概率的倒數(shù)就是樣本的權(quán)重,在估計時通過權(quán)重把樣本還原為總體,從而實現(xiàn)統(tǒng)計推斷的功能。基于模型的推斷將抽樣調(diào)查中的有限總體視為特定形式的超總體的一次隨機實現(xiàn),數(shù)據(jù)產(chǎn)生的機制可以通過超總體模型加以刻畫,利用抽樣調(diào)查獲取的樣本觀測數(shù)據(jù)進(jìn)行擬合,對沒有觀測到的變量值進(jìn)行預(yù)測,從而實現(xiàn)對總體的統(tǒng)計推斷。
對于非概率抽樣調(diào)查,沒有一個嚴(yán)格的隨機化抽樣設(shè)計,但是可以通過一些干預(yù)實現(xiàn)“準(zhǔn)隨機化”(quasi-randomization)。第一個方法是計算出樣本的偽包含概率(pseudo-inclusion probability),轉(zhuǎn)化為權(quán)重,用來糾正選擇偏差。具體做法是選取一個供參考的調(diào)查(reference survey),可以是質(zhì)量上可信的可公開獲取的概率抽樣調(diào)查數(shù)據(jù)集,也可以是調(diào)查機構(gòu)并行實施的概率抽樣調(diào)查,要求是作為參考的調(diào)查要與非概率抽樣調(diào)查都含有與研究變量高度相關(guān)的協(xié)變量。將參考數(shù)據(jù)集里的樣本和自愿參與調(diào)查的樣本混合在一起,根據(jù)共同的協(xié)變量擬合模型來預(yù)測作為非概率樣本的概率,轉(zhuǎn)換為偽權(quán)重。如果只需要對非概率樣本進(jìn)行分析,則使用這個偽權(quán)重;如果概率樣本和非概率樣本合并使用,還需對偽權(quán)重和概率樣本的權(quán)重進(jìn)行標(biāo)準(zhǔn)化,確保合并后的權(quán)重之和接近總體規(guī)模。
第二個方法是樣本匹配(sampling match)。樣本匹配的重點也是選擇參考數(shù)據(jù)源,將非概率樣本的背景特征與目標(biāo)總體進(jìn)行匹配。參考數(shù)據(jù)源可以是普查數(shù)據(jù),也可以是推斷目標(biāo)總體的高質(zhì)量的概率抽樣調(diào)查數(shù)據(jù)。傳統(tǒng)的配額抽樣就是一種簡單的樣本匹配。這種方法從普查數(shù)據(jù)中選取一些社會人口屬性,如性別、年齡、受教育程度等變量作為協(xié)變量,然后根據(jù)這些協(xié)變量的交互分層來分配樣本,實現(xiàn)樣本在這些協(xié)變量上的構(gòu)成與總體相似。樣本匹配方法的關(guān)鍵是要找到和研究變量相關(guān)的協(xié)變量,然而不同的研究主題,相關(guān)的協(xié)變量不盡一致,而且協(xié)變量的數(shù)量也可能是多個。于是,研究者開發(fā)出用傾向值進(jìn)行匹配的方法。具體做法是從參考數(shù)據(jù)源中抽取一個隨機樣本,這個樣本可以看作推斷目標(biāo)總體的概率樣本,這個概率樣本需包含和研究變量相關(guān)的重要的協(xié)變量信息。然后,根據(jù)這些協(xié)變量,通過傾向值匹配的方法,從非概率樣本中選取匹配樣本。最后,利用匹配樣本的調(diào)查數(shù)據(jù)實現(xiàn)對總體的估計。也就是說,通過匹配的方法,使匹配樣本與概率選取的目標(biāo)樣本有相似的性質(zhì),因此可以根據(jù)匹配樣本對目標(biāo)總體進(jìn)行推斷。
第三個方法是鏈接跟蹤網(wǎng)絡(luò)抽樣方法(link-tracing network sampling),適用于有社會聯(lián)系的沒有可得抽樣框的特殊人群的抽樣。如應(yīng)答者驅(qū)動抽樣(Respondent Driven Sampling)就是這樣一種方法。具體做法類似滾雪球抽樣,也是通過前一個應(yīng)答者來招募下一個受訪者,不同的是這種方法對于招募的路徑及每個應(yīng)答者招募的人數(shù)有所限定,并且利用統(tǒng)計方法進(jìn)行評估,直至達(dá)到某種“均衡”即可結(jié)束調(diào)查。這種方法在滿足一些假定的情況下可以獲取接近概率抽樣的樣本。但在實際中這些假定很難得到滿足,即使得到滿足了,估計值的方差也可能相當(dāng)高。
上述三種方法都是基于設(shè)計的估計思路,是從總體選擇樣本,通過樣本來反射總體;另一種思路是基于模型的估計,不考慮樣本的選擇機制,而是用樣本來預(yù)測總體。模型估計的假定類似抽樣調(diào)查中數(shù)據(jù)的隨機缺失(Missing at Random,MAR)機制,認(rèn)為在控制住一系列協(xié)變量的情況下,樣本與非樣本在研究變量的特征上是相似的,因此通過利用樣本數(shù)據(jù),納入這些協(xié)變量擬合模型,模型的參數(shù)可以用來預(yù)測非樣本或總體的特征。常見的例子就是事后的校準(zhǔn)權(quán)重,如采用普查數(shù)據(jù)中的性別、年齡、受教育程度等變量構(gòu)建的分層(poststratification)或傾斜(raking)權(quán)重。最新的方法則是通過建構(gòu)回歸模型、傾向值模型,或多層次回歸模型,以及采用貝葉斯分析方法(Bayesian Analysis)來估計總體參數(shù)。這些方法也可以應(yīng)用在概率抽樣調(diào)查中,用于處理覆蓋誤差或無應(yīng)答誤差導(dǎo)致的估計偏差。
那么,如何判斷哪種方法更好呢?美國皮尤研究中心的資深研究方法專家安德魯·默瑟(Andrew Mercer)等認(rèn)為抽樣調(diào)查的估計偏差取決于三個要素:一是互換性(exchangeability),含義是觀測的樣本與沒有觀測的樣本是可以互換的,或者是有條件的互換,也就是說可以實現(xiàn)二者在研究變量上的表現(xiàn)無差異;二是正概性(positivity),意思是每一個觀測的樣本都是正概率入選,不存在總體中的某一個群體從觀測的樣本中完全缺失;三是組成性(Composition),就是觀測的樣本分布與目標(biāo)總體相匹配,或者通過調(diào)整后匹配。如配額抽樣或事后傾斜權(quán)重僅在組成性上有所改進(jìn),對于其他兩個方面沒有任何助益。而樣本匹配的方法可以在一定程度上保證互換性、正概性,輔以事后調(diào)整權(quán)重,也可以改善組成性,因此具有一定的優(yōu)勢。
無論哪種方法,最關(guān)鍵的是要獲取和研究變量高度相關(guān)、測量誤差小的協(xié)變量,模型的方法還要求在模型的設(shè)定上減少誤差。然而,實現(xiàn)這些并非易事,因此非概率抽樣的統(tǒng)計推斷具有相當(dāng)大程度的不確定性。
(三)抽樣調(diào)查與大數(shù)據(jù)的互補與互助
大數(shù)據(jù)成為社會熱點后,2015年,美國民意研究協(xié)會又成立了一個特別工作組,來調(diào)研大數(shù)據(jù)的特性及對抽樣調(diào)查的影響。工作組的專家們認(rèn)為,大數(shù)據(jù)屬于“發(fā)現(xiàn)”的數(shù)據(jù),是先出現(xiàn)數(shù)據(jù),而后研究者根據(jù)自己的研究需要去“收割”。而調(diào)查數(shù)據(jù)則屬于“制造”的數(shù)據(jù),是研究者根據(jù)研究需要先設(shè)計,然后按照設(shè)計來有控制地采集數(shù)據(jù)。由此,大數(shù)據(jù)的出現(xiàn)帶來了研究范式的改變。傳統(tǒng)研究范式是從理論到假設(shè)再到數(shù)據(jù),最后通過統(tǒng)計檢驗來驗證假設(shè),提出新理論,或修正、擴展原理論。大數(shù)據(jù)則在一定程度上脫離了理論驅(qū)動的研究范式,轉(zhuǎn)向數(shù)據(jù)驅(qū)動,利用數(shù)據(jù)量大、數(shù)據(jù)顆粒精細(xì)的優(yōu)勢來挖掘細(xì)節(jié)和變量間的相關(guān)性。
大數(shù)據(jù)在對專業(yè)人員技能上的要求也與抽樣調(diào)查有所不同。抽樣調(diào)查的專業(yè)訓(xùn)練注重抽樣和測量的設(shè)計,以及在數(shù)據(jù)采集過程的質(zhì)量控制,以最大限度地降低總調(diào)查誤差為目標(biāo)。收集到的數(shù)據(jù)采用結(jié)構(gòu)化方式存儲,數(shù)據(jù)清洗主要包括邏輯性檢驗、數(shù)據(jù)值合理性的查驗,以及元數(shù)據(jù)的修訂。后期數(shù)據(jù)處理包括對變量缺失值的插補、覆蓋誤差和無應(yīng)答誤差的調(diào)整等??偟膩砜?,前期投入大,技能要求高,后期工作主要是對前期工作中出現(xiàn)問題的彌補。大數(shù)據(jù)的采集屬于“直接收割”,最需要的是計算機數(shù)據(jù)管理技能,在不同的時間點從不同的數(shù)據(jù)源聚合并形成數(shù)據(jù)集。收割上來的數(shù)據(jù)良莠不分,格式多樣,沒有統(tǒng)一的結(jié)構(gòu)。這時需要專業(yè)人員對數(shù)據(jù)進(jìn)行清洗,去粗取精,去偽存真,統(tǒng)一測度,并形成可供分析的數(shù)據(jù)庫格式。因此,大數(shù)據(jù)采集的前期成本低,速度快,但后期數(shù)據(jù)清洗和加工的工作量巨大。而且由于大數(shù)據(jù)可以在網(wǎng)上輕松獲取,沒有經(jīng)過專業(yè)訓(xùn)練的業(yè)余數(shù)據(jù)分析人員數(shù)量增長,可能會導(dǎo)致大數(shù)據(jù)處理和分析質(zhì)量的下降,基于數(shù)據(jù)的結(jié)論不可靠。
大數(shù)據(jù)自身除了具有大量(volume)、快速(velocity)和多樣(variety)的特征外,還具有易變(variability)、存真(veracity)和復(fù)雜(complexity)的特征。美國政治學(xué)家大衛(wèi)·拉澤(David Lazer)教授等將“谷歌流感趨勢”(Google Flu Trend,GFT)預(yù)測失誤歸結(jié)為兩個原因:一個是大數(shù)據(jù)的“狂妄”,認(rèn)為大數(shù)據(jù)可以替代傳統(tǒng)數(shù)據(jù)收集和分析,忽視了基本的測量、建構(gòu)效度和信度以及數(shù)據(jù)間的依賴性等問題;另一是搜索引擎算法的變動,提出搜索行為不僅是由外部因素決定的,也是由服務(wù)提供者培育的。當(dāng)谷歌公司為了支持其業(yè)務(wù)而改變算法,向用戶推薦其他內(nèi)容的搜索,實際上就改變了數(shù)據(jù)的生成機制,導(dǎo)致錯誤的估計。拉澤等還提出用戶也有可能改變數(shù)據(jù)生成機制,如政治競選團(tuán)隊和商業(yè)公司意識到新聞媒體正在監(jiān)控社交媒體,他們會使用一些策略以造成他們的候選人或產(chǎn)品正在流行的假象。還因為數(shù)據(jù)產(chǎn)權(quán)、個人隱私等問題,大數(shù)據(jù)很難支撐科學(xué)研究的復(fù)制(replication)檢驗。相比之下,抽樣調(diào)查的數(shù)據(jù)生成機制穩(wěn)定、透明,數(shù)據(jù)可通過共享的方式供其他研究者復(fù)制,但調(diào)查數(shù)據(jù)的精細(xì)程度和時效性較弱,在時空動態(tài)分析,以及檢測復(fù)雜的相互作用方面也有較大局限。
因此,抽樣調(diào)查數(shù)據(jù)和大數(shù)據(jù)是兩種各具優(yōu)缺點的研究工具,二者可以在研究內(nèi)容上互補,在研究方法上互助。
首先在研究內(nèi)容上,抽樣調(diào)查和大數(shù)據(jù)的發(fā)現(xiàn)可以互相激發(fā)。如抽樣調(diào)查中常會有一些重要的現(xiàn)象或人群,由于數(shù)據(jù)量小而無法使用常規(guī)的統(tǒng)計手段分析,大數(shù)據(jù)則可以擴大對這些現(xiàn)象或人群數(shù)據(jù)的采集,使研究內(nèi)容上更為全面。大數(shù)據(jù)也可以提供新的視角和方法,如研究中運用空間分析的方法,考察州內(nèi)縣級收入分配的聚合情況,可深入探討抽樣調(diào)查數(shù)據(jù)中所發(fā)現(xiàn)的收入不平等與健康的關(guān)系。另外,大數(shù)據(jù)有助于發(fā)現(xiàn)正在發(fā)生的事件,以及發(fā)展的趨勢,卻常常無法解釋這個事件為什么會發(fā)生,或者為什么會偏離某種趨勢,這時則需要借助抽樣調(diào)查的精心設(shè)計來探究。隨著大數(shù)據(jù)在社會科學(xué)研究上的應(yīng)用增加,為更深入理解大數(shù)據(jù)發(fā)現(xiàn)的問題而進(jìn)行抽樣調(diào)查的需求可能也會隨之增長。
在研究方法上,如前所述,基于普查或行政管理的大數(shù)據(jù)早已應(yīng)用在抽樣框的設(shè)計以及事后的權(quán)重調(diào)整上,有助于降低抽樣調(diào)查由于覆蓋誤差或無應(yīng)答誤差導(dǎo)致的估計偏差。對于非概率抽樣調(diào)查,這些數(shù)據(jù)可以作為重要的協(xié)變量,用以準(zhǔn)隨機化設(shè)計、偽權(quán)重的計算和模型估計。此外,一些個體可識別的大數(shù)據(jù)可以直接和調(diào)查數(shù)據(jù)鏈接,如將收入登記數(shù)據(jù)與關(guān)于選舉的調(diào)查數(shù)據(jù)相關(guān)聯(lián),探討個人財政狀況對于選舉決定的影響。這樣做一方面可以豐富研究數(shù)據(jù),另一方面也可以避免自報數(shù)據(jù)的測量誤差,還可以減少調(diào)查數(shù)據(jù)采集的負(fù)擔(dān)。對于個體不可識別但可以分類匯總的大數(shù)據(jù),則可以通過統(tǒng)計值,與調(diào)查數(shù)據(jù)聯(lián)合建構(gòu)多層次模型,以滿足特定的研究目的。
抽樣調(diào)查也將大數(shù)據(jù)的技術(shù)用于提高調(diào)查質(zhì)量和降低調(diào)查成本。如利用地理信息系統(tǒng)(GIS)建立抽樣框,并采用衛(wèi)星定位系統(tǒng)(GPS)進(jìn)行住址抽樣,或基于計算機輔助調(diào)查系統(tǒng)記錄的鍵盤痕跡數(shù)據(jù)計算單題訪問時長,用于糾正訪員不合規(guī)范的訪問行為,或?qū)C器學(xué)習(xí)技術(shù)應(yīng)用到職業(yè)應(yīng)答的文本編碼等。在響應(yīng)式調(diào)查設(shè)計的執(zhí)行中,更是需要依靠計算機記錄的各種并行數(shù)據(jù)及大數(shù)據(jù)的可視化手段來控制整個數(shù)據(jù)采集過程。
美國著名抽樣調(diào)查專家米克·庫珀(Mick Couper)甚至認(rèn)為,大數(shù)據(jù)有可能解放抽樣調(diào)查。他認(rèn)為抽樣調(diào)查的過量和商業(yè)化是導(dǎo)致抽樣調(diào)查應(yīng)答率下降,拒訪率上升的重要原因。如果大數(shù)據(jù)可以帶來抽樣調(diào)查的減少,可能意味著完成的調(diào)查質(zhì)量更高,也會提高抽樣調(diào)查在受訪者心目中的價值。
3、抽樣調(diào)查失靈了嗎?:以2016年美國大選民意調(diào)查為例
從前文的介紹可以看出,抽樣調(diào)查進(jìn)入現(xiàn)時代被各種各樣的實踐問題所困擾,雖然有強大的概率抽樣理論支撐,在現(xiàn)實面前卻顯得無力回天。那么,抽樣調(diào)查作為研究工具還值得信賴嗎?
美國大選一直是抽樣調(diào)查的“試金石”。1936年和1948年兩次美國大選為抽樣調(diào)查確立幾十年來的“霸主”地位提供了機遇。2016年美國大選中再次爆出冷門,民意調(diào)查中一直被看好的希拉里·克林頓敗給了唐納德·特朗普,人們在被選舉結(jié)果震驚之余,也對民意調(diào)查的準(zhǔn)確性提出了質(zhì)疑。
美國民意研究協(xié)會一直對抽樣調(diào)查的表現(xiàn)保持高度的關(guān)注,早在2016年春季就成立了一個委員會,任務(wù)是總結(jié)當(dāng)年大選前民調(diào)的準(zhǔn)確性,審查不同民調(diào)方法的差異,并從歷史的角度進(jìn)行評估。大選結(jié)束后,這個委員會對在大選前13天內(nèi)進(jìn)行的22個全國民意調(diào)查和422個州內(nèi)民意調(diào)查,以及在其他調(diào)查數(shù)據(jù)或?qū)嶒灁?shù)據(jù)的輔助下進(jìn)行了嚴(yán)謹(jǐn)充分的論證,發(fā)現(xiàn)有明確證據(jù)支持的解釋是:(1)部分選民在臨近選舉日時改變了之前的選舉決定,或從之前的不確定到轉(zhuǎn)向特朗普;(2)在民意調(diào)查的樣本中擁有大學(xué)學(xué)歷的選民被過度代表,而低學(xué)歷的選民代表性不足;(3)與2012年美國總統(tǒng)選舉相比,投票的選民結(jié)構(gòu)也發(fā)生了變化。部分證據(jù)顯示,一些民調(diào)機構(gòu)利用模型預(yù)測選民投票的可能性上存在失誤。雖然當(dāng)時最為普遍的說法是一些支持特朗普的選民沒有在民意調(diào)查中如實報告,但委員會的多方取證沒有支持這一說法。
對于抽樣調(diào)查質(zhì)量的評估,總調(diào)查誤差(Total Survey Error,TSE)框架是一個有效的工具。這個框架下,抽樣調(diào)查的生命歷程有兩條主線,一條是測量,路徑是構(gòu)建-測量-應(yīng)答-修訂后的數(shù)據(jù);另一條是代表性,路徑是目標(biāo)總體-抽樣框-樣本-受訪者-事后權(quán)重調(diào)整。兩條路徑匯合,生成調(diào)查統(tǒng)計值。在這兩條路徑上,每一個階段或環(huán)節(jié)都有產(chǎn)生誤差的風(fēng)險。如第一條路徑就分別對應(yīng)著建構(gòu)效度(測量在多大程度上構(gòu)建了要研究的概念)、測量誤差(理想的測量和實際的測量之間的差異)和過程誤差(對實際測量結(jié)果加工成研究數(shù)據(jù)時造成的偏差);第二條路徑則對應(yīng)著覆蓋誤差(目標(biāo)總體與抽樣框?qū)?yīng)的總體之間的差異)、抽樣誤差(從抽樣框中選取部分樣本時的統(tǒng)計誤差)、無應(yīng)答誤差(受訪者完全應(yīng)答的估值與實際不完全應(yīng)答的估值之間的差異)和調(diào)整誤差(對樣本估值進(jìn)行事后調(diào)整時造成的誤差)。用這個框架來分析2016年美國大選前的民調(diào)預(yù)測失誤,發(fā)現(xiàn)主要問題在于抽樣調(diào)查過程中的測量誤差、覆蓋誤差、無應(yīng)答誤差和調(diào)整誤差。
(一)測量誤差
委員會的報告(以下簡稱報告)中檢驗了四個可能的解釋,其中兩個解釋屬于測量誤差方面的原因。一個是選民投票前的臨時決定。用于預(yù)測的民意調(diào)查要在選舉前進(jìn)行,一般認(rèn)為,在調(diào)查方法同樣嚴(yán)謹(jǐn)?shù)那闆r下,民調(diào)的日期離選舉日越近,預(yù)測的結(jié)果就越準(zhǔn)確。這種看法的根據(jù)在于選民在接受調(diào)查后到真正投票時這段時期內(nèi)可能會由于某些事件而改變他們的想法。也就是說,民意調(diào)查采集到的只是應(yīng)答者最終投票決定的近似測量。報告引用了一個選舉日當(dāng)天的出口民調(diào)(exit polling)的研究結(jié)果,發(fā)現(xiàn)在競選的最后一周,在選民中出現(xiàn)了明顯的有利于特朗普的情形,特別是在特朗普以微弱優(yōu)勢勝出的那四個州。皮尤研究中心的回訪民調(diào)也發(fā)現(xiàn)有11%的受訪者承認(rèn)他們在投票箱前做出了和選舉前不一樣的決定。這種臨時改變決定的做法并非是2016年大選所獨有,但之前一般改變想法的人會在民主黨和共和黨候選人之間平均分配,而這個回訪調(diào)查卻發(fā)現(xiàn),在這些改變投票決定的受訪者中,轉(zhuǎn)而選擇特朗普的比例比轉(zhuǎn)向克林頓的比例多出16個百分點。對于競爭如此激烈的大選,這個測量誤差可能就會決定預(yù)測的準(zhǔn)確性。
另一個和測量誤差相關(guān)的解釋被稱為“害羞的特朗普”(shy Trump),指的是支持特朗普的受訪者在民意調(diào)查中沒有坦誠自己真實的投票決定,從而造成民意調(diào)查獲取的是錯誤的信息。在美國,種族和性別通常是兩個具有政治正確色彩的話題,而在2016年選舉中希拉里·克林頓是美國歷史上第一個女性總統(tǒng)候選人,特朗普則被控有種族和性別上的歧視,所以支持特朗普的受訪者出于社會期許或政治正確的原因不愿意透露真實想法似乎是一個非常合理的解釋。報告重點從訪員效應(yīng)角度來證實(偽)這個解釋。以往的研究發(fā)現(xiàn),受訪者對于一些敏感問題的應(yīng)答可能會因為對訪員的不信任,或訪員的某些特征(如性別和種族)而隱藏自己的真實想法。然而,專家們基于對調(diào)查模式的比較和一些調(diào)查實驗的研究,沒有發(fā)現(xiàn)支持的證據(jù)。他們也假設(shè)如果這個解釋成立,同一州內(nèi)特朗普與共和黨參議員在民調(diào)預(yù)測與實際得票的差異上會表現(xiàn)不同,這一間接的假設(shè)也沒有被證實。因此,由于社會期許或政治正確而導(dǎo)致的測量誤差至少是不嚴(yán)重的。
(二)覆蓋誤差
美國大選民調(diào)的總體界定上有些復(fù)雜,可以分為符合資格的選民總體、登記注冊的選民總體,以及實際投票的選民總體。這三個總體按此順序排列,后者都是前者的一個子集,或是一個大數(shù)據(jù)樣本。大選民調(diào)的理論目標(biāo)總體是符合資格的選民總體,操作化的目標(biāo)總體是登記注冊的選民總體,而統(tǒng)計推斷的目標(biāo)總體則是實際投票的選民總體。
報告中分析的民意調(diào)查主要有六種設(shè)計:(1)網(wǎng)絡(luò)自愿式調(diào)查,樣本來自調(diào)查公司建設(shè)的網(wǎng)絡(luò)調(diào)查樣本庫;(2)電話調(diào)查,樣本選取基于固定電話和手機號碼的隨機數(shù)字撥號(RDD);(3)電話調(diào)查,樣本框是各州的選民登記文件;(4)交互式語音系統(tǒng)(IVR)調(diào)查,樣本框是各州的選民登記文件;(5)交互式語音系統(tǒng)和電話調(diào)查的混合模式;(6)交互式語音系統(tǒng)和網(wǎng)絡(luò)調(diào)查的混合模式。
根據(jù)以往的研究發(fā)現(xiàn),上網(wǎng)和不上網(wǎng)的人之間有系統(tǒng)的差異,網(wǎng)絡(luò)自愿式調(diào)查很容易將老人、低學(xué)歷或藍(lán)領(lǐng)勞動者排除在外;使用固定電話和手機的人群也不一樣,后者一般為年輕人,在種族和民族上較為分化?;谶x民登記文件的抽樣框要比電話號碼建構(gòu)的抽樣框質(zhì)量更好,但前者更適用于州內(nèi)民調(diào),對于全國民調(diào)則不易獲取。按照美國聯(lián)邦法規(guī)的規(guī)定,交互式語音系統(tǒng)功能只能用于固定電話,而美國大約一半的成年人沒有固定電話。因此,僅采用交互式語音系統(tǒng)方式的州內(nèi)民調(diào),即使有選民登記文件作為抽樣框,仍會存在嚴(yán)重的覆蓋誤差,這也是為什么一些民調(diào)采用交互式語音系統(tǒng)和電話或網(wǎng)絡(luò)相結(jié)合的方式。
報告中一個意外的發(fā)現(xiàn)是,這些僅采用交互式語音系統(tǒng)方式的州內(nèi)民調(diào)在預(yù)測的準(zhǔn)確度上最高。推測其原因是由于這些漏掉的手機用戶有大部分是非裔美國人或年輕選民,他們對實際投票的參與率較低,因此漏掉這些特征人群的樣本結(jié)構(gòu)反而與實際投票總體的結(jié)構(gòu)更接近。那些為了彌補這一覆蓋誤差而補充了網(wǎng)絡(luò)或電話調(diào)查的民調(diào),反而表現(xiàn)較差。
(三)無應(yīng)答誤差
根據(jù)皮尤研究中心2012年的報告,當(dāng)時電話訪問的應(yīng)答率已經(jīng)低于10%。2016年美國大選前的民意調(diào)查主要采用訪員主導(dǎo)或交互式語音系統(tǒng)形式的電話訪問,雖然應(yīng)答率不知,但已有許多研究證明在這些民調(diào)中低學(xué)歷的選民代表性不足,而擁有大學(xué)及以上學(xué)歷的選民被過度代表。
如果明確知道無應(yīng)答樣本的特征,一般通過權(quán)重調(diào)整就可以基本避免估計偏差。然而,報告中發(fā)現(xiàn)大多數(shù)的州內(nèi)民調(diào)都沒有對教育結(jié)構(gòu)進(jìn)行事后調(diào)整,而在全國性民調(diào)中約有一半做了調(diào)整。究其原因,是因為州內(nèi)民調(diào)大多采用州內(nèi)的選民登記文件作為抽樣框,這些文件中包括了登記選民的年齡、性別、地域分布、黨派注冊和過往的投票歷史等信息,卻唯獨漏掉了受教育程度。這些民調(diào)在訪問時也未能補充受訪者教育程度的信息,致使無法對樣本的無應(yīng)答誤差進(jìn)行糾偏。
令人疑惑的是,這些州內(nèi)的民調(diào)以前也沒有依據(jù)教育程度進(jìn)行權(quán)重調(diào)整,卻沒有發(fā)現(xiàn)大的預(yù)測失誤。報告發(fā)現(xiàn),2016年的選民特征與投票選擇之間的關(guān)系和2012年大選時有所不同。出口民調(diào)數(shù)據(jù)顯示,在2012年無論是全美還是威斯康星、賓夕法尼亞和密歇根三個“搖擺州”(swing state),選民的受教育程度與對民主黨派候選人的支持呈現(xiàn)U型關(guān)系,即受教育程度低和受教育程度高的選民都更為支持民主黨派候選人。但在2016年的大選,選民受教育程度與對民主黨派候選人的支持幾乎呈直線上升關(guān)系,即選民的受教育程度越高,越支持民主黨候選人。這樣,在2012年的民調(diào)中如果不對過度代表的高學(xué)歷樣本和代表性不足的低學(xué)歷樣本進(jìn)行調(diào)整,不會造成麻煩,因為兩個人群在支持方向上比較一致。但在2016年的民調(diào)中,如果不做調(diào)整,就會帶來較大的偏差,這時低學(xué)歷樣本的代表性不足將造成過高地估計民主黨候選人的支持率。
報告還查證了另外一種無應(yīng)答誤差的可能,即堅定支持特朗普的地區(qū)的選民是否在民調(diào)中代表性不足。邏輯是,如果人口普查數(shù)據(jù)顯示有13%的美國人生活在堅定支持特朗普的地區(qū),但民調(diào)估計只有9%的美國人生活在這些地區(qū),這就證明民調(diào)確實系統(tǒng)性地遺漏了特朗普的支持者。受數(shù)據(jù)所限,報告中僅對電話調(diào)查進(jìn)行了分析,沒有發(fā)現(xiàn)有明顯的證據(jù)支持這個假設(shè)。然而,孟曉犁用“數(shù)據(jù)缺陷指標(biāo)”(data defect index)來分析這次美國大選前的民調(diào),確實發(fā)現(xiàn)在特朗普的支持者中無應(yīng)答的概率更高。
(四)調(diào)整誤差
如前所述,美國大選前的民調(diào)統(tǒng)計推斷的目標(biāo)總體是實際投票的選民總體,然而這一總體也是一個大數(shù)據(jù)樣本,每次大選時不同特征的選民的投票意愿不同,將造成實際投票的選民總體與登記注冊的選民總體有結(jié)構(gòu)性的差異。所以,解釋2016年美國大選民調(diào)失靈的一個可能的理由就是不同民調(diào)在預(yù)測當(dāng)年選民投票的可能性,以及對調(diào)查估計所做的相應(yīng)調(diào)整上出了錯誤。報告發(fā)現(xiàn)不同的民調(diào)在可能的選民(likely voter)的預(yù)測模型設(shè)定上各有千秋,對于估計結(jié)果的影響也不盡相同。但有證據(jù)表明,在幾個搖擺州,降低大學(xué)及以上學(xué)歷樣本的權(quán)重會提升預(yù)測的準(zhǔn)確性,而調(diào)高非西班牙裔黑人的權(quán)重則會降低準(zhǔn)確性。雖然大家都意識到需要對民調(diào)估計值進(jìn)行調(diào)整以降低覆蓋誤差、無應(yīng)答誤差,以及選民投票行為的自選擇誤差,然而這些調(diào)整在多大程度上發(fā)揮了降低偏差的作用卻很難判斷。
盡管2016年美國大選前的民調(diào)存在各樣誤差的隱患,但委員會的報告證實,以歷史標(biāo)準(zhǔn)來衡量,至少全國性的民調(diào)整體上看是準(zhǔn)確的。2016年的誤差水平不到自1936年現(xiàn)代民調(diào)出現(xiàn)以來全國民調(diào)平均誤差的一半,也低于1992年以來的平均誤差。州內(nèi)的民調(diào)則問題嚴(yán)重些,過高估計了對希拉里·克林頓的支持。但總的來看,美國民調(diào)不存在對某個黨派候選人的系統(tǒng)性偏差。全國和州內(nèi)民調(diào)的趨勢線都顯示,在任何一次選舉中,民調(diào)在黨派傾向上是隨機的。
4、抽樣調(diào)查的未來
一部分調(diào)查研究者還在不懈地努力,想盡各種辦法維護(hù)抽樣調(diào)查的質(zhì)量;同時,無論是社會環(huán)境的原因造成應(yīng)答率下降,還是政府對抽樣調(diào)查經(jīng)費的縮減,都使得抽樣調(diào)查不具有持續(xù)性。相比之下,非概率抽樣調(diào)查或大數(shù)據(jù)雖然成本低、時效快、數(shù)據(jù)量大,但數(shù)據(jù)質(zhì)量不盡如人意。盡管大多數(shù)抽樣調(diào)查領(lǐng)域的資深學(xué)者都認(rèn)為數(shù)據(jù)采集進(jìn)入一個多工具的時代,但似乎每個工具都不夠完美,這會使基于數(shù)據(jù)分析的量化研究陷入困境:再完美的模型,如果建立在糟糕的數(shù)據(jù)上,也沒有用處,甚至有害。
筆者認(rèn)為,研究數(shù)據(jù)采集進(jìn)入了一個新的生態(tài)環(huán)境,抽樣調(diào)查、非概率抽樣調(diào)查和大數(shù)據(jù)是這個生態(tài)環(huán)境中互動的三個主體。
首先,三種數(shù)據(jù)采集手段短期內(nèi)會各據(jù)一方。與之前一樣,在沒有扎實的理論支持下,政府仍然會繼續(xù)依靠傳統(tǒng)的概率抽樣調(diào)查手段,根據(jù)對有代表性的調(diào)查數(shù)據(jù)的分析,為政策制定提供信息支持。因此,主要承接政府項目的維斯塔特(Westat)等專業(yè)調(diào)查機構(gòu)還在致力于概率抽樣調(diào)查的研究與實施。非概率抽樣調(diào)查數(shù)據(jù)和大數(shù)據(jù)的主要用戶是商業(yè)公司或媒體,主要是服務(wù)于自己的業(yè)務(wù)模型,或用于采集時效性強、成本低的社會數(shù)據(jù)。在學(xué)術(shù)研究上,知名的縱貫調(diào)查項目仍是重要的數(shù)據(jù)資源,然而也有一些研究會采用相對認(rèn)可的新的技術(shù)手段。如美國政治學(xué)期刊《美國政治學(xué)評論》(American Political Science Review)在2023年10月網(wǎng)上首發(fā)的一篇學(xué)術(shù)論文中,研究者使用了兩種數(shù)據(jù)來源。兩個數(shù)據(jù)源都是非概率樣本,樣本量也不大,但是對這項研究很適用。同時按照要求作者也把所用數(shù)據(jù)及分析程序公布在哈佛大學(xué)的研究數(shù)據(jù)存儲(dataverse)網(wǎng)站上,供同行復(fù)制或檢驗研究結(jié)果。
其次,三種數(shù)據(jù)采集手段會互相校驗,概率抽樣調(diào)查仍是衡量非概率抽樣調(diào)查或大數(shù)據(jù)質(zhì)量的參照基準(zhǔn)。因此,培植高質(zhì)量的抽樣調(diào)查仍然必不可少。調(diào)查研究者們在執(zhí)行過程中采用響應(yīng)式調(diào)查設(shè)計降低調(diào)查誤差的同時,也要利用或開發(fā)不同的統(tǒng)計工具,加強對缺失數(shù)據(jù)的處理等方面的研究。同時,調(diào)查研究者們也需要建立一種數(shù)據(jù)質(zhì)量的度量,供用戶來區(qū)分不同類型的調(diào)查,或不同類型的估計值的質(zhì)量,并且教育用戶該怎樣選擇數(shù)據(jù)。如大數(shù)據(jù)工作組的專家們基于抽樣調(diào)查的總調(diào)查誤差提出了大數(shù)據(jù)總體誤差(Big Data Total Error)框架,孟曉犁提出的“數(shù)據(jù)缺陷指數(shù)”都是潛在的評估工具。
最后,三種數(shù)據(jù)采集手段融合使用,將促進(jìn)不同數(shù)據(jù)源的組合。美國國家統(tǒng)計委員會(Committee on National Statistics)的一個小組已經(jīng)開展研究,以“促進(jìn)聯(lián)邦統(tǒng)計項目的范式轉(zhuǎn)變,即使用來自政府和私營部門的不同數(shù)據(jù)源的組合,而不是單一的普查、調(diào)查或行政記錄”。他們認(rèn)為,抽樣調(diào)查范式已經(jīng)衰落,而新的統(tǒng)計需要基于抽樣調(diào)查數(shù)據(jù)和非抽樣調(diào)查數(shù)據(jù)的組合。然而,多數(shù)據(jù)源的組合會遇到諸多障礙,但這是一個不可避免的趨勢,并且是值得努力的方向。
塞翁失馬,焉知非福。對于抽樣調(diào)查來說,也許正如庫珀所希望的,多種數(shù)據(jù)采集工具并存可以減少對抽樣調(diào)查數(shù)量的需求,進(jìn)而減少對受訪者的過度攪擾,轉(zhuǎn)變?nèi)藗儗τ诔闃诱{(diào)查的態(tài)度,從而將抽樣調(diào)查做到“少而精”,回歸到1960年以前的“黃金時代”。
中企檢測認(rèn)證網(wǎng)提供iso體系認(rèn)證機構(gòu)查詢,檢驗檢測、認(rèn)證認(rèn)可、資質(zhì)資格、計量校準(zhǔn)、知識產(chǎn)權(quán)貫標(biāo)一站式行業(yè)企業(yè)服務(wù)平臺。中企檢測認(rèn)證網(wǎng)為檢測行業(yè)相關(guān)檢驗、檢測、認(rèn)證、計量、校準(zhǔn)機構(gòu),儀器設(shè)備、耗材、配件、試劑、標(biāo)準(zhǔn)品供應(yīng)商,法規(guī)咨詢、標(biāo)準(zhǔn)服務(wù)、實驗室軟件提供商提供包括品牌宣傳、產(chǎn)品展示、技術(shù)交流、新品推薦等全方位推廣服務(wù)。這個問題就給大家解答到這里了,如還需要了解更多專業(yè)性問題可以撥打中企檢測認(rèn)證網(wǎng)在線客服13550333441。為您提供全面檢測、認(rèn)證、商標(biāo)、專利、知識產(chǎn)權(quán)、版權(quán)法律法規(guī)知識資訊,包括商標(biāo)注冊、食品檢測、第三方檢測機構(gòu)、網(wǎng)絡(luò)信息技術(shù)檢測、環(huán)境檢測、管理體系認(rèn)證、服務(wù)體系認(rèn)證、產(chǎn)品認(rèn)證、版權(quán)登記、專利申請、知識產(chǎn)權(quán)、檢測法、認(rèn)證標(biāo)準(zhǔn)等信息,中企檢測認(rèn)證網(wǎng)為檢測認(rèn)證商標(biāo)專利從業(yè)者提供多種檢測、認(rèn)證、知識產(chǎn)權(quán)、版權(quán)、商標(biāo)、專利的轉(zhuǎn)讓代理查詢法律法規(guī),咨詢輔導(dǎo)等知識。
本文內(nèi)容整合網(wǎng)站:百度百科、搜狗百科、360百科、知乎、市場監(jiān)督總局
免責(zé)聲明:本文部分內(nèi)容根據(jù)網(wǎng)絡(luò)信息整理,文章版權(quán)歸原作者所有。向原作者致敬!發(fā)布旨在積善利他,如涉及作品內(nèi)容、版權(quán)和其它問題,請跟我們聯(lián)系刪除并致歉!