ISO9000認(rèn)證中調(diào)查處理缺失值方法
關(guān)于推算的說明
美國最近完成了其第23屆聯(lián)邦人口普查。第一次人口普查的實(shí)施是在1790年依據(jù)憲法授權(quán)在Thomas Jefferson執(zhí)政時(shí)期進(jìn)行的。直到1950年,人口普查采用親自登記或打電話的方式,所以缺失值的風(fēng)險(xiǎn)降被降低到最小。
自從人口普查采用郵件的形式,無回復(fù)的比率以及無回答問題的數(shù)量開始增加。這個(gè)問題不僅出現(xiàn)在郵件回復(fù)人口普查上,并且影響到大多數(shù)的調(diào)查—尤其是大規(guī)模、大范圍的調(diào)查的形式—無論什么形式的調(diào)查。
比如,在美國,一個(gè)企業(yè)家的大規(guī)模年度例行統(tǒng)計(jì),其中的專家和調(diào)查組織者,就遇到了兩個(gè)影響調(diào)查質(zhì)量的無回答問題:
1.
總體拒訪率和對特定問題的無回答率在隨機(jī)電話調(diào)查中持續(xù)上升。在2008年的調(diào)查中,為了得到4000份回答,需要多進(jìn)行25,000多個(gè)的訪問。
2.
電話隨機(jī)抽樣調(diào)查,針對僅使用手機(jī)的用戶在美國是不被法律允許的。因此聯(lián)系到個(gè)人電話的使用者產(chǎn)生了人口統(tǒng)計(jì)上的偏差。同時(shí),向?qū)τ诿绹哪挲g分布,18-35歲年齡組的回答者不足,導(dǎo)致我們需要對該年齡組進(jìn)行超密度采樣。
令人欣慰的是,技術(shù)可以填補(bǔ)調(diào)查中缺失值所導(dǎo)致的偏差。在處理缺失值或總體調(diào)查的無回答時(shí),我們可以使用權(quán)重來為特定的總體產(chǎn)生代表性的樣本。為了填補(bǔ)某些特定的缺失值問題,還有一些更加復(fù)雜的推算方法—這些方法更加錯(cuò)綜復(fù)雜,而且這類技術(shù)也可能會(huì)暗含影響統(tǒng)計(jì)分析的信息。
缺失值的類型
在調(diào)查中空缺值可以按照空缺信息的隨機(jī)程度來分類。最簡單并且是最強(qiáng)有力的假設(shè)就是數(shù)據(jù)資料的缺失是“完全隨機(jī)的”。這意味著調(diào)查者沒有其他的信息可以輔助填補(bǔ)缺失值。從統(tǒng)計(jì)上來講,在被統(tǒng)計(jì)者完成的數(shù)據(jù)當(dāng)中沒有足夠的信息去用條件概率來改善該缺失值。
在這種情況下,可以使用其他被調(diào)查者的回答的隨機(jī)值來填補(bǔ)空缺。這種假設(shè)有些差強(qiáng)人意,還有一個(gè)更好的方法,利用其他的受調(diào)查者的回答來推算。
另一個(gè)強(qiáng)有力的假設(shè)是“資料隨機(jī)空缺”。這個(gè)假設(shè)要求變量可以在一定條件下幫助填補(bǔ)缺失值并且提供一個(gè)值域來建立一個(gè)關(guān)于缺失值的更優(yōu)的模型。
例如,考慮以受調(diào)查者的教育水平來推算年齡缺失值:20-23歲常等同于大學(xué)畢業(yè)生,17-20歲通常是高中畢業(yè)生。基于最高學(xué)力,使用上述數(shù)值范圍來填補(bǔ)年齡的缺失值。
一種非??赡艿那闆r是“非隨機(jī)空缺”的推算。在知道其他受調(diào)查者的回答時(shí),調(diào)查者可以以較高的正確概率來推算缺失值,比如基于受調(diào)查者的郵政代碼推算其區(qū)域代碼。
任何推算程序,分析偏差都應(yīng)該最小化,同時(shí)最大化對可用信息的使用,并且對變異性和誤差做合理的估計(jì)。
非統(tǒng)計(jì)性推算
以下的技術(shù)用其他被調(diào)查者的數(shù)據(jù)或者合理的猜測來填補(bǔ)空缺資料:
刪除受調(diào)查者或成對刪除:這些是處理缺失值最簡單的方式。但是它們會(huì)同時(shí)刪除有用的數(shù)據(jù),導(dǎo)致結(jié)果的偏差。
在分析過程中,可以選擇刪除該case,刪除該變量,或者成對刪除—所有的變量數(shù)據(jù)被納入統(tǒng)計(jì)推斷,并納入統(tǒng)計(jì)概要,但是這可能造成不同分析之間的樣本大小有差異。對于成對刪除(不刪除全部回答),如果部分回答的受調(diào)查者與那些完全回答的受調(diào)查者有顯著的不同,可能會(huì)導(dǎo)致偏差。
Hot-deck程序:這項(xiàng)技術(shù)應(yīng)用其他受訪者的真實(shí)回答作為處理某一特定受訪者缺失值的基礎(chǔ)。最簡單的方法是采用一個(gè)隨機(jī)答案作為缺失值的替代。更好的辦法是使用一個(gè)hot-deck程序—在具備該受訪者的特征的回答群體中尋找缺失值的替代。
比如,如果性別,種族和教育年限的信息都具備卻惟獨(dú)少了年齡,那么一個(gè)與之具有同樣性別,種族和上學(xué)時(shí)間的隨機(jī)受調(diào)查者就會(huì)從其他的受調(diào)查者中被選擇出來,該受調(diào)查者的年紀(jì)就會(huì)被填補(bǔ)入空缺的資料數(shù)據(jù)中。
分層的程序使得匹配的變量可以排序,在推算年齡的過程中,性別和教育年限在計(jì)算年紀(jì)時(shí)比種族要更加重要。即便種族不同,但是其他重要的變量匹配精準(zhǔn),就可以用來的填補(bǔ)缺失值。
美國人口普查局已經(jīng)應(yīng)用此項(xiàng)技術(shù)來推斷缺失值。此外,John Stiller和Donald R. Dalzell公布了一個(gè)用于在SAS軟件中執(zhí)行此項(xiàng)技術(shù)的宏。
另一個(gè)相關(guān)的推算技術(shù)cold-deck程序,與之相似,但運(yùn)用的是統(tǒng)計(jì)概要。我們將在本專欄稍后討論。
內(nèi)插法和外插法:這項(xiàng)技術(shù)通過代數(shù)內(nèi)插,或者當(dāng)假設(shè)數(shù)據(jù)在某一固定的形狀或分布的函數(shù),用公式來推算缺失值。
推演計(jì)算:這可以是一個(gè)定性的或定量的技術(shù)。定性地,用于小調(diào)查,研究者可以去讀出受調(diào)查者的結(jié)果,且有較高的置信度來推算缺失值。
例如,給出一個(gè)調(diào)查者地址,研究者可能根據(jù)調(diào)查者對某一地區(qū)的認(rèn)知推算其種族或住宅所有權(quán)。這種方法消耗時(shí)間,且非概率性的,因此不能從統(tǒng)計(jì)上證明是合理的。
統(tǒng)計(jì)計(jì)算
下面的技術(shù)用于減小偏差、變異或都兩者皆有:
平均值替代或冷-甲板程序:非常簡單合理的推算方法。簡單的平均值替代法,可以通過改變量的總體平均值,為任意變量填補(bǔ)任何缺失值。復(fù)雜平均值替代法,通過與該缺失值相關(guān)的條件變量的平均值,來填補(bǔ)缺失值。與hot-deck技術(shù)相似。
例如對于缺失年齡值,總體平均年齡可以作為簡單的平均值來替換。復(fù)雜替換則使用所有高中學(xué)歷亞洲女性的平均年齡,替代該人口學(xué)分組的缺失值。在很多情況下,隨機(jī)性的水平是通過根據(jù)年齡分布添加的隨機(jī)數(shù)值完成的。
此項(xiàng)技術(shù)的問題是,在計(jì)算自由度或者標(biāo)準(zhǔn)誤差時(shí),推算數(shù)據(jù)會(huì)被包括在有效回答中,但事實(shí)上,它們是統(tǒng)計(jì)估計(jì)。
通過增加自由度或減少標(biāo)準(zhǔn)誤差,該技術(shù)的結(jié)果就更可能導(dǎo)致統(tǒng)計(jì)學(xué)顯著。許多統(tǒng)計(jì)軟件允許缺失值的簡單的平均值替換。某些允許從重要的條件變量中得來的子群平均值替換。
回歸和隨機(jī)回歸技術(shù):通過實(shí)施線性(或理論上地,非線性)模型來預(yù)測缺失值。這些方法,是以所有非缺失數(shù)據(jù)建立一個(gè)模型,來預(yù)測缺失值。
這項(xiàng)技術(shù)中一個(gè)非常吸引人的成果是回歸的方法不僅會(huì)得出預(yù)期值,還會(huì)有這個(gè)值的置信區(qū)間。調(diào)查者便可以用平均值和極值帶入缺失值來檢查對分析的影響。
這也是一個(gè)向?qū)τ诖_定與缺失值變量相關(guān)的重要變量,以及計(jì)算相關(guān)平均值的方法來說更加簡單的辦法。前者的信息可能來自于一個(gè)極端的小群組。與平均值替代法相似,但這個(gè)方法會(huì)增加分析的自由度,以及任何由此產(chǎn)生的統(tǒng)計(jì)性測試會(huì)更加顯著。
決策樹:這種方式,是數(shù)據(jù)挖掘方面的有監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),基于類別數(shù)據(jù)(或者可以歸為類別數(shù)據(jù))的概率計(jì)算。他們是統(tǒng)計(jì)的但依靠機(jī)器學(xué)習(xí)算法來代替研究者創(chuàng)造的模型。
然而那可能是一個(gè)統(tǒng)計(jì)學(xué)的技術(shù),這個(gè)方法設(shè)計(jì)的是為了適用于那些統(tǒng)計(jì)測試不太合適的大數(shù)據(jù)集合。顯然,如果應(yīng)用統(tǒng)計(jì)方法,它將會(huì)像前面提到的一樣,增加統(tǒng)計(jì)學(xué)的顯著性。
中企檢測認(rèn)證網(wǎng)提供iso體系認(rèn)證機(jī)構(gòu)查詢,檢驗(yàn)檢測、認(rèn)證認(rèn)可、資質(zhì)資格、計(jì)量校準(zhǔn)、知識產(chǎn)權(quán)貫標(biāo)一站式行業(yè)企業(yè)服務(wù)平臺(tái)。中企檢測認(rèn)證網(wǎng)為檢測行業(yè)相關(guān)檢驗(yàn)、檢測、認(rèn)證、計(jì)量、校準(zhǔn)機(jī)構(gòu),儀器設(shè)備、耗材、配件、試劑、標(biāo)準(zhǔn)品供應(yīng)商,法規(guī)咨詢、標(biāo)準(zhǔn)服務(wù)、實(shí)驗(yàn)室軟件提供商提供包括品牌宣傳、產(chǎn)品展示、技術(shù)交流、新品推薦等全方位推廣服務(wù)。這個(gè)問題就給大家解答到這里了,如還需要了解更多專業(yè)性問題可以撥打中企檢測認(rèn)證網(wǎng)在線客服13550333441。為您提供全面檢測、認(rèn)證、商標(biāo)、專利、知識產(chǎn)權(quán)、版權(quán)法律法規(guī)知識資訊,包括商標(biāo)注冊、食品檢測、第三方檢測機(jī)構(gòu)、網(wǎng)絡(luò)信息技術(shù)檢測、環(huán)境檢測、管理體系認(rèn)證、服務(wù)體系認(rèn)證、產(chǎn)品認(rèn)證、版權(quán)登記、專利申請、知識產(chǎn)權(quán)、檢測法、認(rèn)證標(biāo)準(zhǔn)等信息,中企檢測認(rèn)證網(wǎng)為檢測認(rèn)證商標(biāo)專利從業(yè)者提供多種檢測、認(rèn)證、知識產(chǎn)權(quán)、版權(quán)、商標(biāo)、專利的轉(zhuǎn)讓代理查詢法律法規(guī),咨詢輔導(dǎo)等知識。
本文內(nèi)容整合網(wǎng)站:百度百科、搜狗百科、360百科、知乎、市場監(jiān)督總局 、國家認(rèn)證認(rèn)可監(jiān)督管理委員會(huì)、質(zhì)量認(rèn)證中心
免責(zé)聲明:本文部分內(nèi)容根據(jù)網(wǎng)絡(luò)信息整理,文章版權(quán)歸原作者所有。向原作者致敬!發(fā)布旨在積善利他,如涉及作品內(nèi)容、版權(quán)和其它問題,請跟我們聯(lián)系刪除并致歉!