選樣偏差 (Selection Bias) 是學術研究常見問題之一,在醫學、公衛與經濟學領域尤其普遍。顧名思義,選樣偏差即是因樣本選取不恰當,導致統計結果與實際情形之間存在的偏誤 (bias)。
如果我們想衡量某位醫生的醫術,於是隨便挑一個被他診療過的病人和一個路人,比較兩人的健康狀況後斷言「醫生把人越治越病」,這個結論顯然受到選樣偏差的影響。因為健康狀況較差的病人是原本就不舒服才去看醫生,我們觀察到的「健康差異」或許與醫生醫術有關,但在這個例子裡受「就醫前的初始狀態」影響可能更大。
選樣偏差雖然不難理解,但在實做研究時要完全避免卻相當困難。以前述情境為例,較理想的方法是比較一個被該醫生診療過的病人,和另一個病得差不多,卻完全沒被診療過的病人,然而我們怎麼能強迫對照組的病人不去看醫生呢?在以「人」為研究對象的學科,做實驗常會有倫理問題(例如一組人給藥另一組不給/一組人領補助另一組不能領),即使設計出沒有倫理疑慮的巧妙實驗,也很難控制樣本們的初始狀態完全相同。對每一個獨一無二的人類來說,唯一完美的對照組只有「平行時空中被分到另一組的自己」。因此,估計選樣偏差的大小,以及挖掘品質優良的大樣本資料源便成了研究的重要課題。
為了估計選樣偏差,我們要先將上述「觀察到的差異」、「初始狀態的差異」等概念之間的關係用數學語言表示出來。
我們另舉一個經濟學的例子:
如果今天學者們想了解「讀研究所是否能提高社會新鮮人的薪水?」
這個問題中實驗組與對照組的預設差異是「是否念研」(在上一個例子中是「是否就醫」,在實際研究中也可能是「是否被政策影響」、「是否用藥」、「是否收到補助」等等),可以想像成實驗室裡研究者對實驗組小白鼠做的「處理」,稱為 treatment。
我們可以比較社會上「研究所畢業新鮮人」跟「未讀研究所新鮮人」平均的第一份薪水差異,這個能直接從數據上觀察到的差異稱為 observed difference。
然而,如同剛剛的就醫問題,有讀研究所跟未讀研究所的人除了是否念研之外,一定還有許多「初始狀態的不同」(性別/個性/家庭背景/聰明程度/風險偏好等等),我們無法確定觀測到的差異是不是因為念研究所造成的。例如,能夠考上研究所的人也許平均而言實力就比較強,即使不唸研究所也能找到相對好的工作。
這些因為無關 treatment 的因素而造成的差異,即是選樣偏差 (selection bias)。
若要更精確的拆分出選樣偏差到底佔了 observed difference 的哪一部分,可以參考圖片中的算式 (引用自 Mostly Harmless Econometrics ,使用條件期望值的符號)
說明如下:
Y 代表薪水;
D 代表接收 treatment 與否,有念研究所者 D = 1,未念研究所者 D = 0;
不同的 i 下標則代表不同個人;
因此,E[Yi | Di = 1] 代表給定樣本實際上有念研究所,對應到的薪水期望值(有念研的 i 們薪水平均值)。
在真實世界裡,對於有念研究所的人,我們只能觀測到有念研究所的薪水 Y1i 。對於未念研究所的人,我們只能觀測到未念研究所的薪水 Y0i 。
但在以上的數學式中,我們假設有一個平行宇宙,能夠觀測到有念研究所人「如果沒念」的薪水 Y0i 跟沒念研究所人「如果有念」的薪水 Y1i 。
因此:
第一行為observed difference,也就是我們觀測到的,一群有念研跟沒念研的人,薪資的平均差異。
第二行代表實際上有念研究所的人 (Di = 1),有念 (Y1i) 和如果沒念 (Y0i) 的薪資差異,也就是我們真正想觀察的差異。(回答「讀研究所是否能提高社會新鮮人的薪水?」)
第三行則代表實際上有念 (Di = 1) 和實際上沒念 (Di = 0) 的兩群人,如果都沒念去研究所,平均薪資會差多少 (Y0i)?這個差異反映出兩群人與研究所無關的初始差異,也就是選樣偏差。
我們知道實驗組和對照組不用「一模一樣」,也可以有(接近)一樣的期望值。
在實務上,為了降低選樣偏差,我們在選取樣本時要盡量讓實驗組與對照組的「組成接近」。例如,假設有念研組跟沒念研組各抽樣 100 人,理想上應控制這兩組所有「與念研無關的特質」,性別比、原生家庭的平均富裕程度,甚至是智力測驗結果等等,使兩組背景盡量接近,這樣觀察到的差異才會更接近研究所教育本身造成的效果。
對學者來說,要對一群社會新鮮人做從 IQ 到個性到原生家庭狀況的智力+心理+身家全方位調查才能完成一個研究,成本實在太高。即使真的設計出這樣包山包海的調查問卷,樣本不足也是常見問題,發出去的問卷收回 20 份,如果剛好是 9 個研究所女 + 11 個大學男,要怎麼配出「組成差不多」的實驗組 vs 對照組呢?
針對如何配出「組成差不多」的實驗組 vs 對照組,除了依靠學者們的經驗,「提綱挈領」的選出適合的控制變數(例如一般研究薪水都會控制教育程度、年齡與年齡的平方),在經濟學演進過程中也誕生了許多不同的配對與選變數方法,例如 Propensity score matching、LASSO 等等。有時候不必出動艱難的數學就能理解這些方法,像 Regression Discontinuity (RD) design 就是透過巧妙選擇在某個門檻上下的樣本來找到好的對照組。例如研究明星高中是否能提升學習效果時,壓線考上的同學和剛好差一兩分飲恨的同學就是非常好的實驗組與對照組。
問題是,去哪裡找這麼多剛好壓線考上的同學和剛好差一兩分飲恨的同學讓我觀察呢?要有足夠的「特殊樣本」,總樣本一定要夠大,而這時仰賴經濟學家去挨家挨戶訪問蒐集資料是不太可行的。
近年來經濟學界盛行使用行政資料(administrative data)來做研究,例如報稅資料、勞健保資料、學貸資料等,這些資料通常能比調查資料 (survey data) 挖掘出更多資訊 (例如受訪者或許不想誠實填寫的薪資) ,且涵蓋非常大的樣本。
我們可以透過行政資料掌握關於個人更詳細的「初始資訊」,而大樣本也使得讓實驗組與對照組比較容易「組成接近」,更能減少選樣偏差。
然而各行政資料庫建立的目的並非為了特定研究,通常也不會為個別研究「客製化」(例如看得到薪水的所得稅申報資料裡就沒有學歷資料),需要研究者自行串接、整理出自己需要的欄位。而為了防止民眾個資外洩,申請與使用也需符合各種規範,比起使用一般公開資料受限較多,需要更長時間的投入。此外,即使行政資料資訊豐富,也不可能囊括每個人的「所有特質」。因此,能夠提綱挈領的為不同研究選出適合的控制變數,依然是研究者重要的能力之一。
參考資料:
Angrist, J. D., & Pischke, J.-S. (2008). Mostly harmless econometrics. Princeton University Press.
Abdulkadiroğ lu, A., Angrist, J. and Pathak, P. (2014). The Elite Illusion: Achievement Effects at Boston and New York Exam Schools. Econometrica, 82 (1), 137-196.
