數感生活—比較的陷阱(辛普森悖論)

【數感生活—比較的陷阱】

世界上有三種謊言:謊言、該死的謊言、統計數字。
這句話據說是出自馬克吐溫之筆,讓人看得會心一笑,同時警惕自己別輕易相信統計數字。

在今日,統計運用在日常生活中許多地方,轉到電視新聞台時,你可能會看到很多次的,嗯,行車紀錄器,各地小吃美食,政治人物失言,

還有就是一定會出現統計數字。

統計需要非常小心仔細檢驗,一不留神就會得出與真相截然不同的論點。我們可以用最知名的「辛普森悖論」來舉例說明:

請想像一下,你是一位剛考完指考的準男大學生,你覺得男女比例是相當重要的選校依據。你手邊有兩所學校的資訊:N大與T大。你很謹慎,拿到的還不是籠統全校的整體資訊,而是好幾個學院的男女人數資訊。你開始比較

N大的文學院:男生9人,女生45人,男女比約是1:5
T大的文學院:男生50人,女生100人,男女比約是1:2。

顯然N大比較好。再看一下理學院

N大的理學院:男生200人,女生50人,約是4:1
T大的理學院:男生90人,女生9人,約是10:1。

天啊,T大的理學院男女比是驚人的10:1,N大還在可以接受的4:1。這麼看來,N大應該是比較理想的選擇,文院女生比例高,理院男生比例又沒T大那麼懸殊。

如果你這麼想,那你就掉進統計陷阱了。

我們把文理學院的數字加總起來可以得到

N大的文理學院:男生209人,女生95人,男女比約是2.2:1
T大的文理學院:男生140人,女生109人,男女比約是1.28:1

結果大逆轉,以兩個院的總和比例來說,T大的男女比例相當,但N大約是2:1,你原本滿懷希望,想像玫瑰金般的浪漫大學人生,不需要等到入學的那天,只要做完加法後再比較就會破滅。

進一步來看可以發現關鍵在於「人數不同」。

N大文學院的女生比雖然很高,但總人數比T大文學院要少。

相反地,T大理學院男生比例雖然比較高,但人數比N大理學院少,所以提升的幅度有限。要計算全校男女比例時,不僅是兩學院各自的比例平均,還要再根據學院人口做加權,對於N大來說,他在男生高的理學院加權太重,女生高的文學院加權太輕,自然會得到翻轉的結果。

分開來比都比較好,但合在一起比卻會出現翻轉的結果。這就是辛普森悖論。

Photo source: infocus.emc.com

 

本文轉貼自數感實驗室,歡迎加入粉絲團。
https://www.facebook.com/numeracylab

發表迴響