立場新聞 Stand News

統計都是靠估?

2015/11/3 — 10:17

Alexandre Lazaro / flickr

Alexandre Lazaro / flickr

師父教落,統計統計,籠統地計,統計都是靠估,但要估得有譜。

近日友人介紹了篇由 Slate 的筆者 Leon Neyfakh 寫的一篇訪問,內容主要講述他與 William Rhodes 的訪問,對話圍繞着他與一眾 Abt Associates 同事寫的一篇研究《Following Incarceration, Most Released Offenders Never Return to Prison》。訪問的吸睛之處,就是此研究與美國司法統計局 (BJS) 的發表走向不同的結果。簡單來說, BJS 的研究是跟蹤 40 萬名於 2005 年離開監獄的犯人,結果是 68% 於 3 年內重返監獄;反而 Rhodes 的研究結果則是約每 3 個離開監獄的犯人中有兩個都不再回到監獄。

撇除政治學問不說,筆者作為統計學的畢業生,跟大家分享這篇訪問的精髓。統計方法要用得其所,結果答得其所,撇除政治的考量,首要懂得答問題。假設 Rhodes 及 BJS 的研究都是解答「究竟有多少離開監獄的犯人會重返監獄呢?」同一條問題,為何答案有完全不同方向的分歧呢?

廣告

第一,是選取樣本 (Sampling) 。 BJS 選取的樣本是特定 2005 年離開監獄的犯人,而 Rhodes 等人所選取的是從 the National Corrections Reporting Program 所得的近 15 年的犯人樣本。如要解答特定 2005 年的情況, BJS 的研究是合適的;如要解答一個一般的情況, Rhodes 等人的研究更妥當。

筆者曾於碩士時做過一個村屋特徵價格模型,今次就以發展城市對村屋售價的影響為例,搜集全港於過去一年的村屋成交樣本,看看興建鐵路對售價的影響,然後把結果應用在新界東北的賠償上。看似被容易接受,但實情犯了兩個選取樣本的錯誤,應用在新界東北上的村屋,便應該參考新界東北的村屋成交,除非作出加權調整,否則便會被全港村屋成交淡化了新界東北村屋成交的特徵;其次是年期,只選取過去一年的成交紀錄,便會忽略了該年的特別因素對成交的影響,例如經濟因素及政策因素。

廣告

再以問卷訪問為例,於學校附近搜集問卷,就「應否取消 TSA」作調查,那麼回答問卷的人便有可能大都是學生及教師,樣本便被同一類型特徵的人回答,結果會有可能偏向「應該取消」,反之亦然,於非學校區作調查,結果又可能變得不一樣。如果為了方便而只在周末搜集問卷,儘管在非學校區,又可能會多了一些逛街的家長,結果又會變得不一樣。因此,使用錯誤的樣本去解答問題,得出的答案自然是沒有參考價值,對錯誤的結果過份參考,施政便不能反映出實際 population 的意向。

第二,是樣本調整。其實就是上面剛剛提及到的加權調整,當中 Rhodes 等人的研究便就重複罪犯的數據作了調整。再看看上面村屋成交樣本的例子,可能於過去一定年份,某屋苑的村屋成交頻密,如果不作加權調整,樣本便有機會被此類村屋成交放大了某些特徵。再看看上面問卷訪問的例子,如果明知結果由某一類型的人作回答,但不作加權調整,即是如果訪問中大多數都是TSA的補習老師,結果就可能偏向「不應取消」。

Rhodes 等人的研究,推翻了 BJS 的結論,算是為離開監獄的犯人平反。統計學是利用科學的方法,嚴謹的計算,利用樣本得出可以代表整體的結果。可惜的是,數字本身不帶任何意義,而是在於詮釋的人,有些是無意的統計錯誤,有些卻是有意,旨在帶出既定的訊息,為訊息建立數據支持。

統計學是一門被廣泛應用的學問,儘管未必人人都懂得做一門統計學研究工作,但學會統計知識,至少讓大家對身邊的資訊,有一定的批判能力。

原刊於蘋果日報

發表意見