立場新聞 Stand News

簡單乘數 助科學家找出錯誤實驗數據

2016/6/22 — 10:30

blair_25 / flickr

blair_25 / flickr

要驗證研究數據是否真確,你會怎樣做?可能不少人會找出原始數據檢查。

但其實只需簡單一步,就可以做到。荷蘭格羅寧根大學醫療中心的 Nicholas Brown 和波蘭波茲醫學科學大學的 James Heathers 提出一條小學生都懂的算術,一步就可簡單驗證數據真確性。他們稱這個方法為 GRIM  (Granularity-related inconsistency of means) 檢測。未經同儕評核的報告已刊於在《PeerJ》預印頁

廣告

社會科學和心理學實驗多數會收集「整數」為主的數據,例如:參加者的年齡、種族或者對不同因素的評分等。此事 GRIM 就大派用場,只要從報告中抽出參與者人數和數據平均值兩個數據相乘,結果不是「整數」的話,即反映出研究數據可能有誤 [1]

例子

假設一個心理學研究中,實驗研究要求 3 位參加者在一個 1-5 分的評份表中評核任務後的信心值,數據如下:

廣告

參加者 1:5 分

參加者 2:3 分

參加者 3:1 分

分數總和:9

平均信心值:3

現在參加者的平均信心值分數為 3 (小數點後 2 個位),但當其中一位想改將 1 分改為 2 分,假設其他數據不變,平均數值將變成 3.33(小數點後 2 個位,數據如下) 。

參加者 1:5 分

參加者 2:3 分

參加者 3:2 分

分數總和:10

平均信心值:3.33

由於分數只有 1-5 的整數,所以信心值總和改變都只是加 1 或者減 1 。當然信心值總和改變,平均值都會隨之改變。而在這個情況下,每加 1 分,平均分的分數最多只有 1/3 的改變——換句話說即約 0.33。照這樣計算,當信心值總和為 14 時,平均信心值就約為 4.67,而總和為 15 時,平均值就約為  5,兩個平均數值相差約 0.33。

然而,研究人員在這個例子中計算出錯,或者打錯字。他們發佈的報告數據如下:

參加者數為 3 位,得出的平均信心值為 4.24 。

這個結果看似沒有問題,其實只要將參與人數乘以平均數值,就可以發現總和數字不是整數,而是 12.72,而這個總和是不可能出現的——因為人數不可能有點數,而加起來的分數也一定是整數。換言之,研究出錯的地方可能來自「平均信心值」本身,也可能是「參與人數」錯誤。

心理學研究檢測 過半發現問題

Brown 和 Heather 嘗試以 GRIM 測試的效果,查看了近 5 年來 3 份主要心理學期刊的 71 份報告,當中竟然有一半都過不了簡單的 GRIM 測試。

其中 16 個研究數據中有超過一個數據錯誤。為了了解錯誤原因,他們聯絡了撰寫報告的研究員,當中有 9 組回覆並提供數據檢驗,證實數據真的有錯。Brown 和 Heather 指這些錯誤主要都是來自錯字,或者是計算錯誤——當中有 3 個研究結果在檢查後影響到報告的結論。

要檢測數據,未必要找出原始數據。GRIM 測試可幫助科學家更易和更有效率地從大量研究和數據中,找出可疑的結果檢查。另一方面,簡單易用的測試也可以鼓勵到研究人員更小心處理數據,減少誤用數據或者統計失誤結果,最重要是可以打擊不誠實研究手法。

相信有 GRIM 測試幫助,加上同儕評核等措施後,將可以增加研究和科學結果的真確性。Brown 和 Heather 亦將 GRIM 計算運算表上載,供研究人員和大眾使用。

附:

[1] 通常報告中發表的平均數值都會進位到小數點 2 個位,而進位亦一定會影響到最終乘出來的數目,或者是參加者數是否整數。GRIM 測試為了解決這個問題,會先將相乘後的數值進位至整數。然後再將這個數值除以參與數,並將其進位至小數點後 2 個位。假若這個數值與原來的平均值不相乎,即是研究數據出現問題。

報告:

Brown​, N.J.L. & Heathers, J.A.J. (2016). The GRIM test: A simple technique detects numerous anomalies in the reporting of results in psychology. PeerJ, Pre-printed Published Online. DOI: 10.7287/peerj.preprints.2064v1

原文:

The Economist, Come again?, 18 June 2016

James Heathers, The GRIM test — a method for evaluating published research., 24 May 2016

文/eh

發表意見