立場新聞 Stand News

信心危機:淺談科研成果的可重複性

2017/1/17 — 12:55

pexel

pexel

心理學、醫學、生物學等「軟科學」陷入信心危機! 前年一項由 Open Science Collaboration 研究傳來壞消息—— 97 份宣稱有顯著結果的心理學研究中, 61% 結果未能重複。著名心理學家 Baumeister 的 ego depletion 研究也被指無可重複。另一研究亦發現類似問題,研究人員無法重複 70% 的癌症研究,部份更曾被視作是「大突破」。軟科學研究是否會被推翻?可以肯定地說:不會。

科學期刊出版問題

科學界運作形式相當簡單:科研人員從過往研究找出新想法、新假說,尋覓資金、研究、在期刊發佈結果、其他人重複驗證。重點在於「錢」。跟所有行業一樣,科學界資源同樣有限。研究撥款機構除了考慮研究本身的可行性之外,也會參考研究人員背景——以往有沒有發佈文獻、所得資金、學院背景等。期刊編輯往往亦會考慮研究本身的出版價值來挑選刊登的期刊——通常有顯著結果的才會被發佈,一些「沒有結果」、重複檢驗或者不太重要的研究就容易被忽略,發佈機會低。科學家為保前程(對不起,科學界也要考慮現實問題)也會因此只專注於發掘新題材,漠視重複檢驗前人研究,久而久之就形成惡性循環。

欠缺檢測 害群之馬得益

科學出錯是意料中事——有錯就改才是科學本質。問題是只有少數人願意擔當檢測結果的角色,加上軟科學不如物理學般有極嚴謹的檢定方法(一般需 5-Sigma 才可被視為發現),令部份害群之馬「有機可乘」。方法主要是 p-hacking 與避重就輕,不公開所有資料。

廣告

現時大部份生物學、心理學或醫學研究都會以計算 p-value 來判斷科學假說是否站得住腳。只要研究計算的 p-value 比 0.05 的 Alpha-level (檢測標準,一般為 0.01, 0.05, 0.10 等)小,就會視作為顯著結果/陽性——即有足夠證據支持假說;相反,p-value 比 0.05 大的話則結果為不顯著/陰性(林澤民教授一文更深入討論 p-value 問題)。結果部份操守欠佳或者是對統計學不了解的科學家就看準此方法的漏洞,用數據分析方法換取顯著結果。統計學家 Simmons 等人稱之為 "p-hacking" 。 p-hacking 是指研究人員為得出「顯著的陽性結果」,以不當手法重新分析數據。其中,常用手段是不斷收集數據直至結果為顯著為止,或者是移除異常值 (Outlier)。結果造成大量假陽性結果——直接點說,就是造假。

另外,部份科學家會在研究有結果後才提出「假說」,也就是馬後炮。後置假說沒有問題。只要說明清楚,結果更可為將來研究提出新方向,讓其他學者驗證;但是有部份人不會在報告中提及假說,使重複檢驗工作變了得更困難。除此以外,研究結果難以重複的另一原因,就是部份科學家未有完整地交待研究方法,或者忽略重要細節,種種原因都令科學陷入「重複危機」之中。

廣告

潛在問題

究竟現時存有多少「有潛在問題」的研究?我們可先假設這個世界有 1,000 個會被發現或已被發現的假說,當中只有 10% 是真確。那就是有 100 個真確假說。

以現時研究標準定下的統計檢定力 (Power) 一般為 80%,即 80 % 真確研究會被發現,剩餘 20% 則會被誤判為「錯誤結果」。換句話說,每 100 個真確的假說中,就有 20 個會被誤以為「陰性」結果。相反,「假陽性」結果,以現時的 Alpha-value 定作 0.05 , 即是每 100 個結果就有 5 個會被誤判為陽性, 1,000 個中即是有 45 個假陽性結果。剩下的 855 個假說則會正確地判斷為錯誤,科學家所見的情況將會是:

125 個陽性結果(80 個真陽性,45 個假陽性)
875 個陰性結果(855 個真陰性,20 個假陰性)

現實差得遠。考慮到現時大部份已發佈研究多為「陽性結果」,即有 125 個研究將被認為是陽性,然而,至少有 36% 是假陽性。我們所知的,可能有不少是「錯誤的」。

問題非末日 科學界應改善

有危才有機。雖然科學界面對研究可重複性問題,但是絕非科學末日。科學本身有能力不斷更正自己,制度同樣也需改善。一,科學家需要接受更多統計學訓練,了解分析方法。其次,撥款機構與出版商亦應鼓勵科學家多重複檢驗研究。現在已有部份出版商,包括 PLOS One、Frontier 和 Biomed Central 接納更多陰性研究結果,甚至有專門接收陰性研究結果的期刊《Journal of Negative Results in Biomedicine》。制度上則可要求研究人員事先呈交研究計劃紀錄。當報告發佈後,研究人員亦應公佈所有研究細節。對於科學家來說,就必須謹記初衷:科學是以誠實地揭開世界奧秘。

信心危機非科學末日,科學就是不斷演化、不斷進步,小心檢驗。雖然 Baumeiator 研究受質疑,但也非代表其研究錯誤。而他本人不服重複檢驗結果,正準備重新再做研究核實結果。無論結果如何,也可再體現科學精神——大膽假設,小心求證。

參考資料:

Ioannidis, J. P. (2005). Why most published research findings are false. PLoS Med, 2(8), e124. DOI: 10.1371/journal.pmed.0020124

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science., Science, 349(6251), DOI: 10.1126/science.aac4716

Pfeffer, C., & Olsen, B. R. (2002). Editorial: Journal of negative results in biomedicine. Journal of negative results in biomedicine, 1(1), 1. DOI: 10.1186/1477-5751-1-2

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological science, 0956797611417632. DOI: 10.1177/0956797611417632

作者 Facebook 專頁

審核/ac, tc

發表意見