立場新聞 Stand News

【統計學突破】解開高斯相關性猜想 退休統計學家的神來之筆

2017/4/11 — 16:19

via pixabay.com

via pixabay.com

【文:陳宏賓】

作者簡介: UniMath 主編、逢甲大學應用數學系助理教授

*********************

廣告

2014 年夏天的某一個清晨,陽光如往常一樣穿透白色窗簾照了進來,羅炎起身前往浴室盥洗,一邊刷著牙一邊回想昨晚入睡前那個證明。突然間,一道靈光射進了羅炎的腦袋,困擾數十年的高斯相關性猜想 (Gaussian Correlation Inequality Conjecture) 終於攻破了大門!

連結機率、統計與幾何的猜想

高斯相關性不等式 (GCI) 有許多不同的版本,其中最著名的是 1972 年連結機率、統計以及幾何三大領域的版本:

廣告

想像一個射飛鏢遊戲,以正中紅心為目標射許多次,飛鏢落點會以紅心為中心呈現類似鐘形的高斯分佈(或者稱常態分佈),如果以紅心為中心點同時畫一個圓和一個方形,高斯相關性不等式即是說飛鏢落在圓和方形的交集的機率會大於或者等於落在圓形的機率乘以落在方形的機率。 

P(圓∩方)≥ P (圓) x P (方)

這裡不同於下面這種大家比較熟知的獨立事件機率,若 A 跟 B 是統計獨立的兩事件,則我們會有這個等式:

P(A∩B)= P (A) x P (B)

直觀來說,由於圓形和方形有重疊部分區域,射中其中一個的情況下,同時也射中另一個的機率會因此提高。 

事實上, GCI 猜測是針對任意維度 d 都成立,且兩個同中心的形狀只要是具有對稱性的凸集 (symmetrical convex set) 即可。

via pixabay.com

via pixabay.com

GCI 猜想的原始型態是統計學中關於信賴區間的估算,由美國統計學家奧利佛·丹 (Olive Dunn) 在 1959 年首次提出。

想像我們要針對一群人(已知平均身高是 170 公分,平均體重是 65 公斤),給出一個身高和體重的範圍,使身高體重同時落在此範圍內的人數佔全部的 90% 以上。 這任務可不太容易,因為人的身高和體重是彼此相關,並非獨立的。假設身高和體重分別都呈現高斯分佈(常態分佈)的情況下,依據[68-95-99.7 法則]我們知道: P (平均加減兩個標準差)≥ 95% 。

也就是說,如果身高和體重標準差分別是 7 和 8 ,我們會知道:

  • P (身高介於 156 到 184 的人數)≥ 95%  
  • P (體重介於 49 到 81 的人數)≥ 95%

再由高斯相關性不等式可以推得: P(身高介於 156 到 184 公分且體重介於 49 到 81 公斤的人數)≥0.95 x 0.95 = 0.9025 。

維度 d=2 的情況早在 1977 年就被維吉尼亞大學的羅倫·彼特 (Loren Pitt) 教授證明出來。受訪時,羅倫緩緩地閉起眼睛,說起 1973 年某次和同事吃午餐時聽到這道「簡單」的數學問題時的回憶:

「嘿~ 羅倫,你知道有個有趣的數學問題 GCI 嗎? 就是想像一個射飛鏢遊戲,然後…」

「聽起來蠻有意思的,老墨~不過,你說這個還沒有人解出來?!」語氣顯得有點疑惑。

「嗯!還沒有。」

「不太可能吧! 看起來不太難啊,應該很快就可以知道答案了」我心裡當時這麼想。

「於是,我把自己關進一間房間,打算當我再次走出房門時就已經證明 GCI 是正確的或者錯了。」

說到這裡,羅倫張開眼睛望向窗外不發一語。一轉眼已經過了將近四五十年……

湯瑪斯·羅炎 Thomas Royen

首先,數學界有件事情是外界的人難以想像的。「經常發生一種情況是,解決一道看起來很困難不會解的問題的方法是把這個問題推廣成一個更難的問題,然後解決它。」
聽起來有點荒謬,打個比方,就好像是一個屢次練習中連 10K 都跑不完的跑者,居然去挑戰極地超馬想藉此證明自己可以跑完 10K 。羅炎的證明就是走這個套路,把猜想中高斯分佈這個條件推廣到更複雜更一般的情況。神奇的是,問題居然就這樣解了,證明還只用了 3 頁!!!(不過,有人覺得羅炎的版本太神了,可能不太好體會其奧妙之處,因此寫了個簡易 GCI 版的。)

差點沉沒的寶石

第二,這個影響重大的論文羅炎居然把它投稿到一個名不見經傳的印度期刊,因此使得他的論文  2014   年發表之後又過了兩年 才漸漸引起學術界的注意。一顆璀璨的鑽石差點就沉沒汪洋大海之中。一個學術上極重要的成果發表兩年後才傳播開來,在這個通訊發達的年代,幾乎是怎麼想都不太可能發生的事情。

不太可能發生的事情終究發生了。

峰迴路轉

羅炎不會用數學界編輯論文常用的 LaTeX 軟體,論文初稿是用 word 打的,完成後一份丟上 arXiv ,一份寄給一年半以前曾指出他在一篇嘗試證明 GCI 的論文中所犯之錯誤的賓州州立大學丹諾·理查德斯 (Donald Richards) 教授,當理查德斯收到信件時,一眼他就知道「Bingo!就是你了!」

事後回想起來,理查德斯有幾分懊惱,這個精簡的證明居然自己三十幾年來都沒有想到。這種心情搞數學的人一生中或多或少都會遇上個幾次吧。

不過,他也慶幸能在有生之年看到 GCI 的美妙證明問世。理查德斯興奮之餘還不忘將這個重大發現通知幾個同事,也熱心的幫忙把論文重新用 LaTeX 編輯,讓它看起來專業一點,符合頂尖期刊的水平。

可惜的是,投稿出去還是撞牆,原因是過去數十年來聲稱證明 GCI 猜想的論文每年都有一籮筐,期刊的審稿委員看都看膩了,通常一下子就能指出關鍵性的錯誤所在,要是碰上像羅炎這樣沒沒無聞的傢伙,通常也不會太認真對待。

羅炎的論文因此被草率忽略了

羅炎的論文因此被草率忽略了!

羅炎的論文因此被草率忽略了!!!

雖然有人曾建議羅炎投到最頂尖的期刊,像是統計年鑑 (Annals of Statistics) ,這樣子一來消息很快就會傳到全世界,不過羅炎考量後還是決定投到很快就可以發表的印度期刊 Far East Journal of Theoretical Statistics ,這種期刊的壞處就是即使刊出之後也不太有人知道這件事。一直到 2015 年底 Rafał Latała 和他的學生 Dariusz Matlak 重新寫了一個簡易 GCI 版本的論文, 2017 年 3 月 28 日知名雜誌 Quanta Magazine 刊出一篇專欄報導,整個事件才得以散播出來。

最後,羅炎教授受訪時表示,他希望這個意外簡單的證明能夠鼓勵年輕的學生,善用自己的創意去尋找新的數學定理,畢竟那並不總是需要具備非常高深的理論基礎才辦得到。

the surprisingly simple proof … might encourage young students to use their own creativity to find new mathematical theorems, since a very high theoretical level is not always required.

參考文獻
[1.] L. D. Pitt, A Gaussian correlation inequality for symmetric convex sets, Ann. Probab. 5 (1977), 470– 474.
[2.] T. Royen, A simple proof of the Gaussian correlation conjecture extended to multivariate gamma distributions, Far East J. Theor. Stat. 48 (2014), 139–145.
[3.] R. Latala and D. Matlak. Royen’s proof of the Gaussian correlation inequality. ArXiv http://arxiv.org/abs/1512.08776, 2015.
[4.] A Long-Sought Proof, Found and Almost Lost, Quanta Magazine, 2017/03/28. 

原題為《[統計學突破]解開高斯相關性猜想,退休統計學家湯瑪斯羅炎的神來一筆》,現題為立場編輯所擬。

原刊於 UniMath 博客UniMath Facebook 專頁

發表意見