立場新聞 Stand News

為甚麼衝擊立法會未必是有勇無謀:從「強權」vs. 學習者的機器學習理論談起

2019/7/3 — 10:31

7 月 1 日,示威者佔領立法會

7 月 1 日,示威者佔領立法會

2019年7月1日,反逃犯條例示威者闖入了香港立法會。網上批評之聲四起:立法會會期已過,攻進去有甚麼用?看似暴力的行徑會否使運動的中間派支持者轉向?這種行動有意義嗎?

百害而無一利的事,一般來說不要去做。如有「微利」,也許就有了一點討論空間。這裏的利可以是實際的,也可以是象徵性的。寫到這裏,為免誤會,我重申一下,我並不是說衝進立法會在當時情況下是一個好的選擇,我更不願意看到年輕人受傷害,但我認為在某種語境下,我們不能抹殺行動有意義的部份。

當中一個重點:佔領立法會一事增加了政府應對抗爭的不確定性。

廣告

攻進立法會,看起來不是最明智的選擇。如果幾天前政府作沙盤推演,示威者攻進立法會應該是他們認為發生機率較小的事件,甚至直至發生前一天很多觀察者都未認真考慮其可能性(先不考慮「好打得者」是否反應甚快,在事發前後幾小時加以將計就計)。

如果示威者的行為,只選取看起來「最明智」的方向去走,那是一種很確定的策略。反之,若果偶爾他們會選擇一些「不那麼明智」的策略,那就是一種不確定性。不確定性,讓政府無法「睇死你地會出呢招」。那究竟不確定性是好還是不好?

廣告

看這問題有很多角度,這裏會從一個機器學習理論角度去作分析。不同的群體互動是一個範式(paradigm),機器學習會把現實作了簡化,但簡化的同時會把範式的重點特顯出來,原理有點像社會科學模型,是我們學習真實世界事物一個很有價值的參考。

對抗性環境:強權vs.學習者

在機器學習理論中的線上學習(Online Learning)範圍中,有所謂的強權vs.學習者(World vs. Learning,由於「世界」一詞在下文有幾個不同意思,這裏World vs. Learning我譯作「強權vs.學習者」以增加下文的易讀性)的對抗性環境設置(adversarial environment setting)。在這環境下,學習者想學習世事的「規則」並作出決策。「強權」是一個外部世界,它總與學習者抬摃,刻意要學習者不斷作錯誤決策,錯誤越多越好。而「強權」的能力是很大的,也可以不斷出千,只要最後公布的「真相」與「強權」以前說的話沒有矛盾,「強權」可以任意搬龍門,在沒有自相矛盾的餘下「真相」中,使用對自己最有利的一個,並宣稱那是它一直以來堅持的真相。可以看出,在這個大衛對歌利亞的設置下,學習者是較為「蝕底」的。

用經典遊戲珠璣妙算(Mastermind)作例子,出謎者是「強權」,猜謎者是學習者,要學習的「真相」就是收起來的四珠顏色。在對抗性環境設置中,強權(出謎者)可以不斷出千(實際珠璣妙算遊戲中當然不容許),不斷轉換那隱藏的四珠顏色,明明猜謎者在第三回合已經碰巧猜到四色是「黑紅紅藍」,出謎者也可以把答案轉換為「藍紅紅藍」,讓猜謎者多猜幾個回合。前提是「藍紅紅藍」與以前出謎者給出的提示沒有矛盾即可。

珠璣妙算(Mastermind)在對抗性環境(adversarial environment)下的設置。右方為遊戲中的旗,紅旗為正確顏色正確位置,白旗為正確顏色錯誤位置。出謎者能不斷搬龍門出千轉換答案,前提是最終答案不能與前言互相矛盾。

珠璣妙算(Mastermind)在對抗性環境(adversarial environment)下的設置。右方為遊戲中的旗,紅旗為正確顏色正確位置,白旗為正確顏色錯誤位置。出謎者能不斷搬龍門出千轉換答案,前提是最終答案不能與前言互相矛盾。

作為引申,這些環境包羅萬有:看看立法會的佈防情況猜測這是不是一個空城計,看看哪些議員說了甚麼等等,去猜測逃犯條例會不會在同一立法會會期內凱旋歸來。這些都是類似的機器學習問題。

珠璣妙算很簡單,需要學習的「真相」是確定的,就是四珠顏色,一旦知到了「真相」,後面再猜就不會再猜錯,「損失」(Loss)就會是零,機器學習裏這是一個「可實現假設」(realizable assumption)。但真實世界很複雜,一個特定演算法所能學習的事,即使在最好的情況,也與真實情況有所出入,有「非零捐失」(Non-Zero Loss),這情況就是沒有「可實現假設」(例如直線演算法無論多精確也不能完全描述曲線)。

「可實現假設」的環境較簡單,學習者會犯的錯誤是有限的,學習者得知四珠顏色後便會一勞永逸,不會再對顏色猜測犯上錯誤,只要你夠聰明,珠璣妙算的「強權」只能「玩弄」你八次九次,就無法再玩弄(否則「強權」會自我矛盾)。但若果沒有「可實現假設」,那就是一個複雜的環境,即使你有霍金的頭腦,「強權」仍可以玩你無限次。強權vs.學習者的抗爭中,學習者要戰勝強權會困難很多,學習者有可能犯上無限個錯誤。

在這個情況下,如果學習者永遠使用相同的方法對抗強權,那狡猾的強權便能先一步猜出學習者打算如何回應,強權就能事先設好「位置最佳」的陷阱讓學習者去踩,因此強權總能使學習者付上線性代價(Linear Regret)甚至超線性代價 (Super-Linear Regret)。所謂代價,這裏指「後悔」的次數,可以看作做錯決策的次數(也就是在特定性況下沒有做出最佳決策)。所謂超線性代價,指「最慘情況總代價vs.回合」曲線必然為直線或更向上彎。總代價與最慘情況總代價是相同的,因為「強權」會使學習者付上最慘代價。

如果學習者永遠使用相同的方法對抗強權,那狡猾的強權便能先一步猜出學習者打算如何回應,強權就能事先設好「位置最佳」的陷阱讓學習者去踩。

如果學習者永遠使用相同的方法對抗強權,那狡猾的強權便能先一步猜出學習者打算如何回應,強權就能事先設好「位置最佳」的陷阱讓學習者去踩。

超線性(Super-Linear)與亞線性(Sub-Linear)。做到亞線性,平均代價(總代價除以回合數)會隨著回合數目增加而減少,也就相等於「有效學習」了。若果學習者使用了「隨機性」,「最慘情況總代價vs.回合」曲線能夠從超線性變成亞線性。

超線性(Super-Linear)與亞線性(Sub-Linear)。做到亞線性,平均代價(總代價除以回合數)會隨著回合數目增加而減少,也就相等於「有效學習」了。若果學習者使用了「隨機性」,「最慘情況總代價vs.回合」曲線能夠從超線性變成亞線性。

但若果學習者使用了「隨機性」,有時使用這種方法做決策,有時使用另一種方法做決策,神奇的事情發生了。「強權」無法確認哪種陷阱能使你「輸通街」,「最慘情況總代價vs.回合」曲線能夠變成亞線性(sub-linear)[註1]!而做到亞線性,平均代價(總代價除以回合數)會隨著回合數目增加而減少,也就相等於「有效學習」了。

但若果學習者使用了「隨機性」,「強權」便無法確認哪種陷阱能使學習者「輸通街」。

但若果學習者使用了「隨機性」,「強權」便無法確認哪種陷阱能使學習者「輸通街」。

也就是說假如現在有五個可行決策,其得分為(4, 7, 2, 6, 3),第二決策是最佳決策(7分)。假若我(學習者)使用確定性策略(deterministic strategy),亦即每次這種情況下我也100%機率選擇第二決策,那「強權」就能夠在第二決策上設置陷阱,我必然會「輸得很慘」,也就是「強權」會讓我付出「超線性代價」。但假如我使用隨機性策略(stochastic strategy),只有7/22機率選擇第二策略,4/22機率選擇第一策略(如此類推),那強權就不知道應該在哪個策略上設置陷阱,我就能與「強權」分庭抗禮,把「最慘情況代價vs.回合」曲線推成亞線性。當中關鍵,在於「強權」不知道你下一步是否會按章出牌,也因此在「出千」上有所顧忌,不能輕易挑選出最能使我慘敗的「真相」去將我輕鬆擊敗。

強化學習 –打人還是打鼓?

世事複雜,強化學習理論(reinforcement learning)中,有一經典兩難,稱為探索vs. 開採(Explore vs. Exploit),最能使人體會世事之複雜。探索vs. 開採是一個去留問題。舉一例子,蘆葦蔥出來工作了八年,打人、打鼓、打雜的工作分別做了1、4、3年,每年他檢視自己每年年尾的滿足度,分別為「(9), (7,8,7,8)和 (5,6, 5)」,那打人的那年滿足度最高,為9分,打鼓次之,平均為7.5分,打雜再次之。那未來幾年蘆葦蔥應該從事打人的工作,還是轉去做打鼓或打雜的工作呢?繼續做滿足度最高的打人工作,就是開採。若果嘗試其它滿足度較低的工作,那就是探索。

因此,在一個特定的情況下,若果我認為某個決策是最佳的,例如打人,我應該執行目前的最佳決策,還是嘗試新決策?在典型強化學習理論Q學習(Q-Learning)告訴我們,應該採取隨機的策略:多數時候做最佳決策,但有些時候嘗試其他策略。若果我們不嘗試新東西,只打算做自己目前認為最好的策略,那就無法學到整體真正的策略價值(Q-Value)分佈,也許打人其實並不開心,只不過剛巧那年年尾行街執到錢,因此9分的滿足感來自執到錢,並不來自工作,反而若果將來繼續從事打人工作,出街食飯也被拒絕招待,每年滿足度就只有一兩分,因此也許打鼓才是真正滿足度最高的工作。「坐井觀天」讓目前的成見束縛了自己。唯有偶爾隨機執行其它策略,才能成功學習。

結語:我們需要不確定嗎?

世界太複雜了,因此無法建構簡單的模型,某些時候隨機嘗試新的方向,有些時候能使我們汲取不同面向的經歷,探索vs. 開採當中一定的不確定性也能使我們學到更多。若果我們處於對抗性環境中,亦即強權偏好於使學習者付出更多代價,學習者的隨機性亦能使世界難以捉摸,從而減低成本。在這個方向下,不確定性,有其意義。

註1: 請參考Understanding Machine Learning – From Theory to Algorithms 2014ed. By Shai Shalev-Shwartz and Shai Ben-David的21.2章

原文刊於作者網頁

發表意見