立場新聞 Stand News

Sorry,呢條數唔係咁計

2019/5/19 — 18:44

間中有朋友問,我在大學教 infographics 其實係教乜。其實真係教畫圖或計數的時間唔多,coding你可以自己學,software日新月異我教你都冇用;最主要,係學點諗嘢。例如如果你上過我堂,你唔會出一幅上面咁樣樣嘅圖囉。

呢幅圖來自是日某主流網媒的一篇新聞,我一見到就覺得好奇怪⋯⋯乜溫度有得計倍數咩?Click入去睇,內文其實冇計過一條咁嘅數,相信係出圖的朋友見到內文話「5月11日的氣溫為攝氏29度,往年平均氣溫約為攝氏12度」,於是就得出了「較往年高一倍」這句說話。

如果上緊堂,你咁寫,我會肥你。因為溫度,除了degree kelvin,係冇「高一倍」呢個概念的。

廣告

統計學上有測量尺度(scale of measure)這件事,通常分 nominal, ordinal, interval 和 ratio 。後面的道理,就係唔好以為係數目字就可以計數。例如危險品倉庫,有第一類危險品,第五類危險品,第十類危險品⋯⋯咁第十類危險品係咪危險過第一類十倍呢?唔係,因為呢個數目字只係分類用,同蘋果橙冇分別,是為nominal data。又例如,米芝連有一粒星、兩粒星同三粒星,我地知道三粒星好食過兩粒星,兩粒星好食過一粒星,但係三粒星同兩粒星的距離,同兩粒星同一粒星的距離,係咪一樣呢?我地唔知道,因為呢個係 ordinal data 。

而氣溫,係interval data。我地知道攝氏20度同攝氏10度的距離,係同10度同0度的距離一樣;但氣溫唔係ratio data,攝氏20度唔係攝氏10度的兩倍。

廣告

重複:攝氏20度唔係攝氏10度的兩倍。

幾時先係ratio data呢?好似長度咁,20cm就係10cm的兩倍了。有乜分別?因為長度係有meaningful (unique and non-arbitrary) zero, 零就係零,攝氏唔係咁work(除非degree kelvin, 就有絕對零度這個概念,個零真係零來的)。

如果明白scale of measure 這件事,就不會出現在討論溫度的時候話「較往年高一倍」這句話了。

認識scale of measure好重要,因為做數據其實不外乎加減乘除,難就難在有時你唔知幾時可以加減,幾時可以乘除。

舉個例,如果你要做統計,搵central tendency。處理nominal data,你只可以計mode;處理ordinal data,因為有得排次序了,你可以計median,但不能計mean;到了interval data,先可以計mean。

這對實際應用也有影響的。例如你設計問卷,好多時會問「好鍾意/鍾意/一半半/唔鍾意/好唔鍾意」,問題係「好鍾意」同「鍾意」的距離,同「鍾意」同「一半半」的距離,響受訪者心目中係咪一樣呢?冇呢個假設,就會被人質疑你唔可以計mean。要繞過這個問題,你可以問「0就絕對唔鍾意,5就一半半,10就絕對鍾意,你會俾幾多分?」

這兒只是簡介對數目字的基本思考。學術上可以去到好深都得,一般人也用不著。但希望大家最起碼記得這點:唔好見到有數目字就以為可以加減乘除啊!

*     *     *     *     *

補一句:幅圖錯,但件事仍然重要。氣候變遷,真係好大鑊呀!

作者 Medium

發表意見