立場新聞 Stand News

香港開放數據的現有技術問題

2016/5/30 — 0:37

資料圖片

資料圖片

眾所周知,香港政府的開放數據網站「資料一線通」發展停濟不前,開放給大眾的數據寥寥可數,其實除了數據量不足外,還有以下技術問題有待解決。

一) 電腦可處理性 (machine processable)

開放數據除直接給普羅大眾查閱外,還有民間團體、第三方研究和商業機構從開放數據發挖新資訊及產品研發,推動社會進步。一般來說,分析開放數據的人員會運用軟件甚至自行編寫程式,將單一或者多項已整理的數據透過視覺化 (Visualization) 和數據挖掘 (Data Mining) ,使數據轉化為對公眾有益研究成果,或者把開放數據與用戶軟件結合,為用戶帶來更好體驗。由此可見,電腦程式與開放數據跟本不可分割,電腦可處理性乃開放數據其中一個關鍵原則。

廣告

那到底何謂電腦可處理性低呢? 簡單而言,如果電腦程式需要過多或繁瑣的加工處理才能獲得相關資訊的話,那該份數據可謂電腦可處理性低。以「資料一線通」的「活豬數量分佈」為例 [1],從圖中可見有四組數字,分別為 476, 692, 1126 及 760,電腦就要使用圖片文字辨識 (OCR) 才可以從圖象檔案中提取數字,相信大家都知道圖片文字辨識是相當費時亦不是百份百準確。

廣告

除「資訊一線通外」,食物環境衞生亦會把活豬數據上載到網上供市民瀏覽[2],或許讀者聯想到讀取網頁比從圖片更容易獲取數據,問題不就是解決了嗎 ? 不,即使數據是網頁上以文字形式顯示,亦不代表資料的可處理性高。網路爬蟲 (Web Crawling) 從網站的代碼提取數據,由於爬蟲汲涉及網頁代碼解析 (HTML parsing),因此提取數據過程會受網站頁面改動,例如網站地址和外觀介面的更新影響,換句話說,網頁的電腦可處理性仍然不足以用作為開放數據。

提高數據的電腦可處理性一點也不難,只要政府停止畫蛇添足,將原始數據以XML,JSON或CSV檔案格式供公開下載或以API 型式給外來程式調用,已經可以達到要求。

二) 原初級資料 (Primary)

資料的原初程度同樣重要,經過處理的訊息,即是我們在「資料一線通」常見的總和及平均數,預先的處理破壞了資料的原初性,亦限制開放數據數據的可塑性,使數據變成食之無味的雞肋。原初級資料除了有助民間團體進行學術研究及提倡政策外,亦有助增加數據的可信性和透明度,因為只有把原初級資料開放,市民才可以判斷政府的數據是否合理並與反映現實。

以下圖「創新及科技基金撥款概覽」為例 [3],數據只大概列出基金撥款與基金計劃,但真正大眾關心的數據,例如五千多個的項目範疇,撥款數字、統籌人及獲款機構等訊息都沒有包括在開放數據內。明顯地概覽並不能說明基金實際上的運作情況,業界及大眾亦難以檢視或監察基金。

而「二零一五年須呈報的傳染病按月統計數字」[4] 的 Excel 檔案中只顯示簡單的每月總數,更微細的訊息,包拾每天傳染人數的表化、傳染者的性別比例、年齡層別甚至是不分地區的劃分等,都應該放在開放數據內。愈是仔細的資料,愈能推動深入的分析及調查,那才是開放數據的價值所在。當然要達到以上的要求並不是一件易事,在不違反私隱條例的前題下,政府應完完整整把收集了的數據發佈,亦需要增加資源及人手收集並整理數據。

總結

上述只是開放數據其中兩個原則,大家亦可搜尋 "The 8 Principles of Open Government Data" 了解開放數據的其他重要元素。儘管業界及民間團體多番發聲,遺憾地開放數據仍如失寵的妾侍,被政府長禁在冷宮。即使創科局已成立半年有多,仍未能為開放數據帶來絲毫改變。本港政府口口聲聲說要打造香港為智能城市,卻懵然不知智能城市是需要開放數據注入智能,說到底,高官就是沒有運用創新科技改善生活的前瞻和勇氣。

 

 

[1] 今日在不同的拍賣價出售的活豬數量分佈

[2] 本月每日活豬供應及拍賣價

[3] 創新及科技基金撥款概覽

[4] 須呈報的傳染病按月統計數字 

發表意見