政府大數據上網未算真開放(智經研究中心)
本文由
最近台灣行政院延攬年僅35歲的網絡創業家唐鳳擔任政務委員一職,期望他能夠發揮開放政府的長才,為各政府部門建立對外溝通的平台。唐鳳曾以聯繫者自詡,即致力於把兩個互不相識的社群用一種互相能懂的語言聯繫起來,就「人民」—「政府」這個面向而言,就是如何把政府的數據用更方便、直接的途徑向廣大群眾呈現,然後集思廣益,從數據發掘改善公共服務的方法。
在香港,資訊科技總監辦公室於2011年成立資料一線通網站,同樣有開放數據的宏願。財政司司長在2015至2016年度的《財政預算案》中宣布,會以數碼格式免費發放公共資料,而資料一線通亦於去年3月革新,可見政府確有一番雄心壯志,欲為橫亙人民與政府之間的「數據鴻溝」搭建橋樑。
社會真相 有助發掘
所謂「政府開放數據」,是指政府把一些範疇,例如交通事故紀錄、各區犯罪數字等資料開放予公眾作大數據分析;大數據除了如字面意思的大量資訊外, 尚有快速處理及數據多樣性的要求。換言之,單是開放資料是不夠的,因為數據之海量,必須配搭能夠由軟件快速處理的格式發布;而數據多樣,則須通過不同數據的交換、整合和分析,才能發現新的知識和價值。
美國交通安全管理局是美國政府最早開始大規模收集數據的部門之一,自1966年交通事故死亡人數突破5萬人之後,該局建立交通事故死亡分析報告系統,開始在全國收集交通事故的死亡紀錄,再配合多樣性的數據,例如不同時間(月份、星期、時刻)、天氣、事故原因、地區、路況、車種、傷亡人員(年齡、性別和司乘)等等分門別類,比較分析,讓許多交通意外的內在規律,循着數據「重見天日」。
例如透過數據的比較分析,局方發現某個州發生車輛右側碰撞的比例,每年均高於其他州,經調查後發現「真兇」在於該州公路的路邊小斜坡比其他州的長,導致駕駛員注意力分散。
面對「大數據」的浪潮,港府自然不會甘為人後。然而資料一線通自推出迄今,批評亦未絕於耳,部分批評有可取之處,如數據若非軟件能夠讀取的格式,確會為後續編寫應用程式帶來障礙,失去激發民間創意的意義,因此政府「開放數據」並非僅僅止於「披露」,還須提供外界易於整合的數據格式。
業界對於開放數據有所謂「五星」準則,即使數據持有者「開放授權」,其實亦只符合最低的一星標準,其典型就是PDF檔案格式,上望還有XLS、CSV、 RDF及LOD等更佳選擇。
以五星準則查核現時資料一線通網站上的數據集,會發現數據中並無符合四星或五星的檔案格式,最高評級只有到正式開放格式的CSV檔,其程度是可以把數據輸入去其他應用程式,然而數量亦僅有45個數據集,或值得當局跟進。
閱讀數據 軟件配合
除了改善檔案格式,提高使用效率外,上文已提及「多樣性」對於數據交換、整合和分析的重要性,例如就「交通意外」這個範疇,完善的數據集不應只包括意外數字,也應提供其他相關數據,例如事故原因、時間、天氣、地區、路況、車種和傷亡人員等,以方便公眾作有系統的分析;然而在資料一線通當中,與交通意外相關的資源卻僅有「特別交通消息」和「交通情況快拍圖像」等連結和圖片,較難作多方面的分析。
雖然統計處有提供「香港道路交通意外統計」的網頁連結,但資料並不完整,反而自行翻查運輸署的網頁,才找到歷年的道路交通意外統計,包括按年齡、道路使用者、性別、傷勢情況、車輛類別等相關數字,但格式仍僅止於PDF和XLS類別;這些具多樣性的資料若能在資料一線通整合,並以更高評級的數據格式呈現,相信會更有利集合民間智慧,作出過去意想不到的實用分析。
在多樣性以外,於大數據而言,詳盡的分析往往需要歷史數據,但一些數據例如天氣,資料一線通暫時只提供實時性資料。若參考Data.Gov上線之後由美國交通部開發的航班延誤分析系統Flyontime.us,用戶可藉其看到不同天氣、日期、時段、航空公司以及航班等各種條件下,飛機平均延誤時間的歷史數據明細,以推算某些航班能否準時抵達。
由此可見,搭建平台只是第一步,集合多樣、具歷史性的數據,並轉化為軟件能夠直接讀取的格式,才是真真正正的「開放」。這未必要有像唐鳳一樣的奇才,卻要有其自詡聯繫者的氣魄。
更多智經研究中心文章:
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。