香港大數據有可為──對創科局五大期望(洪文正)
剛剛出席華人大數據學會就職禮,獲益良多。筆者早年在滙豐和瑞銀主要負責資料庫分析編程,為前台客戶解決問題,所以比較熟悉大數據的發展。早期在科學及電腦技術尚未發達的年代,要分析巨量資料,並不如想像中容易。
近年來隨着記憶體愈來愈廉價和電腦運算速度加快,大規模存儲資訊成本極低。配上愈來愈多的資訊數位化、資料庫技術的完善,使得這些存儲的資訊能夠被輕易按照一定的條件搜索出來。而網絡普及、雲端計算,更讓資料蒐集與分析變得簡單可行,大數據自然而然變成一門顯學。
從現代金融創新到傳統經濟行為分析與商業趨勢研判,大數據幾乎無所不包。有趣的是大數據的科學研究,其實是顛覆人工智慧之路。
不拘泥傳統統計觀念
過去人們總是試圖讓電腦理解人類的指令,但發現電腦理解力實在不及人類,比3歲小孩還不如。退而求其次,大數據的科研是充分利用電腦不會累的特性做大量資料的分析和匹配運算。舉個例子說,過去的人工智慧希望電腦能聽得懂人在說什麼,但現在語言輸入,蘋果Siri或微軟Cortana完全不用知道你在說什麼,而只是將你的語音資料和後台大數據資料庫進行反覆匹配,找到對上再進行語音回答輸出。
大數據的分析具有三個特徵︰全樣而非抽樣,效率而非精確,相關而非因果。這樣的結論更顛覆傳統的統計思維,因為傳統統計方法需要抽取樣本,來推估未知參數的真實值。然而,在分析樣本的過程中,為推算最適合的參數值,估計量通常必須滿足不偏性、一致性及有效性。但在大數據分析中,整體等同樣本,沒有抽樣的問題,也不需利用或發展各種統計技巧去推估整體概況,而是直接從整體萃取訊息,自然也就不用擔心是否會產生偏誤、不一致或不具有效性的問題。
換言之,在大數據的架構下,不須拘泥於傳統統計觀念與方法,也不用強調資料的精準性,而可以將研究集中於分析巨量資料中隱含的關係及推測未來資訊,同樣的大數據也對經濟研究發生影響。過往經濟理論在解構社會經濟行為時,主要是依靠模型,把複雜社會現象加以抽象化及簡化,進而比較靜態或動態規劃,分析變數之間的關係。這種具體而微地描述社會現象的機制,並加以界定變數之間的作法將逐漸被取代。因為大數據可以分析複雜的現象,不用都抽象及簡化。把所有的數據都丟進去,透過電腦的模擬及校準運算,可以輕易地計算變數間的相關性,進而判斷彼此關聯,那經濟變數間的互動作用就可以一覽無遺。
實例上,Google有一個「Google流感趨勢」的研究,它通過分析搜索關鍵字的相關資料來判斷全美及各地區的流感情況,結果曾經對某些地區準確判斷流感已經進入「緊張」級別,發出警告要人們少出門,避免染病。
然而,大數據應用雖然對新社會帶來龐大商機,有人更擔心個人的隱私資料被有心人士偷竊或不當使用,可能衍生出社會問題。可是目前各界的反應是太過嚴格,妨礙商業進展及阻礙社會進步。其實大數據使用只要將資料執行去識別性將個人資訊拿掉,或進行資料重組或加密等資料保護的做法,就不會讓個人資料隨便洩漏,也不會引發爭議。新成立的創科局宜鬆綁目前嚴格的規定。
落實未來數碼科技藍圖
經過長達8年的爭議,創科局終於成立,楊偉雄局長任重道遠。創科局應考慮帶頭設立政府大數據研究及應用科,招募相應科研人員,設立政府資料字典(Data dictionary),把所有部門資料規格統一,一切以市民資料為本(customer-oriented approach)。這樣配合公開數據(open data),再立法要求各民生有關公司把資料共享及跟隨政府資料字典,以達致大數據利民生、利經濟的效果。
筆者亦希望創科局考慮以下五大目標:一、落實未來數碼及科技策略藍圖;二、政府帶頭增加科研投入,短期達到GDP的1%,長期做到2.5%,與星台韓看齊;三、採購本地原創科技,助年輕人發揮創意;四、保障連線人權,發展有智慧的聰明城市;五、向市民公開各項科技相關政策、措施的執行時間表及具體預算。
更多洪文正文章:
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。