「流計算」愈趨重要 (車品覺)
每年一度的「雙11」購物節又來了,對我們做數據的人來說又是一次年度大考,真的猶有餘悸。過去幾年,每當幾億人享受網購的時候,媒體對着數據大熒幕為打破交易紀錄而歡呼的背後,還有一班技術人員在默默地觀看着自己努力的成果。當中不得不介紹的是「流計算」技術,它是「雙11」的即時指揮大屏、全球直播媒體大屏、商品投放排序優化、個性化推薦等功能的幕後功臣。
用一個簡單比喻,假如你站商場門口,四方八面顧客向着你走來,而你要不斷預測進來的人的性別、年齡、 喜好、購買力等等。在人流一刻也不停歇的同時,我們要從數據中分析最新人流的特徵趨勢,並決定門口的電子海報內容如何最能吸客。
能快速持續處理數據
從上面的事例中,數據的價值轉瞬即逝,或是隨着時間流逝而貶值,因此有必要在事件出現後即時進行分析處理。過去的傳統做法,是把持續到達的數據先存到數據庫中,之後才作分析;不過,移動互聯場景要求快速連續的數據得到即時處理,而「持續處理」是數據流應用的典型特徵,執行此類動態計算的程式被稱為「流計算」。
典型的移動互聯的數據來源都是即時、數量大、不間斷,最貼切的例子應該是Real Time Bidding(即時競價)的廣告,標準的回應時間是200毫秒內。
試想一下,淘寶要根據用戶偏好、地理位置、歷史點擊等資訊,動態估算不同頁面中一個廣告被點擊的可能性。一個主頁面可能每秒鐘有成千上萬次訪問,每個頁面包含多個廣告。為了及時插入基於流量的點擊付費模式的有效廣告,選擇最佳位置展現最相關的廣告是核心競爭力。這種系統極需要一個低延遲、可擴展、高可靠的數據流處理引擎。
流計算的重要性會隨着智能時代及物聯網的深入而變得愈來愈重要,同時也意味着大數據的技術也在不斷革新。企業要明白在新科技時代,單純「以不變應萬變」已經此路不通。
(編者按:車品覺最新著作《覺悟.大數據》現已發售)
歡迎訂購:實體書、電子書
更多車品覺文章:
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。