You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

大數據預測訪港旅客人數(梁棟為、楊良河)

By on January 15, 2016

本文作者楊良河博士為香港大學統計及精算學系副教授、林建教授為香港浸會大學榮休教授,為《信報》撰寫專欄「數裏見真章

visitor

隨着高速的國際互聯網絡發展,透過收集和分析數以億計的網上用戶瀏覽記錄的大數據,商業機構便能迅速地提供貼身剪裁的服務和作出靈活的市場決策。事實上,已經有很多研究成功利用這些大數據去預測流行病爆發、樓價甚至是股票價格。其中,Google Flu Trends可算是改變傳通通計分析的一個典型例子。這研究透過分析指定的搜索詞彙在Google的搜索量去預測美國疾病預防控制中心(CDC)公布的流感樣患病趨勢。Google於2009年在Nature雜誌發表這項研究,並引起不少學者關注。

可是,由於近年來Google Flu Trends的預測跟實際數字有所出入,令人懷疑這類分析預測系統的價值。有鑑於此,以美國華裔統計學家哈佛大學寇星昌教授為首的研究團隊提出改善方法以提高準確性。他們的跟蹤模型只是建基於一些完全公開的但品質低的搜索數據,已經能優勝過所有以前提供的Google搜索為基礎的跟蹤模型,包括Google Flu Trends的最新版本。他們利用的數據是由Google Trends和Google Correlate兩個公開網站得到的。

筆者亦嘗試利用這兩個公開網站獲得的搜索數據,建立跟蹤模型去預測台灣訪港旅客人次。

Google Correlate和Google Trends是兩個公開的網上平台,前者讓公眾取得近百個與一時間序列(如每月台灣訪港旅客人次)存在高相關性的詞彙,而後者得出有關詞彙的每日的搜索量。由於大部分人也會在旅遊之前在網上搜索有關資訊,我們能從而推算出一兩個月後的訪港旅客人次。

經過一番分析之後,筆者發現全球搜索詞量難以預測所有訪港旅客數字,惟有將研究分拆為不同的國家才能有效地作出預測。這是因為長途旅客一般也比短途旅客較早搜尋旅遊資訊;另外,眾所皆知,內地客佔了大部分訪港旅客,而Google在內地並不流行,迫使我們要把旅客先分類、後分析。

除了內地之外,台灣客的數量是所有國家中最多的,因此筆者的研究目標只有台灣旅客。我們期望將來可以擴展這項研究至其他國家,最終可綜合起來成為一個準確的全球訪港旅客預測。筆者首先篩選出30個關於到港旅遊的搜索詞,再將同類型的詞組合起來,總共得出18組詞類,另把時間序列元素(time series element)和節日效應(holiday effect)一併放進的線性模型,然後用逐步迴歸法(stepwise regression)來選取通入模型的變量。

台灣旅客常搜索香港景點

若要探討這模型預測的準確性,我們可以比較預測出來的數字和真實的訪港人次,而預測數字必須要只用同月之前的數據(不包括同月)。這樣一來,我們便可以比較不同模型的均方根誤差(RMSE)。均方根誤差愈小代表預測數字愈接近真實的數字;相反,大均方根誤差代表該模型的預測準確性成疑。由於樣本數目(sample size)不足,最早可以用作計算均方根誤差的測試月份是2015年3月,而筆者搜集數據的時候旅發局只公布至去年10月的旅遊數字,所以我們一共有8個測試月份可用作計算均方根誤差。結果顯示這個模型的均方根誤差是7298。如果只用上月的訪港人次來估算(naive),均方根誤差高達15611。由此,筆者的模型可以準確地預測一個月後的訪港台灣旅客數字。我們曾嘗試加上同月搜索詞量的數據,亦使用過不同模型和變量選取法,最終發現不考慮同月數據的模型預測較為準確。這也揭示了台灣旅客甚少在訪港前一個月內進行資料搜集。

可能大家會有興趣知道什麼關鍵字最能幫助預測台灣訪港人次,因此筆者列出模型內部分具顯著性的變量【表】。結果顯示「香港飯店」在每一個月也是顯著的,而「香港景點」的平均系數值亦非常高。

另外,雖然表上未有交代,但農曆新年和「香港景點」的相互作用(interaction)也是經常顯著的。由此可見台灣人來港旅遊之前通常也會搜尋「香港飯店」和「香港景點」,特別是當他們於農曆新年期間來港旅遊時,更加會預先搜尋「香港景點」。

雖然這模型只能預測一個月後的旅遊數字,但這類短期預測絕對有它存在的價值。首先,企業可調整可變成本來迎合下一個月的需求。例如海洋公園若知道下月將會有大量入場人士,便可增聘臨時工。

其次,中央處理機制可以幫助解決短期過量的需求。像是安排點對點的交通服務以分散熱門景點的負擔。最後政府可與澳門合作,提供旅遊套餐及優惠鼓勵旅客花多餘的時間到澳門旅遊。

 

支持EJ Tech



如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們