You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

浪潮卓數|大數據轉型 重標註可供訓練

By on March 10, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech

大數據與人工智能(AI)息息相關,生成式人工智能(Generative AI)崛起,令企業對數據安全與應用的認知大幅提升。浪潮卓數大數據產業發展有限公司(下稱浪潮卓數)粵港澳大灣區總經理吳爍接受本報訪問時稱,大數據產業的行業競爭,已由單純追求數據規模,逐步轉向強調數據質素及標記準確度。數據安全從早前的「合規成本」,亦轉為企業「核心競爭力」。

競爭由追求規模變為質素

浪潮卓數自2017年成立,經歷了AI技術由走進大眾視野,到掀起全民熱潮的過程。吳爍相信,生成式AI迅速崛起,為自己所處的大數據產業帶來結構性改變。過去行業普遍追求數據量級,現如今就重點關注數據的「可訓練性」。

以浪潮卓數合作的自動駕駛科企為例,對方過去依賴海量行車影片數據,現時就需要對影片的物體精細化標註,以及場景語義分割(Semantic Segmentation)。吳爍認為,高質素的數據正逐漸成為新的行業競爭壁壘。

吳爍認為高質素的數據,正逐漸成為新的行業競爭壁壘。(周泳彤攝)

吳爍指出,企業過去通常把數據安全,視作應對《通用數據保障條例》(GDPR)等法規的成本。生成式AI所帶來的數據洩露風險,例如模型逆向攻擊,導致訓練數據曝光等實例,已令企業意識到安全能力可直接影響商業的可持續性。

日前,國務院總理李強在《政府工作報告》提到,要促進及規範數據跨境流動。吳爍認為數據跨境流通,的確能激活產業創新、為政府治理提供新工具,以及催生全新商業模式等好處。

聯邦學習較安全惟成本高

從業界角度來看,吳爍表示,現時仍面臨若干實際挑戰。各地政策和規定存在差異,數據分類標準、審批流程未有統一,對企業而言合規成本較高。在技術層面,如何保障跨境流通時不丟失數據主權,是不少企業重點關注問題。聯邦學習(Federated Learning)等機器學習技術,雖能有效保障數據安全,惟成本高昂及延遲時間較長,不適用於對時效性要求極高的應用場景。

吳爍認為,聯邦學習有其限制,但亦有不少實際案例。他舉例,內地某三甲醫院與12間基層醫療機構,合作構建糖尿病併發症預測模型。這些機構的原始數據,全程都留存在本地,透過加密方式共享及更新模型參數。

採訪、撰文:周泳彤

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們