Votee AI|粵語AI大模型 港府採用 初創Votee AI蒐10年數據開發
原文刊於信報財經新聞「EJ Tech 創科鬥室」
廣東話博大精深,保留不少古漢語特徵,其聲調複雜之餘,亦有不少獨特俚語,例如「吊吊揈」、「虢礫緙嘞」(粵音:撠溺卡勒)等詞語,港人識聽識講卻未必個個識寫。數碼港培育人工智能(AI)初創Votee AI利用過去10年積累的數據,研發一款廣東話大型語言模型(LLM),產品獲本地多間銀行及生產力促進局採用,並為政府部門提供AI聊天機械人服務。

遣詞造句符合港人習慣
Votee AI技術總監陳豪傑表示,公司研發的廣東話LLM模型,設有個人及企業兩個版本。團隊可根據客戶具體業務,結合其內部資料、提供客製化服務。主打個人的Community Version為開源版本,相關程式碼及數據已上傳至AI協作平台Hugging Face。
從現場示範可見,Votee AI聊天機械人反應速度不錯,遣詞造句符合港人習慣。陳豪傑指出,在使用輝達(Nvidia)RTX A4500繪圖處理器(GPU)情況下,運算兩次對話大約耗時25秒,快過人眼的閱讀速度。
談到開發過程,陳豪傑稱,初時大家通常會用檢索增強(RAG)技術。即結合AI和數據庫搜尋的技術,在生成回答時即時檢索相關資訊。現時不少開發者都選擇為模型微調,但形容這種方法,「問題在於最多只能改動LLM的5%左右,通常甚至只有1%。」

陳豪傑坦言,團隊經歷一番掙扎後,最終選擇基於Meta開源模型Llama,進行持續預訓練(Continual Pre-Training),他強調,Llama本身不具備廣東話能力,團隊相當於「所有嘢都要修改」。
即時翻譯準確率逾九成
要訓練大模型,採用大量及準確的數據是關鍵,陳豪傑說,這正是團隊遇到的技術挑戰之一。數據來源可以歸納為三類,一是俗語和網絡流行用語,第二是書面語,最後則是實際對話。他認為,廣東話屬於「資源稀缺型語言」。以維基百科文章為例,英文約有250萬篇文章,廣東話文章僅有9000篇左右。

所幸Votee AI在過去10年間,一直從事市場研究、社群聆聽(Social Listening)等業務。過程中收集大量廣東話相關數據,有豐富資源。同時,有本地語言學系教授,以及粵語辭典計劃《粵典》團隊等支援大模型開發。
早前,團隊為虛擬經濟博覽及會議提供AI翻譯服務。陳豪傑憶述,當時有不少內地來賓到場,團隊提供的廣東話翻譯服務,準確率已超過九成。他表示,根據自己之前了解,坊間類似模型準確率在85%左右。現時隨着LLM不斷升級,相信90%將成為平均水準。
採訪、撰文:周泳彤
相關文章:Votee AI|擬攻冷門語 拓東南亞非洲粵語AI大模型
想知道什麼是 Fine-Tuning?:深入了解Fine-Tuning
支持EJ Tech


Related Posts
Latest News
-
實踐可持續建築減廢方案(鄧淑明博士)
據發展局局長甯漢豪指出,近年香港的公營部門及私營公司,每年建築工程費用總開支達到3000億元,可為業界提供實踐可持續建築的黃金機會,把「ESG(環境、社會及管治)原則」納入大型建築項目,筆者深表認同。
- Posted April 17, 2025
- 0
-
數碼科技體驗館|數碼港17間園區企業展成果
數碼港「數碼科技體驗館」正式開幕,即日起向企業及公眾開放。當中設有「提升效率」、「安全」、「互動體驗區」三大展區,展示人工智能(AI)、區塊鏈及Web3.0等最新前沿科技方案,涵蓋教育、醫療、智慧城市等領域的應用。
- Posted April 17, 2025
- 0
-
DeepMind|聘專家安全開發AGI
科技巨企谷歌(Google)旗下人工智能(AI)研究團隊DeepMind,在英國倫敦公開招募「後AGI」研究科學家,研究通用人工智能(AGI)、超級人工智能(ASI)及機器意識,以至AGI對人類社會基礎的影響。
- Posted April 17, 2025
- 0
-
離心砲|美初創研建離心炮發射衞星
美國加州初創SpinLaunch主力研發巨型離心砲,計劃明年起發射數百顆微型衞星,在近地軌道(LEO)部署通訊系統Meridian Space。
- Posted April 17, 2025
- 0
-
嘲諷科技文化|矽谷過路處按鈕被駭遭惡搞
美國加州三藩市灣區等矽谷一帶,上周末起相繼有人發現行人過路處按鈕被駭,植入多條以人工智能(AI)合成的模仿語音,聲稱自己為Meta行政總裁朱克伯格、億萬富豪馬斯克,以嘲諷科技文化、AI及企業過度擴張等行為。
- Posted April 17, 2025
- 0
-
人形機械人|眾擎PM01機械人售價19萬
世界級網紅「甲亢哥」(IShowSpeed)早前訪華,於深圳與「眾擎PM01」機械人共跳「斧頭舞」。最近這款人形機械人量產,在眾擎京東自營旗艦店上架,售價18.8萬元人民幣,預計到今年6月底才有貨。
- Posted April 17, 2025
- 0
-
AI代勞損信任|哈佛教授提醒 易遭識破損信任 企業CEO與員工交流 忌以AI代勞
最新一期《哈佛商業評論》刊登文章,探討企業高層及行政總裁(CEO)使用人工智能(AI)工具代筆,或引發對內部信任的損害。
- Posted April 17, 2025
- 0