Votee AI|粵語AI大模型 港府採用 初創Votee AI蒐10年數據開發
原文刊於信報財經新聞「EJ Tech 創科鬥室」
廣東話博大精深,保留不少古漢語特徵,其聲調複雜之餘,亦有不少獨特俚語,例如「吊吊揈」、「虢礫緙嘞」(粵音:撠溺卡勒)等詞語,港人識聽識講卻未必個個識寫。數碼港培育人工智能(AI)初創Votee AI利用過去10年積累的數據,研發一款廣東話大型語言模型(LLM),產品獲本地多間銀行及生產力促進局採用,並為政府部門提供AI聊天機械人服務。

遣詞造句符合港人習慣
Votee AI技術總監陳豪傑表示,公司研發的廣東話LLM模型,設有個人及企業兩個版本。團隊可根據客戶具體業務,結合其內部資料、提供客製化服務。主打個人的Community Version為開源版本,相關程式碼及數據已上傳至AI協作平台Hugging Face。
從現場示範可見,Votee AI聊天機械人反應速度不錯,遣詞造句符合港人習慣。陳豪傑指出,在使用輝達(Nvidia)RTX A4500繪圖處理器(GPU)情況下,運算兩次對話大約耗時25秒,快過人眼的閱讀速度。
談到開發過程,陳豪傑稱,初時大家通常會用檢索增強(RAG)技術。即結合AI和數據庫搜尋的技術,在生成回答時即時檢索相關資訊。現時不少開發者都選擇為模型微調,但形容這種方法,「問題在於最多只能改動LLM的5%左右,通常甚至只有1%。」

陳豪傑坦言,團隊經歷一番掙扎後,最終選擇基於Meta開源模型Llama,進行持續預訓練(Continual Pre-Training),他強調,Llama本身不具備廣東話能力,團隊相當於「所有嘢都要修改」。
即時翻譯準確率逾九成
要訓練大模型,採用大量及準確的數據是關鍵,陳豪傑說,這正是團隊遇到的技術挑戰之一。數據來源可以歸納為三類,一是俗語和網絡流行用語,第二是書面語,最後則是實際對話。他認為,廣東話屬於「資源稀缺型語言」。以維基百科文章為例,英文約有250萬篇文章,廣東話文章僅有9000篇左右。

所幸Votee AI在過去10年間,一直從事市場研究、社群聆聽(Social Listening)等業務。過程中收集大量廣東話相關數據,有豐富資源。同時,有本地語言學系教授,以及粵語辭典計劃《粵典》團隊等支援大模型開發。
早前,團隊為虛擬經濟博覽及會議提供AI翻譯服務。陳豪傑憶述,當時有不少內地來賓到場,團隊提供的廣東話翻譯服務,準確率已超過九成。他表示,根據自己之前了解,坊間類似模型準確率在85%左右。現時隨着LLM不斷升級,相信90%將成為平均水準。
採訪、撰文:周泳彤
相關文章:Votee AI|擬攻冷門語 拓東南亞非洲粵語AI大模型
想知道什麼是 Fine-Tuning?:深入了解Fine-Tuning
支持EJ Tech


Related Posts
Latest News
-
AI趨勢|OpenAI多地推AI代理工具Operator
聊天機械人ChatGPT開發商OpenAI在社交平台發文表示,正在向澳洲、巴西、加拿大、印度、日本、新加坡、南韓、英國等地的ChatGPT Pro用戶推出人工智能(AI)代理工具「Operator」,可以代表用戶執行任務。
- Posted February 21, 2025
- 0
-
AI大戰丨OpenAI擬下周推GPT-4.5 GPT-5或5月登場
美國傳媒報道,OpenAI將最快下周公布其最新人工智能(AI)模型GPT-4.5,而GPT-5則有望於5月下旬發布。更新後的GPT-5將對ChatGPT的使用方式進行重大改進,統一OpenAI的o系列和GPT系列模型,減少使用者選擇模型的困惑。
- Posted February 21, 2025
- 0
-
AI Pin|襟章策略失利 新星初創被HP收購
美國科技巨企惠普(HP)擬斥資1.16億美元(約9億港元),收購當地初創Humane大部分股權,接收對方多數員工、人工智能(AI)平台Cosmos,以及超過300項專利權,有關交易預計本月底完成。
- Posted February 21, 2025
- 0
-
全新視角觀賞熊貓寶寶生活(林國誠)
「熊貓TV」正式進入第二階段,新增設置於「大熊貓之旅」的6支鏡頭並引入多項嶄新功能,讓市民能以全新視角、多角度、更自由的方式觀賞「盈盈」、「樂樂」,以及牠們的龍鳳胎寶寶「家姐」與「細佬」的生活點滴。隨着這些升級功能的推出,熊貓熱潮勢必再掀高潮!
- Posted February 21, 2025
- 0
-
進軍電玩界|微軟推Muse動作模型 生成式AI闖遊戲開發
利用生成式人工智能(Generative AI),有助改革創新工業發展。微軟(Microsoft)研究團隊介紹一款名為Muse的「世界及人類動作模型」(WHAM),有關成果由微軟研究院旗下「遊戲智能」、「可教學AI體驗」兩組人員,跟英國劍橋遊戲開發工作室Ninja Theory合作完成。
- Posted February 21, 2025
- 0
-
理大夥中移香港拓6G應用
香港理工大學與中國移動(香港)創新研究院達成合作協議,並簽署合作備忘錄及合作項目協議。校長滕錦光(後排左二)稱,今次合作充分發揮學術界與業界的協同優勢,雙方將聚焦戰略性的科技領域,包括人工智能(AI)、6G及Web3等範疇的技術革新及應用。
- Posted February 21, 2025
- 0
-
Apple新機|iPhone 16e今預訂 入門版售5099元
Apple 發布最新款智能手機iPhone 16e,搭載最新一代A18晶片及4核心圖像處理器(GPU),可流暢運行Apple Intelligence,例如AI寫作工具、Genmoji、Image Playground等人工智能(AI)功能。
- Posted February 21, 2025
- 0
EJ Tech Video
POPULAR POSTS
-
Grok 3|馬斯克「最醒」AI模型登場 Grok 3香港可用 月費170元
-
點語成丹青|港首辦成語變畫作AI比賽 120間中小學參與 收逾千作品
-
EzyGreenPak|環保袋減廢遇熱水即溶 港EzyGreenPak專利 今屆渣馬採用
-
EzyGreenPak|自家平台監控碳排 助家族工廠轉型
-
DeepSeek|據報新增互聯網訊息服務
-
AI大戰|馬斯克聊天機械人Grok 3亮相 稱性能勝DeepSeek
-
神經元記錄|哈佛研CMOS矽晶片 記錄神經細胞活動
-
X危機?|馬斯克旗下X傳以3432億估值洽融資
-
AI「炒散」|AI模型接編程散工 獨立開發力遜人類
-
AI研究院|理大成立「人工智能+研究院」