Don't Miss

Votee AI｜粵語AI大模型港府採用初創Votee AI蒐10年數據開發

By 信報財經新聞 on August 19, 2024

原文刊於信報財經新聞「EJ Tech 創科鬥室」

廣東話博大精深，保留不少古漢語特徵，其聲調複雜之餘，亦有不少獨特俚語，例如「吊吊揈」、「虢礫緙嘞」（粵音：撠溺卡勒）等詞語，港人識聽識講卻未必個個識寫。數碼港培育人工智能（AI）初創Votee AI利用過去10年積累的數據，研發一款廣東話大型語言模型（LLM），產品獲本地多間銀行及生產力促進局採用，並為政府部門提供AI聊天機械人服務。

Votee AI, 廣東話, 俚語 — 廣東話聲調複雜之餘，亦收錄不少獨特俚語。（黃勁璋攝）

遣詞造句符合港人習慣

Votee AI技術總監陳豪傑表示，公司研發的廣東話LLM模型，設有個人及企業兩個版本。團隊可根據客戶具體業務，結合其內部資料、提供客製化服務。主打個人的Community Version為開源版本，相關程式碼及數據已上傳至AI協作平台Hugging Face。

從現場示範可見，Votee AI聊天機械人反應速度不錯，遣詞造句符合港人習慣。陳豪傑指出，在使用輝達（Nvidia）RTX A4500繪圖處理器（GPU）情況下，運算兩次對話大約耗時25秒，快過人眼的閱讀速度。

談到開發過程，陳豪傑稱，初時大家通常會用檢索增強（RAG）技術。即結合AI和數據庫搜尋的技術，在生成回答時即時檢索相關資訊。現時不少開發者都選擇為模型微調，但形容這種方法，「問題在於最多只能改動LLM的5%左右，通常甚至只有1%。」

Votee AI, 陳豪傑, 丁柏生, Meta, Llama, 廣東話 — 陳豪傑（右）稱，團隊採用Meta開源模型Llama，但強調「所有嘢都要改」；旁為Votee AI行政總裁丁柏生。（黃勁璋攝）

陳豪傑坦言，團隊經歷一番掙扎後，最終選擇基於Meta開源模型Llama，進行持續預訓練（Continual Pre-Training），他強調，Llama本身不具備廣東話能力，團隊相當於「所有嘢都要修改」。

即時翻譯準確率逾九成

要訓練大模型，採用大量及準確的數據是關鍵，陳豪傑說，這正是團隊遇到的技術挑戰之一。數據來源可以歸納為三類，一是俗語和網絡流行用語，第二是書面語，最後則是實際對話。他認為，廣東話屬於「資源稀缺型語言」。以維基百科文章為例，英文約有250萬篇文章，廣東話文章僅有9000篇左右。

Votee AI, 陳豪傑, 丁柏生, 維基百科, 廣東話 — 陳豪傑（右）以「維基百科」文章，廣東話屬於「資源稀缺型語言」；旁為Votee AI行政總裁丁柏生。（黃勁璋攝）

所幸Votee AI在過去10年間，一直從事市場研究、社群聆聽（Social Listening）等業務。過程中收集大量廣東話相關數據，有豐富資源。同時，有本地語言學系教授，以及粵語辭典計劃《粵典》團隊等支援大模型開發。

早前，團隊為虛擬經濟博覽及會議提供AI翻譯服務。陳豪傑憶述，當時有不少內地來賓到場，團隊提供的廣東話翻譯服務，準確率已超過九成。他表示，根據自己之前了解，坊間類似模型準確率在85%左右。現時隨着LLM不斷升級，相信90%將成為平均水準。

採訪、撰文：周泳彤

想知道什麼是 Fine-Tuning？：深入了解Fine-Tuning

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI feature Llama LLM Meta Votee AI 丁柏生廣東話陳豪傑

Tweet

Pin It

Related Posts

LLM人格評估｜理大新系統評估大模型人格

LLM人格評估｜理大新系統評估大模型人格

Deel｜平台助企業跨國實時支薪

Deel｜平台助企業跨國實時支薪

法律AI｜商湯夥中大研法律資訊AI

法律AI｜商湯夥中大研法律資訊AI

AI不當回應｜GPT-4.1建議用戶入侵賬號解悶

AI不當回應｜GPT-4.1建議用戶入侵賬號解悶

Latest News

高速網絡釋放電玩潛能（林國誠）
任天堂正式宣布全新一代遊戲主機Switch 2將於6月隆重登場，引發全球遊戲迷熱烈期待。作為繼承Switch王者地位的新世代掌機，Switch 2帶來更強畫質、更流暢操作，以及嶄新的網絡功能，讓遊戲體驗全面升級。

Posted April 25, 2025

0

LLM人格評估｜理大新系統評估大模型人格
香港理工大學工業及系統工程學系助理教授李力恒領導的團隊，近日研發一套名為「語言模型人格評估」的AI驅動系統，能透過語言分析對LLM人格特徵進行量化評估。

Posted April 25, 2025

0

Deel｜平台助企業跨國實時支薪
美國人力資源管理平台Deel發布多款人工智能（AI）驅動的產品套件，旨在改變企業僱用、管理和支付跨國團隊薪酬等工序，有助解決部門獨立運作而導致的低效問題，透過其一站式平台助企業跨國合規營運。

Posted April 25, 2025

0

法律AI｜商湯夥中大研法律資訊AI
本地人工智能（AI）軟件公司商湯（00020）與香港中文大學法律學院簽署合作備忘錄，雙方將基於商湯粵語大模型Sensechat共同開發法律資訊AI模型，並計劃開放予香港公眾使用。

Posted April 25, 2025

0

AI不當回應｜GPT-4.1建議用戶入侵賬號解悶
ChatGPT開發商OpenAI早前推出新一代人工智能（AI）模型GPT-4.1，惟未按慣例同步發布技術報告與安全評估。

Posted April 25, 2025

0

AI出題捱轟｜加州律師試 AI擬訂考題捱轟
美國加州律師公會近日公布，今年2月舉辦的新律師資格考試，引進了經由人工智能（AI）協助撰寫的題目。

Posted April 25, 2025

0

AI代理｜「AI為先企業」授權員工管智能代理重塑工作架構須靈活調配人機比例
微軟日前發表《2025年工作趨勢指數報告》，半數受訪本港企業領導層指出，正利用人工智能代理全面自動化工作流程或業務程序，其中客戶服務、市場推廣及產品開發，為AI投資的首要領域。

Posted April 25, 2025

0

POPULAR POSTS

AI作弊系統｜輟學生誓言欺騙一切 AI作弊系統吸4134萬

 AI編程｜奧巴馬：AI編程勝過七成專家

 應科院｜25年轉移1500項技術

 探索大灣區科技創新（湛家揚博士）

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

Votee AI｜粵語AI大模型 港府採用 初創Votee AI蒐10年數據開發

遣詞造句符合港人習慣

即時翻譯準確率逾九成

相關文章：Votee AI｜擬攻冷門語 拓東南亞非洲粵語AI大模型

想知道什麼是 Fine-Tuning？：深入了解Fine-Tuning

支持EJ Tech

Related Posts

Latest News

POPULAR POSTS

成為 EJ Tech 會員

Votee AI｜粵語AI大模型港府採用初創Votee AI蒐10年數據開發

相關文章：Votee AI｜擬攻冷門語拓東南亞非洲粵語 AI大模型