Don't Miss

Votee AI｜粵語AI大模型港府採用初創Votee AI蒐10年數據開發

By 信報財經新聞 on August 19, 2024

原文刊於信報財經新聞「EJ Tech 創科鬥室」

廣東話博大精深，保留不少古漢語特徵，其聲調複雜之餘，亦有不少獨特俚語，例如「吊吊揈」、「虢礫緙嘞」（粵音：撠溺卡勒）等詞語，港人識聽識講卻未必個個識寫。數碼港培育人工智能（AI）初創Votee AI利用過去10年積累的數據，研發一款廣東話大型語言模型（LLM），產品獲本地多間銀行及生產力促進局採用，並為政府部門提供AI聊天機械人服務。

Votee AI, 廣東話, 俚語 — 廣東話聲調複雜之餘，亦收錄不少獨特俚語。（黃勁璋攝）

遣詞造句符合港人習慣

Votee AI技術總監陳豪傑表示，公司研發的廣東話LLM模型，設有個人及企業兩個版本。團隊可根據客戶具體業務，結合其內部資料、提供客製化服務。主打個人的Community Version為開源版本，相關程式碼及數據已上傳至AI協作平台Hugging Face。

從現場示範可見，Votee AI聊天機械人反應速度不錯，遣詞造句符合港人習慣。陳豪傑指出，在使用輝達（Nvidia）RTX A4500繪圖處理器（GPU）情況下，運算兩次對話大約耗時25秒，快過人眼的閱讀速度。

談到開發過程，陳豪傑稱，初時大家通常會用檢索增強（RAG）技術。即結合AI和數據庫搜尋的技術，在生成回答時即時檢索相關資訊。現時不少開發者都選擇為模型微調，但形容這種方法，「問題在於最多只能改動LLM的5%左右，通常甚至只有1%。」

Votee AI, 陳豪傑, 丁柏生, Meta, Llama, 廣東話 — 陳豪傑（右）稱，團隊採用Meta開源模型Llama，但強調「所有嘢都要改」；旁為Votee AI行政總裁丁柏生。（黃勁璋攝）

陳豪傑坦言，團隊經歷一番掙扎後，最終選擇基於Meta開源模型Llama，進行持續預訓練（Continual Pre-Training），他強調，Llama本身不具備廣東話能力，團隊相當於「所有嘢都要修改」。

即時翻譯準確率逾九成

要訓練大模型，採用大量及準確的數據是關鍵，陳豪傑說，這正是團隊遇到的技術挑戰之一。數據來源可以歸納為三類，一是俗語和網絡流行用語，第二是書面語，最後則是實際對話。他認為，廣東話屬於「資源稀缺型語言」。以維基百科文章為例，英文約有250萬篇文章，廣東話文章僅有9000篇左右。

Votee AI, 陳豪傑, 丁柏生, 維基百科, 廣東話 — 陳豪傑（右）以「維基百科」文章，廣東話屬於「資源稀缺型語言」；旁為Votee AI行政總裁丁柏生。（黃勁璋攝）

所幸Votee AI在過去10年間，一直從事市場研究、社群聆聽（Social Listening）等業務。過程中收集大量廣東話相關數據，有豐富資源。同時，有本地語言學系教授，以及粵語辭典計劃《粵典》團隊等支援大模型開發。

早前，團隊為虛擬經濟博覽及會議提供AI翻譯服務。陳豪傑憶述，當時有不少內地來賓到場，團隊提供的廣東話翻譯服務，準確率已超過九成。他表示，根據自己之前了解，坊間類似模型準確率在85%左右。現時隨着LLM不斷升級，相信90%將成為平均水準。

採訪、撰文：周泳彤

想知道什麼是 Fine-Tuning？：深入了解Fine-Tuning

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI feature Llama LLM Meta Votee AI 丁柏生廣東話陳豪傑

Tweet

Pin It

Related Posts

數碼科技體驗館｜數碼港17間園區企業展成果

數碼科技體驗館｜數碼港17間園區企業展成果

DeepMind｜聘專家安全開發AGI

DeepMind｜聘專家安全開發AGI

嘲諷科技文化｜矽谷過路處按鈕被駭遭惡搞

嘲諷科技文化｜矽谷過路處按鈕被駭遭惡搞

AI代勞損信任｜哈佛教授提醒易遭識破損信任企業CEO與員工交流忌以AI代勞

AI代勞損信任｜哈佛教授提醒易遭識破損信任企業CEO與員工交流忌以AI代勞

Latest News

實踐可持續建築減廢方案（鄧淑明博士）
據發展局局長甯漢豪指出，近年香港的公營部門及私營公司，每年建築工程費用總開支達到3000億元，可為業界提供實踐可持續建築的黃金機會，把「ESG（環境、社會及管治）原則」納入大型建築項目，筆者深表認同。

Posted April 17, 2025

0

數碼科技體驗館｜數碼港17間園區企業展成果
數碼港「數碼科技體驗館」正式開幕，即日起向企業及公眾開放。當中設有「提升效率」、「安全」、「互動體驗區」三大展區，展示人工智能（AI）、區塊鏈及Web3.0等最新前沿科技方案，涵蓋教育、醫療、智慧城市等領域的應用。

Posted April 17, 2025

0

DeepMind｜聘專家安全開發AGI
科技巨企谷歌（Google）旗下人工智能（AI）研究團隊DeepMind，在英國倫敦公開招募「後AGI」研究科學家，研究通用人工智能（AGI）、超級人工智能（ASI）及機器意識，以至AGI對人類社會基礎的影響。

Posted April 17, 2025

0

離心砲｜美初創研建離心炮發射衞星
美國加州初創SpinLaunch主力研發巨型離心砲，計劃明年起發射數百顆微型衞星，在近地軌道（LEO）部署通訊系統Meridian Space。

Posted April 17, 2025

0

嘲諷科技文化｜矽谷過路處按鈕被駭遭惡搞
美國加州三藩市灣區等矽谷一帶，上周末起相繼有人發現行人過路處按鈕被駭，植入多條以人工智能（AI）合成的模仿語音，聲稱自己為Meta行政總裁朱克伯格、億萬富豪馬斯克，以嘲諷科技文化、AI及企業過度擴張等行為。

Posted April 17, 2025

0

人形機械人｜眾擎PM01機械人售價19萬
世界級網紅「甲亢哥」（IShowSpeed）早前訪華，於深圳與「眾擎PM01」機械人共跳「斧頭舞」。最近這款人形機械人量產，在眾擎京東自營旗艦店上架，售價18.8萬元人民幣，預計到今年6月底才有貨。

Posted April 17, 2025

0

AI代勞損信任｜哈佛教授提醒易遭識破損信任企業CEO與員工交流忌以AI代勞
最新一期《哈佛商業評論》刊登文章，探討企業高層及行政總裁（CEO）使用人工智能（AI）工具代筆，或引發對內部信任的損害。

Posted April 17, 2025

0

POPULAR POSTS

假AI？｜美電商菲律賓聘真人扮AI

貿易通｜AI偵破深偽準確率98% 圖像影片換臉變聲無所遁形

 GitHub｜誤封中國斷網19小時

 吉卜力漫畫化掀版權爭議（方保僑）

Meta壟斷案｜正式開審朱克伯格作供

 AI電影節｜35部片入圍周六科大放映知名導演編劇雲集

 嘲諷科技文化｜矽谷過路處按鈕被駭遭惡搞

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

Votee AI｜粵語AI大模型 港府採用 初創Votee AI蒐10年數據開發

遣詞造句符合港人習慣

即時翻譯準確率逾九成

相關文章：Votee AI｜擬攻冷門語 拓東南亞非洲粵語AI大模型

想知道什麼是 Fine-Tuning？：深入了解Fine-Tuning

支持EJ Tech

Related Posts

Latest News

POPULAR POSTS

成為 EJ Tech 會員

Votee AI｜粵語AI大模型港府採用初創Votee AI蒐10年數據開發

相關文章：Votee AI｜擬攻冷門語拓東南亞非洲粵語 AI大模型