You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

楊紅霞|倡模型融合省九成算力 訓練以小見大 降AI開發門檻

By on March 31, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech——智情筆報

內地人工智能(AI)科企DeepSeek(DS)崛起後,其低成本、高效能的特性,為業界帶來不少啟發。近期加入香港理工大學的知名學者楊紅霞,現擔任計算機及數學科學學院副院長(環球事務),同時兼任電子計算學系教授,她提出「模型融合」(Model Fusion)概念,開展基於「模型的模型」(Model over models)項目──Co-GenAI。

楊紅霞指出,現時的機器學習依賴對目標函數優化,需要大量數據、圖像處理器(GPU)及專業人員等資源。她認為,基於數據的模型(Model over data)雖是目前主流手法,卻不是唯一途徑。以融合小模型的方式訓練大模型,或能降低AI開發門檻。

楊紅霞認為,在現有專業模型上構建「融合」模型,有助打破對高端顯卡的依賴。(黃勁璋攝)

楊紅霞及其團隊的論文顯示,透過創新的訓練流程,以低資源方式訓練的「緊湊型」AI模型,亦能具備相當有競爭力的推理能力。團隊研發的純文本語言模型InfiR-1B-Base和InfiR-1B-Instruct,以及多模態模型InfiR-VL-1.6B,能力均達到目前先進水平。

擺脫對高端顯卡依賴

正如內地AI專家李開復所言,在美國晶片禁令下,反而催生出創新。楊紅霞相信,這種在現有專業模型之上構建「融合」模型的方式,毋須超大規模的集中計算資源,有助打破對高端顯卡的依賴。

楊紅霞表示,以融合小模型方式訓練大模型,或能降低AI開發門檻。(黃勁璋攝)

具體而言,訓練參數為7B的模型,只需要64至128張顯卡;100B級別的大模型,更是僅需512至1024張顯卡,能節省超過90%的資源。這樣一來,即使普通的計算資源,亦能滿足AI開發需求。

楊紅霞回顧,直接偏好優化(DPO)是去年主流的AI模型訓練方式。這方法又可稱為離線強化學習,被不少科企用於避免構建「獎勵模型」(Reward Model)。這是因為強化學習過程中,用於評估AI生成內容質素的獎勵模型,是一大技術難關。她形容:「整個行業也好,學術界也好,只有兩間公司做對了(獎勵模型),一個是Anthropic,一個是OpenAI。」

DeepSeek去年底推出「群體相對策略優化」(GRPO)演算法,以抽樣方法替代獎勵模型,成為一種近似版本的在線強化學習。然而,楊紅霞認為GRPO並不是DeepSeek最關鍵的技術突破,其R1模型的訓練方式,更值得科技業界作參考。

DS訓練方式值得參考

她進一步解釋,傳統大語言模型的對齊(Alignment)階段,通常包含一次監督微調和強化學習。R1模型則經過兩輪訓練,第一階段以60萬涉及程式碼、數學的數據加以訓練,重點提升推理能力。第二階段則採用20萬通用數據,增強它在更廣泛領域的適用性。

採訪、撰文:周泳彤

相關文章:

楊紅霞|籲港府支援基建 配合人才優勢

獎勵模型(Reward Model)

直接偏好優化(DPO)

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們