DeepSeek|蒸餾技術降本增效 企業性價比之選 補大模型不足
原文刊於信報財經新聞「EJ Tech 創科鬥室」
內地人工智能(AI)初創「深度求索」(DeepSeek),其低訓練成本的AI模型橫空出世後,一度觸發全球科企股震盪。易方資本創辦人及投資總監王華強調,DeepSeek的做法不應被完全視為「內捲式」競爭,更認為與ChatGPT等大模型相比,相信不會形成分庭抗禮的局面,而是各走不同跑道。
「AI教母」s1不輸對手
自DeepSeek橫空出世後,「AI教母」李飛飛團隊緊隨其後,發布以不到50美元(約390港元)訓練的AI模型s1。這模型同樣基於「蒸餾」技術,再結合模型微調,聲稱推理能力不輸OpenAI o1及DeepSeek-R1模型。
所謂「蒸餾」技術(Distillation),是一種把大型、複雜模型的知識,壓縮並轉移到較小模型的方法。此舉優勢是保持性能的同時,降低對計算資源的需求。易方資本AI研發顧問王遨研以s1為例,對這技術作進一步解釋。
王遨研介紹,s1屬於集三家模型之大成:阿里巴巴(09988)旗下通義千問、Anthropic旗下Claude及Google旗下Gemini模型。李飛飛團隊利用Claude整理問題列表,即用於訓練模型的合成數據集。下一步,透過Gemini模型回答問題,提取其思考過程。隨後,Claude會把Gemini的回答,與正確答案對比並評分。最後,把上述訓練的結果,用於微調s1底層的通義千問模型。

左圖:王華認為,DeepSeek創辦人梁文鋒具扎實專業能力,有助工程師下屬信服。(盧詠賢攝) 右圖:王遨研表示,DeepSeek服務價格較低,在處理大量數據時,具備降本增效的優勢。(盧詠賢攝)
易方資本:各有應用場景
針對坊間有關DeepSeek「抄襲」、「內捲」等爭議,王華指出,DeepSeek使用的技術並非首創,之前有不少先例。他直言,DeepSeek之類「小模型」的出現,並非旨在取代大模型,而是新創一條跑道,各有應用的場景。
王遨研補充,「蒸餾」的實際價值,在於降本增效。當任務精確度要求不高時,模型的參數量就不那麼重要。王遨研稱,小模型是一個良好的起點,在性能有限的終端設備上,有助提升模型的表現。
談到普通用戶的日常需求,王遨研重申,DeepSeek、ChatGPT及其他模型,實際表現相距不遠。惟程式員等專業人士,ChatGPT能夠將問題,拆解為小任務並逐步解決,效果略勝一籌。至於企業層面,DeepSeek服務價格較低,當需要處理大量數據時,降本增效能力尤其突出。
採訪、撰文:周泳彤
相關文章:DeepSeek|梁文鋒工程師出身 利團隊溝通管理
支持EJ Tech

