You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

DeepSeek改寫AI業遊戲規則(車品覺)

By on February 12, 2025

本文作者車品覺,為港交所獨立非執行董事、香港基因組中心董事、香港大學中國商學院客席助理教授,為《信報》撰寫專欄「全民大數據」

自1月20日DeepSeek發布新模型DeepSeek-R1以來,這間來自中國的人工智能(AI)創業公司,火速成為全球科技圈的焦點。英美主流媒體紛紛報道了DeepSeek的研究進展,高度評價其卓越性能。

自1月20日DeepSeek發布新模型DeepSeek-R1以來,這間創業公司火速成為全球科技圈的焦點。(中通社資料圖片)

外媒CNBC甚至發文稱,「DeepSeek-R1因其性能超越美國頂尖同類模型,且成本更低,算力消耗更少,引發了美國矽谷的恐慌。」更值得注意的是,超微(AMD)作為全球領先的晶片廠商,通過與DeepSeek合作,為AI推理帶來新的想像空間,並有望動搖「輝達〸OpenAI」主導的行業格局。業內掀起了關於DeepSeek如何打破算力需求「怪圈」的討論,1月24日輝達股價應聲下跌3%。

DeepSeek-R1在訓練階段,大規模使用強化學習技術,顯著提升了模型的推理能力。在數學、代碼、自然語言推理等任務上,其性能已媲美OpenAI o1的正式版。這一突破引發了海外AI圈的廣泛討論,輝達(Nvidia)高級研究科學家在社交媒體表示,「我們正身處一個歷史時刻,一家非美國公司正在延續OpenAI最初的使命:通過真正開放的前沿研究,賦能全人類。」Meta員工也在匿名社區爆料,「Meta的生成式人工智能團隊正陷入恐慌,工程師們正瘋狂拆解DeepSeek的奧秘。」

DeepSeek展現了更高的經濟效益和推理效率。DeepSeek-V3的總訓練成本僅為550萬美元左右,不到Llama 3.1 405B訓練成本十分之一。這一低成本高效益的模式,讓Meta等矽谷巨頭吃驚,也許會帶領整個行業改變,甚至更多針對特定用途的專業模型湧現,打破贏家通吃的市場格局。這引發了一場激烈辯論,主題是資源雄厚的美國人工智能企業,能否守住技術優勢。

DeepSeek-V3的總訓練成本僅為550萬美元左右,不到Llama 3.1 405B訓練成本十分之一。(中通社資料圖片)

有觀點認為,DeepSeek的低訓練成本預示着,AI大模型對算力投入的需求將大幅下降,這無疑將衝擊輝達的市場地位。業界關注到在有限硬件資源下,通過軟件優化,也能實現頂尖性能的能力,減少對高端圖像處理器(GPU)的依賴。

DeepSeek可能意味着,AI大模型的應用將逐步走向普惠,通過低成本高效率的模型訓練及推理優化,正在改寫AI行業的遊戲規則。其開源策略和創新能力,不僅讓矽谷巨頭感到壓力,也為全球AI行業帶來新想像空間。隨着DeepSeek的崛起,AI大模型的門檻正在降低,行業格局或將迎來新變革。而且筆者認為,DeepSeek的崛起僅是中國新生代人工智能的第一響。

更多車品覺文章:

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們