阿里開源AI模型|手機適用 可圖文影音輸入 設男女聲解答
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
自中國人工智能(AI)模型DeepSeek面世之後,內地大型語言模型競爭持續激烈。阿里巴巴(09988)昨天在Hugging Face及GitHub等軟件平台,開源首個端對端多模態AI模型Qwen2.5-Omni-7B,可供處理文字、圖像、音訊及視訊在內的輸入,同時產生即時文字及自然語音回應。模型可透過Qwen Chat及阿里雲開源社群ModelScope存取,亦可安裝在手機等邊緣設備上。
懂得導航 總結文章內容等
Qwen2.5-Omni-7B以緊湊的7B參數設計,並採用Thinker-Talker等創新架構,可以把文本生成及語音合成分開,最大限度地減少不同模型的干擾,讓開發人員設計靈活、經濟高效的AI代理,尤其是智能語音應用程式。從示範影片可見,新模型內建兩把聲音,分別是女聲的Cherry及男聲的Ethan。用戶以手機配合語音發問時,可總結文章內容、計算手寫方程式、指導下廚、環境導航,甚至分析結他樂譜等。
阿里新模型當中的Omni,來自拉丁語單字Omnis,意為全部、一切或全方位。在多模態融合任務OmniBench等評測中,Qwen2.5-Omni以56.1分刷新業界紀錄,遠超Google Gemini-1.5-Pro的42.9分,表現冠絕同類AI模型。
翻查資料,阿里雲在過去幾年,已開源超過200個生成式人工智能(GenAI)模型,讓開發人員修改及重新分發軟件。
Qwen2.5-Omni近人類感官
阿里雲去年9月及今年1月先後發布Qwen2.5及Qwen2.5-Max,在Chatbot Arena表現排名第七,媲美其他頂級自研大型語言模型。他們近日開源Qwen2.5-VL及Qwen2.5-1M,以增強視覺理解及長上下文輸入處理。
簡單而言,Qwen2.5-Omni以接近人類多感官方式,認知世界並與之即時交互,更能透過音訊視訊辨識情緒,在複雜的任務作出明智決策。
美國媒體CNBC報道,阿里巴巴堅定地推行AI策略,例如上月宣布未來3年,向雲端運算及AI智能基建投資530億美元(約4134億港元),超越過去10年在該領域的投入。
至於內地其他科企巨頭方面,百度(09888)上周發布文心大模型4.5及X1,其中大模型4.5是一款多模態基礎模型,可同時理解文字、圖像、聲音與影片內容;文心大模型X1為一款深度思考推理模型,同時具備多模態能力,標榜使用成本僅為DeepSeek- R1的一半。
支持EJ Tech

