You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

阿里EMO模型的利與弊(葉文瀚博士)

By on March 7, 2024

本文作者葉文瀚博士,為亞洲行銷科技協會主席,為《信報》撰寫專欄「科網人語」。

阿里巴巴(09988)智能計算研究所上月發布生成式人工智能(Generative AI)模型EMO,引起全球廣泛關注。EMO是一款多語言模型,能夠根據輸入的照片及語音,生成逼真的表情動作,突破以往只能生成靜態影像的限制,為數碼媒體及虛擬內容生成帶來巨大創新。

EMO
阿里巴巴智能計算研究所上月發布生成式人工智能模型EMO,引起全球廣泛關注。(法新社資料圖片)

為展示EMO的卓越能力,阿里巴巴特別在軟件代碼託管平台 GitHub分享多條演示影片,包括美企OpenAI旗下模型Sora生成的東京街頭人物片段,旨在彰顯其領先地位。

EMO使用超過250小時涵蓋演講、電影、歌唱表演等多種類型的談話影片加以訓練,令其語音編碼器及面部區域掩模(Mask)能夠確保生成的臉部動作與語音內容匹配。

簡單而言,EMO生成過程分為兩個主要階段:編碼階段和擴散階段。首先在編碼階段,EMO利用參考圖像和動態影格提取特徵,並使用預訓練的語音編碼器處理語音嵌入。在擴散階段,EMO利用面部區域掩模及多幀雜訊,藉此控制面部圖像的生成,確保輸出的短片動作流暢自然及表情豐富。

EMO模型具重要應用價值。在數碼媒體領域,它能令靜態插圖、卡通角色或虛擬人物擁有生動表情和口形動作,為動畫片、遊戲和網絡漫畫等作品製作帶來便利,並提升品質。此外,EMO模型也能應用於虛擬主播、虛擬助手等範疇,令這些數碼角色更逼真及富有情感。

在虛擬內容生成技術上,EMO模型的應用非常廣泛。舉例來說,對於要生成虛擬對話的語音助手或虛擬情景演示的教育應用,EMO模型能為這些場景的虛擬角色賦予生動表情和口形動作,加強用戶體驗的真實感及情感連結。

然而,EMO模型亦帶來潛在風險和挑戰。隨着技術不斷發展,模型生成的影片及聲音可能變得愈來愈真假難分,這或對社會產生不良影響。因此,必須加強監管,以法律規範,確保生成技術合法及符合道德。

更多葉文瀚博士文章:

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們