阿里EMO模型的利與弊(葉文瀚博士)
阿里巴巴(09988)智能計算研究所上月發布生成式人工智能(Generative AI)模型EMO,引起全球廣泛關注。EMO是一款多語言模型,能夠根據輸入的照片及語音,生成逼真的表情動作,突破以往只能生成靜態影像的限制,為數碼媒體及虛擬內容生成帶來巨大創新。
為展示EMO的卓越能力,阿里巴巴特別在軟件代碼託管平台 GitHub分享多條演示影片,包括美企OpenAI旗下模型Sora生成的東京街頭人物片段,旨在彰顯其領先地位。
EMO使用超過250小時涵蓋演講、電影、歌唱表演等多種類型的談話影片加以訓練,令其語音編碼器及面部區域掩模(Mask)能夠確保生成的臉部動作與語音內容匹配。
簡單而言,EMO生成過程分為兩個主要階段:編碼階段和擴散階段。首先在編碼階段,EMO利用參考圖像和動態影格提取特徵,並使用預訓練的語音編碼器處理語音嵌入。在擴散階段,EMO利用面部區域掩模及多幀雜訊,藉此控制面部圖像的生成,確保輸出的短片動作流暢自然及表情豐富。
EMO模型具重要應用價值。在數碼媒體領域,它能令靜態插圖、卡通角色或虛擬人物擁有生動表情和口形動作,為動畫片、遊戲和網絡漫畫等作品製作帶來便利,並提升品質。此外,EMO模型也能應用於虛擬主播、虛擬助手等範疇,令這些數碼角色更逼真及富有情感。
在虛擬內容生成技術上,EMO模型的應用非常廣泛。舉例來說,對於要生成虛擬對話的語音助手或虛擬情景演示的教育應用,EMO模型能為這些場景的虛擬角色賦予生動表情和口形動作,加強用戶體驗的真實感及情感連結。
然而,EMO模型亦帶來潛在風險和挑戰。隨着技術不斷發展,模型生成的影片及聲音可能變得愈來愈真假難分,這或對社會產生不良影響。因此,必須加強監管,以法律規範,確保生成技術合法及符合道德。