LSCM炮製發聲書 媲美真人 汪明荃林超英譚耀宗開腔訓練AI
原文刊於信報財經新聞「EJ Tech 創科鬥室」
身處資訊碎片化的時代,由名人授聲、人工智能(AI)生成的發聲書,或可提升大眾對閱讀的興趣。物流及供應鏈多元技術研發中心(LSCM)舉辦「名家×AI真人發聲書」項目,邀得藝人汪明荃、天文台前台長林超英及全國港澳研究會副會長譚耀宗親自錄音,讓他們讀出其著作的部分章節,再由LSCM自研AI發聲技術生成餘下部分。由於涉及版權問題,現時在LSCM網站上,僅可收聽三位名人的AI發聲書節錄版本。
LSCM在昨天的高峰會上,即場向來賓播放三本發聲書的部分內容,AI模擬效果與真人朗讀相比,的確相差無幾。汪明荃憶述,初時自己對技術並不十分了解,對其效果有一定懷疑。不過,當她聽到成品時,一方面認為相似度極高,另方面又擔憂引起安全問題。
事實上,三位嘉賓都一致對這項技術的安全性表達憂慮。譚耀宗坦言,擔心不法分子利用自己聲音及樣貌行騙。
錄音事後銷毀減安全疑慮
針對以上疑慮,LSCM研究及技術開發總監唐志鴻解釋,真人語言模型的確存在詐騙的風險。不過,這類技術開發成本甚高,對軟硬件亦有要求,相信不是任何人都能掌握得到。唐志鴻補充,本次項目所用的伺服器、數據庫等均受保護;項目所產生的數據模型,依照協議屬於授聲者本人;至於所錄製的真人聲音數據,項目完成後將會銷毀。
林超英笑談自己參加該項目,只為探究現時AI騙案的背後技術。當聽到由AI生成的聲音後大為驚訝,指AI甚至能還原自己講話時,別人難以察覺的潮州口音。他又稱,聽書與閱讀相比,有助加深讀者對書本的記憶,或是一個好的發展方向。
銳意研發補粵語數據不足
唐志鴻解釋,三位嘉賓的錄音時間,介乎二至三小時之間。錄製時間愈長,所捕捉到的發音特點就愈細緻。
翻閱LSCM提供資料,坊間廣東話發聲書不多,相關產品或工具,大多圍繞英文及歐洲各國語言。中心有見及此,決心研發這項技術。研發廣東話「文字轉語音」技術的難點,在於缺乏該語言的模型數據。為解決這一問題,LSCM聘請一位語音演員,以其所朗讀內容製作數據集,並將之用於研發可捕捉語音風格的系統,形成效果更加自然的聲音模型,便可以製作出更具個人特色的發聲書。