微軟AI聽3秒錄音扮人聲 推語言模型VALL-E 可合成任何說話
原文刊於信報財經新聞「StartupBeat創科鬥室」
人工智能(AI)發展一日千里,微軟近日針對文本到語音合成(Text-to-Speech, TTS)技術,發表「神經編解碼器語言模型」VALL-E,只要向AI提供3秒鐘錄音,便可以準確模擬當事人的聲音。VALL-E若學會一種特定聲音,就能合成對方任何說話,甚至模仿語氣及說話情景。
新模型跟操控聲波等常見做法不同,VALL-E所具備的語音合成能力,源於Meta Platforms去年10月推出的EnCodec技術,其巧妙之處在於系統能分析一個人的聲音,再利用AI訓練數據計算出到底這句話該如何發聲,再產生相應的音訊編解碼器(Audio Codec)。
能模仿聲線語氣
微軟在VALL-E示範網站上列出數十個AI模型的語音例子。介面左邊的Text為英文段落,Speaker Prompt及Ground Truth兩項,代表原有的人聲錄音。前者只有數秒長度,用作訓練VALL-E系統;後者按照Text字眼原文朗讀。此外,Baseline為傳統TTS合成例子,VALL-E代表以新模型輸出,方便網民聆聽兩者分別。
蘋果電子書增旁白
除了保留說話者的聲線特色及語氣,VALL-E更可模仿錄音樣本的「聲學環境」,例如訓練錄音來自電話時,AI合成出來的語音效果,亦模擬了講電話的感覺。不過,微軟擔心被人濫用技術,甚至用來冒充他人身份,故不設VALL-E代碼供人試用。
話分兩頭,蘋果公司上周也更新Apple Books服務,在部分精選的英文電子書,包括文學、歷史及女性小說,推出AI數碼旁白功能,共有Jackson及Madison男女配音選擇,令有聲讀物的製作及發行更簡單。至於小說以外的電子書,則交由Mitchell及Helena兩把聲音負責。
愛爾蘭網站Research and Markets去年有報告指出,全球有聲讀物的市場規模,到2030年將達到350.5億美元(約2734億港元),複合年均增長率(CAGR)為26.4%。微軟亦對AI前景感到樂觀,新聞媒體Semafor引述知情人士稱,該企傳再投資AI美企OpenAI,金額達100億美元(約780億港元)。