Vocofy AI建原聲模型 實現語障患者心願
原文刊於信報財經新聞「EJ Tech 創科鬥室」
人工智能(AI)擅長處理繁複任務,惟其機械化的回應模式及冰冷的演算法,往往讓人類難以感受真實的情感交流。香港中文大學電子工程學系教授李丹體驗甚深,他專注深度學習、語音及音頻訊號處理等研究,認為AI技術有助提升語言表達,尤其惠及聽障、失語等語言障礙人士。然而,若過分強調人機對話,反而有機會忽略人際溝通。
適用於咽喉癌或特殊需要者
李丹同時是AI初創Vocofy聯合創始人,該企基於AI技術,為患有舌癌、咽喉癌、罕見病、長者及特殊教育需要者等,因病情影響語言表達的患者,錄製並重建他們失聲前的語音,幫助患者在日常生活中,繼續以原有聲線和語氣溝通。
當患者確診即將喪失聲線後,Vocofy團隊可馬上為對方提供錄音設備及使用教程。當收集到足夠的語音資料,下一步就是數據分析,為每位病人訂造個人化的語音模型。模型一經建立,便可透過手機應用程式(App),讓失聲病人永久使用AI語音服務,幫助他們重拾溝通能力。
李丹接受本報訪問時強調:「語言和語音其實是人類行為,所以我們不要太過注重,要用人的語言跟電腦談天,(這個側重點)有少少本末倒置。」他續稱,技術應更多關注如何促進人與人之間的有效溝通,幫助障礙者改善表達能力,讓每個人都能更加自由、清晰且充分地,展現自己的想法和需求。
其後李丹進一步解釋,這觀點是其個人看法,業界很多時過分強調技術應用,忽略更重要的目標。在互聯網及電腦普及後,人際溝通反而更加疏離。如今大家似乎更傾向對着手機講話,這便是「本末倒置」例子之一。
應用場景可擴至演講技巧
李丹笑言:「有時我跟電話說話,都覺得有些奇怪,點解會要用人的說話,去和電腦說話呢?」李丹認為,人機互動固然重要,但不應佔據所有焦點。而是應當把更多技術力量,投放在解決人與人的溝通問題上。
談到針對人類溝通的技術,李丹相當強調人情味,相信這領域有不少發揮空間,「愈看就愈多」。他表示,未來的應用場景不僅限於幫助語言障礙人士,還可以透過科技提升演講者的表達技巧,讓聽眾更愉悅投入;或者改善醫生的溝通方式,讓患者感受更多關懷及舒適。
翻查資料,李丹今年初曾與義工團隊合作,負責重建逝者聲音的工作,幫助家屬在元宇宙與親人重逢。當時李丹向本地傳媒坦言,技術本身不難實現,其複雜之處在於對一個家庭的情感意義,科技進步應服務於人的感受。
採訪、撰文:周泳彤