下代iOS添AI無障礙溝通 模擬用家聲線 打字完成對話
原文刊於信報財經新聞「StartupBeat創科鬥室」
蘋果公司(Apple Inc.)將於6月5日舉行年度盛事「全球開發者大會」(WWDC),預料屆時會發布下一代作業系統iOS 17。該企周二(16日)急不及待披露部分特色功能,包括複製用戶語音的能力,基於人工智能(AI)的文本識別,以及簡化應用程式布局等,最快今年稍後登陸iPhone、iPad及Mac。以上新輔助功能大多為推動無障礙環境而設,對一般用戶同樣實用。
科技有助打破溝通隔膜,AI更能模擬個人聲線。蘋果利用機器學習技術,特別為說話漸有困難的人,例如肌萎縮側索硬化症(ALS,又稱漸凍症)患者,推出一款Personal Voice應用程式。
首先,用戶在手機或平板上錄製一段長約15分鐘音頻,AI再針對當事人的口吻,生成風格類近的語音,以便在FaceTime對話中使用,初步將以英語方式提供。
以AI合成的語音模型,可配合Live Speech功能使用。當打電話或視像會議時,只要在流動設備輸入文字,AI就能模擬用戶的聲線與他人溝通。該工具可在鎖屏時使用,亦能保存常用短句,在聊天期間快速加入。
鏡頭對準文字點擊發聲
當然不少人會聯想到,訓練有素的文本轉語音模型,一旦落入不法之徒手中,難免存在一定風險;有些家庭更會為求方便,共享單一登錄資料。科技媒體TechCrunch引述蘋果說法,個人聲音不會跟Apple ID掛鈎,而自行定義的語音數據亦不會與蘋果在內的任何一方共享。
對於盲人或視力欠佳的用戶,蘋果現有的Magnifier(放大鏡)應用程式,即將追加Point and Speak功能。手機會利用相機鏡頭、光學雷達(LiDAR)掃描儀,以AI追蹤手指在鏡頭前的移動。以掃描微波爐的按鈕為例,程式會讀出指向的文字,對應英文、普通話及廣東話等多個語言版本,更可以辨識路人、門口及影像內容,適合在物理環境中導航。
大圖示助長者簡易操作
對於有認知障礙的長者,蘋果擬引入Assistive Access功能,大幅簡化流動裝置介面。在拍照、睇相、播歌、致電及短訊等功能,除了改用高對比度的大圖示按鈕,更可透過表情符號或錄製短片方式溝通。語音控制方面,追加文本編輯建議,從多個聽起來相似的單詞中,選擇正確單詞使用,令聲控打字時更為準確。
另一方面,現時蘋果程式商店App Store平均每周吸引全球逾6.5億名訪問者。按官方最新數據,App Store在2022年阻止超過20億美元(約156億港元)的潛在欺詐交易,並以無法滿足私隱、安全、內容等標準為由,拒絕近170萬個提交申請的應用程式。此外,針對欺詐及濫用活動,蘋果去年清除42.8萬個開發者賬戶,以及2.82億個客戶賬戶,確保下載的程式安全可靠。