語音障礙者廣泛存在。由於各類事故、中風或神經退行性疾病(如肌萎縮側索硬化症或肌萎縮側索硬化症)中受傷而導致言語能力喪失,社會上有許多人無法正常地說話。美國加州大學舊金山分校(UCSF)研究團隊去年已成功在實驗參與者的大腦中植入電極,使用腦波紀錄器,同時結合人工智能(AI)與語音合成技術,將大腦訊號解碼,轉換為合成語音,成功使實驗參與者說話。
用外部設備生成輔助語音輸出早有先例。為人熟悉的霍金,他使用的語音合成器是通過人類眼睛和面部動作來拼寫單詞,能幫助癱瘓者每分鐘輸出 8 個單詞。雖然過往這項技術已經給失語者帶來一些生活改善,但人們自然語音每分鐘 150 個單詞,如此一來,舊有的語音合成器並不理想。
而美國加州大學舊金山分校的研究團隊所研究方法是以「虛擬人體聲道」為基礎,使用AI解碼大腦的訊號轉變成聲道的運動,並將這些訊號轉換成肌肉活動,最後轉換成合成語音。
此項研究針對5名男女進行試驗,他們本身都能夠正常言語,但都因患有嚴重癲癇,腦部早已被植入電極來測試癲癇的發作源頭。一開始,研究人員要求實驗參與者大聲閱讀數十個句子,再以電極紀錄他們的大腦運動皮質發出的神經脈衝訊號,並紀錄到大腦皮質用來控制嘴唇、下顎、喉嚨、舌頭等約數百條肌肉動作的腦部訊號。第二步則是由研究人員設計出神經系統網路,將這些訊號轉化為肌肉活動,再轉換為合成語音。最後,由電腦將訊號合成句子。由實驗參與者識別這些詞彙,研究結果顯示,合成語音的準確度約達70%,並且是正常說話速度,約為每分鐘150字。
研究人員指出,目前正在以更高密度的電極陣列和更先進的機器學習算法進行下一步實驗,希望接下來能讓失語者享受成果。
Text by MEDICAL INSPIRE 醫‧思維