• 我院鄒月嫻教授課題組在目標語音分離任務方面取得重要研究進展

    2020-05-27 19:01:28

        近日,我院鄒月嫻教授課題組在信號處理方向頂級期刊IEEE Journal of Selected Topics in Signal Processing (JSTSP) “基于深度學習的多模態智能”??习l表了題為“Multi-channel Multi-modal Target Speech Separation”的學術論文。

        目標語音分離任務是指從多人同時說話的混合語音信號中分離出目標說話人的語音亚博电子游戏官网,又被稱為“雞尾酒會”問題,該問題于1953年提出,迄今尚未獲得圓滿解決。作為語音識別的前端技術亚博电子游戏官网,語音分離一直是機器聽覺中自然人機交互中的關鍵技術之一,長期以來受到學界和業界的高度重視亚博电子游戏官网。目前的語音分離方法在嘈雜、混響條件下性能急劇下降,難以滿足實際語音識別技術的需求。

        借鑒人類的聽覺機制亚博电子游戏官网,該論文探索如何利用視覺-聽覺(visual-audio)信息提升遠場環境下的目標語音分離性能,提出一種通用的多模態目標語音分離框架亚博电子游戏官网。該框架利用目標說話人所有的可用信息,包括他/她的空間位置亚博电子游戏官网、嗓音特征和唇部運動,來分離目標說話人語音。在該框架下亚博电子游戏官网,該論文研究了多種多模態融合及建模方法,啟發于語音識別領域因子分解層在快速環境適配中的進展,提出一種基于因子注意力的音視頻融合方法,以聚合多模態高層語義信息。該方法通過將混合語音特征映射到多個聲學信息子空間亚博电子游戏官网,利用來自其視覺模態的目標語音關聯信息和基于可學習注意力機制對聲學子空間信息進行有效選擇和聚合。


    上圖:所提出的多模態目標語音分離框架圖

        為了證明所提出的多模態語音分離深度模型的有效性和噪聲魯棒性,本論文開展了大量實驗評測對模型的性能進行評估,包括視覺-聽覺模態分別缺失、不同噪聲條件。所采用的大規模音視頻數據庫從Youtube視頻網站采集,并基于仿真的房間混響擴展成多通道亚博电子游戏官网。實驗結果證明本論文所提出的多模態框架相對于單模態和雙模態方法有顯著的性能提升,且支持實時處理(RTF<1)亚博电子游戏官网。

        本文研究進一步表明,借鑒人類視聽覺機制,在大數據驅動下的多模態語音分離深度模型展現出極強的競爭力,該研究成果為解決嘈雜環境下的語音識別和人機自然語音交互提供了新的技術途徑。

    上表:在同框架下單模態、雙模態和多模態語音分離系統性能比較

    上圖:單模態、雙模態和多模態系統對目標語音方向估計誤差的魯棒性評測

        JSTSP是中科院JCR期刊一區期刊亚博电子游戏官网,2019年的影響因子為6.688亚博电子游戏官网,是信號處理領域的頂級期刊之一。該論文是該期??姆饷嫖恼卵遣┑缱佑蜗饭偻?。課題組內顧容之博士為該論文第一作者,鄒月嫻教授為通訊作者。

    供稿:信息工程學院鄒月嫻課題組

    亚博电子游戏官网