Google AI新技術:在吵雜影片中分辨特定人聲 - 匯流新聞網

LIFE

Google AI新技術:在吵雜影片中分辨特定人聲
  • 字級
Google AI新技術:在吵雜影片中分辨特定人聲

匯流新聞網記者洪雅筠/綜合報導

人類能在吵雜的對話場合中,辨別出話是由誰說出口的,那麼人工智慧辦得到嗎?Google近期發表了一項名為Audio-Visual Speech Separation的音訊分離技術,該技術能於吵雜的影片中分辨特定人聲,未來預計將會運用在視訊會議,或是多人辯論的政論節目當中,幫助用戶更清楚地聽到特定人物的聲音。

據外媒報導,Google研究人員利用深度學習、影像模型打造出一套系統,該系統透過分析影像以及聲音,可將影片中各個人物所說的話分離成獨立音軌,還能依照用戶的需求,強化特定的聲音,並消除其他人聲及雜音。

Google軟體工程師Inbar Mosseri及Oran Lang表示,人們擅長於吵雜的環境中,辨別出話是由誰說出口的,並將注意力集中在特定人士身上,這是人類與生俱來的能力,但對電腦來說卻是一項重大的挑戰。

據了解,Google團隊在研發的過程中,引用了 10萬支、總長度達2,000小時的單一講者影片,並將這些影片與其他演講影片、背景雜音混合,用於訓練多重串流卷積神經網路(Multi-Stream Convolutional Neural Network),讓系統能夠辨識個別聲音,產生一套模型。

透過該模型,只要影片中有嘴巴在動,系統就能抓取音擋,即使說話者於過程中不小心被麥克風擋到了,系統仍能不受干擾的執行。用戶若是只想聽見特定人士的聲音,只需於影片中點選人臉,就能成功去除其他聲音。

▲ 雙方雖於激烈爭辯時聲音重疊,但在Audio-Visual Speech Separation的技術下,可以只聽見特定一方的聲音。

Google表示,目前仍在探索應用的範圍,「不過我們相信這項系統將能運用在吵雜的環境中,像是視訊會議、多人辯論的政論節目,以及改良助聽器等等,也不排除會把這套系統導入到自家的Hangouts、Duo語音視訊軟體中。」

消息來源:engadgetgoogle

更多匯流新聞網報導:
人工智慧好聰明!Google Lens可以辨識出貓狗品種了
41家拉麵分店的拉麵你分得出來嗎?Google AutoML Vision辦到了!

【匯流筆陣】
CNEWS歡迎各界投書,來稿請寄至[email protected],並請附上真實姓名、聯絡方式與職業身份簡介。
CNEWS匯流新聞網:https://cnews.com.tw

新聞照來源:翻拍自YouTube

【文章轉載請註明出處】


R18