匯流新聞網記者王佐銘、李盛雯/台北報導
LINE 近日於音訊和音頻信號處理領域發表的7篇論文,榮獲該領域學術地位最高的聲學、語音和信號處理國際會議(ICASSP)的採納。本次獲採納的論文包含與其母公司NAVER的2項共同研究,總共高達14篇。
ICASSP由電機電子工程師學會(IEEE)主辦,在信號處理及應用領域是全球歷史悠久且最具規模和權威的國際旗艦會議,將於今年6月在線上召開第46屆會議,本次共有3,600篇投稿,其中有1,700篇論文被採納,届時將同步線上發表。
由於LINE一直以來都認為AI 技術是 LINE 的重點發展事業,為加速 AI 技術的研究開發及應用,LINE 與 NAVER 聯手整合資源,全力推進 AI 相關服務及新功能的基礎研究。在此背景下,LINE 以機器學習為主軸,致力於音訊處理、語言處理、圖像處理等技術的研究。而在音訊音頻信號處理領域上的各項研究,包括採用 Parallel WaveGAN 的高速高品質語音合成技術,有效分離雜音以提升音訊品質及語音辨識率的音源分離技術,還有可自動檢測辨識聲音的環境音識別技術。
在語音合成相關部分,在採用生成對抗網路(Generative Adversarial Network / GAN)的非自回歸型語音合成模型的Parallel WaveGAN 上,LINE採納了利用濁音/清音的資訊改良識別器進行研究。畢竟去採用單一識別器的 Parallel WaveGAN識別器表現力有限以及學習困難,特別是使用複數通話者語音資料庫時,會有品質劣化的問題,因此決定著眼於濁音和清音的性質差異,設計符合各自性質的識別器,大幅改善了語音合成的品質。最終,LINE仍採用總計四名男女的說話者,進行大規模的主觀評價實驗以驗證提案方法的有效性,因此受到肯定而獲採納。
另外,關於音源分離的部分,LINE則提出不採用深度學習的音源分離方式的 ISS (Iterative Source Steering)法,同時採用深度學習的音源模型的推定法,以兩者相互組合的新作法,讓語言辨識率提升更優於過去的 ISS 法,此方式因為不用依賴音源數的可適用框架構造而受到好評並獲採納。
未來LINE的AI科技品牌「LINE CLOVA」將致力發展各項AI技術和服務以解決生活及商業中的大小難題,並提升社會機能與生活品質。此外, LINE CLOVA 還提供以 CLOVA Speech 語音辨識、CLOVA Voice 語音合成等開發的語音技術企業解決方案。盼能藉由再技術、服務上的推陳出新,實現在基礎研究和服務價值上的顛覆性進展。
更多匯流新聞網報導:
AZ疫苗「買千萬只給11萬劑」? 莊人祥拉這兩國背書:沒虧待台灣
【文章轉載請註明出處】