奇富科技機器人團隊語音論文入選INTERSPEECH2023
分類: 最新資訊
竅門詞典
編輯 : 竅門大全
發布 : 06-01
閱讀 :111
6月1日消息,近日,奇富科技機器人團隊論文《Eden-TTS:一種簡單高效的非自回歸“端到端可微分”神經網絡的語音合成架構》(Eden-TTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment Learning)被全球語音與聲學頂級會議INTERSPEECH 2023接收。據悉,INTERSPEECH是由國際語音通訊協會(International Speech Communication Association, ISCA)創辦的語音信號處理領域頂級旗艦國際會議,是全球最大的綜合性語音信號處理盛會,在國際上享有盛譽并具有廣泛的學術影響力。奇富科技的論文研究成果為需要文本轉語音的應用場景提供了創新的解決方案,提出了一種端到端可微的非自回歸神經網絡語音合成模型架構?;谖谋疽羲貢r長與alignment的密切關系,論文提出了一種簡單高效的alignment學習方式:首先采用一種新的energy-modulated注意力機制得到guided alignment,然后利用guided alignment計算音素的時長信息,最后通過音素的時長信息構建monotonic alignment。本方法無需外部的alignment信息,無需引入額外的alignment損失函數。對業務提效而言,這種端到端可微的方法使得各個模塊可以方便地替換為各種類型的神經網絡模塊,從而具有良好的擴展性和穩定性。相比于主流的自回歸模型,推理速度提升了10倍以上,能夠滿足實時語音合成的需求。根據進行的多人MOS評測,該方法的MOS分值達到了4.32分(滿分為5分),合成語音的自然流暢程度接近于目前最優的自回歸模型,顯著優于同類型的非自回歸模型。此外,與同類型方法相比,該方法可以節約50%以上的訓練時間,顯著提升模型訓練效率。奇富科技在對話機器人領域一直堅持投入、堅持自研。就在兩個月前,奇富科技另一篇音頻論文《基于多粒度Transformer的多模態情緒識別》(Multilevel Transformer for Multimodal Emotion Recognition)被第48屆IEEE聲學、語音與信號處理國際會議(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023)接收。“我們很高興在理解用戶、優化表達方面取得了關鍵性的成果。隨著奇富GPT對于公司各業務層的重構,我們已經極大提升了對于用戶在文本上的理解能力,從語音到文本,再從文本回到語音,更好的識別是為了更好的表達和輸出,我們將持續投入,用前沿技術重塑用戶體驗?!逼娓豢萍际紫惴茖W家費浩峻表示。(一橙)