奇富科技機(jī)器人團(tuán)隊(duì)語音論文入選INTERSPEECH2023
分類: 最新資訊
竅門詞典
編輯 : 竅門大全
發(fā)布 : 06-01
閱讀 :102
6月1日消息,近日,奇富科技機(jī)器人團(tuán)隊(duì)論文《Eden-TTS:一種簡單高效的非自回歸“端到端可微分”神經(jīng)網(wǎng)絡(luò)的語音合成架構(gòu)》(Eden-TTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment Learning)被全球語音與聲學(xué)頂級會議INTERSPEECH 2023接收。據(jù)悉,INTERSPEECH是由國際語音通訊協(xié)會(International Speech Communication Association, ISCA)創(chuàng)辦的語音信號處理領(lǐng)域頂級旗艦國際會議,是全球最大的綜合性語音信號處理盛會,在國際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。奇富科技的論文研究成果為需要文本轉(zhuǎn)語音的應(yīng)用場景提供了創(chuàng)新的解決方案,提出了一種端到端可微的非自回歸神經(jīng)網(wǎng)絡(luò)語音合成模型架構(gòu)。基于文本音素時長與alignment的密切關(guān)系,論文提出了一種簡單高效的alignment學(xué)習(xí)方式:首先采用一種新的energy-modulated注意力機(jī)制得到guided alignment,然后利用guided alignment計(jì)算音素的時長信息,最后通過音素的時長信息構(gòu)建monotonic alignment。本方法無需外部的alignment信息,無需引入額外的alignment損失函數(shù)。對業(yè)務(wù)提效而言,這種端到端可微的方法使得各個模塊可以方便地替換為各種類型的神經(jīng)網(wǎng)絡(luò)模塊,從而具有良好的擴(kuò)展性和穩(wěn)定性。相比于主流的自回歸模型,推理速度提升了10倍以上,能夠滿足實(shí)時語音合成的需求。根據(jù)進(jìn)行的多人MOS評測,該方法的MOS分值達(dá)到了4.32分(滿分為5分),合成語音的自然流暢程度接近于目前最優(yōu)的自回歸模型,顯著優(yōu)于同類型的非自回歸模型。此外,與同類型方法相比,該方法可以節(jié)約50%以上的訓(xùn)練時間,顯著提升模型訓(xùn)練效率。奇富科技在對話機(jī)器人領(lǐng)域一直堅(jiān)持投入、堅(jiān)持自研。就在兩個月前,奇富科技另一篇音頻論文《基于多粒度Transformer的多模態(tài)情緒識別》(Multilevel Transformer for Multimodal Emotion Recognition)被第48屆IEEE聲學(xué)、語音與信號處理國際會議(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023)接收。“我們很高興在理解用戶、優(yōu)化表達(dá)方面取得了關(guān)鍵性的成果。隨著奇富GPT對于公司各業(yè)務(wù)層的重構(gòu),我們已經(jīng)極大提升了對于用戶在文本上的理解能力,從語音到文本,再從文本回到語音,更好的識別是為了更好的表達(dá)和輸出,我們將持續(xù)投入,用前沿技術(shù)重塑用戶體驗(yàn)?!逼娓豢萍际紫惴茖W(xué)家費(fèi)浩峻表示。(一橙)