最新福利精品在线,欧美精品一区二区精品久久

深圳國際研究生院吳志勇團(tuán)隊(duì)合作在表現(xiàn)力語音合成的自動(dòng)風(fēng)格控制和篇章情感分析上取得系列進(jìn)展

清華新聞網(wǎng)9月26日電 語音合成旨在讓機(jī)器根據(jù)給定的文本生成對(duì)應(yīng)內(nèi)容的語音。表現(xiàn)力語音合成（Expressive Speech Synthesis）致力于為語音合成提供更豐富的情感波動(dòng)和風(fēng)格變化，以提高合成語音的擬人度和感染力，在有聲讀物、虛擬主播、虛擬人等場景下有著廣泛的應(yīng)用價(jià)值，因而受到了越來越多研究者的關(guān)注。

近日，清華大學(xué)深圳國際研究生院吳志勇團(tuán)隊(duì)在表現(xiàn)力語音合成的自動(dòng)風(fēng)格控制和篇章情感分析上連續(xù)取得研究進(jìn)展。

在表現(xiàn)力語音合成的自動(dòng)風(fēng)格控制上，研究團(tuán)隊(duì)引入去噪擴(kuò)散概率模型（Denoising Diffusion Probabilistic Model，DDPM）來構(gòu)建一種生成式的語音韻律預(yù)測方法。該預(yù)測方法以語音合成系統(tǒng)的輸入文本作為預(yù)測條件，訓(xùn)練DDPM以迭代去噪的形式從白噪聲中采樣得到目標(biāo)特征，作為預(yù)測的語音韻律表征，并提供給語音合成框架作為語音風(fēng)格的控制信息，從而生成具有特定風(fēng)格的合成語音。

圖1.模型的總體框架（a）、訓(xùn)練流程（b）與推理流程（c）

相較于傳統(tǒng)的基于預(yù)測誤差優(yōu)化的確定性預(yù)測方法，團(tuán)隊(duì)提出的方法避免了對(duì)目標(biāo)韻律表征分布做簡化假設(shè)，有效提升了對(duì)于人類語音風(fēng)格真實(shí)分布的擬合效果，改善了現(xiàn)有方法預(yù)測結(jié)果存在的過平滑問題，顯著增強(qiáng)了合成語音的表現(xiàn)力。基于生成采樣形式的預(yù)測流程，該方法具有為相同文本提供多樣的語音風(fēng)格信息的能力，進(jìn)一步提高了表現(xiàn)力語音合成系統(tǒng)輸出結(jié)果與真人表達(dá)習(xí)慣的相似性。

圖2. 模型生成結(jié)果的表現(xiàn)力評(píng)分結(jié)果與分布擬合效果

圖3.模型在同樣一句文本上采樣得到的多樣化生成結(jié)果

在表現(xiàn)力語音合成的篇章情感分析上，研究團(tuán)隊(duì)設(shè)計(jì)了一種基于篇章級(jí)多尺度情感分析模型的情感分析方法。該分析方法從篇章、句子、詞語、發(fā)音音素四個(gè)層級(jí)出發(fā)對(duì)輸入篇章文本進(jìn)行情感分析，并分別使用全局風(fēng)格表征向量（Global Style Embedding，GSE）、局部韻律表征序列（Local Prosody Embedding，LPE）作為輸出，以從篇章整體情感基調(diào)和局部情感起伏變化兩個(gè)尺度建模語音的風(fēng)格元素。

圖4. 篇章級(jí)情感分析模型總體工作流程

與傳統(tǒng)缺乏篇章級(jí)上下文的情感分析模型相比，團(tuán)隊(duì)提出的方法能有效利用不同尺度的文本信息，改善了合成語音的停頓、韻律自然度。篇章上下文信息的引入，使得合成語音具有更好的全局一致性，大幅提升了合成語音在主觀聽感上的整體連續(xù)性。

圖5.篇章級(jí)情感分析模型合成結(jié)果主觀評(píng)分

表現(xiàn)力語音合成自動(dòng)風(fēng)格控制方面的研究成果，近日以“基于去噪擴(kuò)散概率模型的多樣化高表現(xiàn)力語音韻律預(yù)測”（Diverse and Expressive Speech Prosody Prediction with Denoising Diffusion Probabilistic Model）為題，被“國際語音通訊學(xué)會(huì)2023年會(huì)”（The 24th Annual Conference of the International Speech Communication Association) 錄用，并獲得最佳學(xué)生論文獎(jiǎng)。

獲獎(jiǎng)證書

清華大學(xué)深圳國際研究生院2020級(jí)碩士生李翔為該文章第一作者，通訊作者為清華大學(xué)深圳國際研究生院吳志勇副研究員，論文共同作者還包括騰訊AI Lab劉頌湘博士、林永業(yè)先生、翁超博士和香港中文大學(xué)系統(tǒng)工程與工程管理學(xué)系蒙美玲教授。該研究成果得到了國家自然科學(xué)基金委員會(huì)、深圳市科技創(chuàng)新委員會(huì)、深圳騰訊計(jì)算機(jī)系統(tǒng)有限公司等部門和單位的支持。

表現(xiàn)力語音合成的篇章情感分析上的研究成果，近日以“基于篇章級(jí)多尺度韻律模型的細(xì)粒度情感分析方法”（A Discourse-Level Multi-Scale Prosodic Model for Fine-Grained Emotion Analysis）為題，被“2023中國多媒體大會(huì)”（China Multimedia 2023) 錄用，并獲得最佳論文獎(jiǎng)。

空白背景new - 副本.jpg

獲獎(jiǎng)證書

清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系2020級(jí)碩士生魏憲豪為該文章第一作者，通訊作者為清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系賈珈教授，論文共同作者還包括清華大學(xué)深圳國際研究生院2020級(jí)碩士生李翔、清華大學(xué)深圳國際研究生院吳志勇副研究員、清華大學(xué)美術(shù)學(xué)院2020級(jí)碩士生王紫伊。

論文鏈接：

https://www.isca-speech.org/archive/interspeech_2023/li23j_interspeech.html

https://arxiv.org/abs/2309.11849

供稿：深圳國際研究生院

編輯：李華山

審核：郭玲

2023年09月26日 14:34:43

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

關(guān)于我們 │ 友情鏈接 │ 清華地圖