麻豆影视文化传媒在线看|果冻传媒91制片厂麻豆|性色网站|国产成人吃瓜网|麻豆文化传媒百度云|韩国黄色一级黄色片|成人电影区|糖心vlog是真的吗|黄瓜视频丝瓜视频香蕉视频|国产精品视频在一区鲁鲁,性感丰满美乳巨乳,蜜桔影院91制片厂,爱豆传媒陈可心作品名字

清華主頁 - 清華新聞 - 學(xué)術(shù)科研 - 正文

深圳國際研究生院吳志勇團(tuán)隊(duì)合作在表現(xiàn)力語音合成的自動(dòng)風(fēng)格控制和篇章情感分析上取得系列進(jìn)展

清華新聞網(wǎng)9月26日電 語音合成旨在讓機(jī)器根據(jù)給定的文本生成對(duì)應(yīng)內(nèi)容的語音。表現(xiàn)力語音合成(Expressive Speech Synthesis)致力于為語音合成提供更豐富的情感波動(dòng)和風(fēng)格變化,以提高合成語音的擬人度和感染力,在有聲讀物、虛擬主播、虛擬人等場景下有著廣泛的應(yīng)用價(jià)值,因而受到了越來越多研究者的關(guān)注。

近日,清華大學(xué)深圳國際研究生院吳志勇團(tuán)隊(duì)在表現(xiàn)力語音合成的自動(dòng)風(fēng)格控制和篇章情感分析上連續(xù)取得研究進(jìn)展。

在表現(xiàn)力語音合成的自動(dòng)風(fēng)格控制上,研究團(tuán)隊(duì)引入去噪擴(kuò)散概率模型(Denoising Diffusion Probabilistic Model,DDPM)來構(gòu)建一種生成式的語音韻律預(yù)測方法。該預(yù)測方法以語音合成系統(tǒng)的輸入文本作為預(yù)測條件,訓(xùn)練DDPM以迭代去噪的形式從白噪聲中采樣得到目標(biāo)特征,作為預(yù)測的語音韻律表征,并提供給語音合成框架作為語音風(fēng)格的控制信息,從而生成具有特定風(fēng)格的合成語音。

圖1.模型的總體框架(a)、訓(xùn)練流程(b)與推理流程(c)

相較于傳統(tǒng)的基于預(yù)測誤差優(yōu)化的確定性預(yù)測方法,團(tuán)隊(duì)提出的方法避免了對(duì)目標(biāo)韻律表征分布做簡化假設(shè),有效提升了對(duì)于人類語音風(fēng)格真實(shí)分布的擬合效果,改善了現(xiàn)有方法預(yù)測結(jié)果存在的過平滑問題,顯著增強(qiáng)了合成語音的表現(xiàn)力。基于生成采樣形式的預(yù)測流程,該方法具有為相同文本提供多樣的語音風(fēng)格信息的能力,進(jìn)一步提高了表現(xiàn)力語音合成系統(tǒng)輸出結(jié)果與真人表達(dá)習(xí)慣的相似性。

圖2. 模型生成結(jié)果的表現(xiàn)力評(píng)分結(jié)果與分布擬合效果

圖3.模型在同樣一句文本上采樣得到的多樣化生成結(jié)果

在表現(xiàn)力語音合成的篇章情感分析上,研究團(tuán)隊(duì)設(shè)計(jì)了一種基于篇章級(jí)多尺度情感分析模型的情感分析方法。該分析方法從篇章、句子、詞語、發(fā)音音素四個(gè)層級(jí)出發(fā)對(duì)輸入篇章文本進(jìn)行情感分析,并分別使用全局風(fēng)格表征向量(Global Style Embedding,GSE)、局部韻律表征序列(Local Prosody Embedding,LPE)作為輸出,以從篇章整體情感基調(diào)和局部情感起伏變化兩個(gè)尺度建模語音的風(fēng)格元素。

圖4. 篇章級(jí)情感分析模型總體工作流程

與傳統(tǒng)缺乏篇章級(jí)上下文的情感分析模型相比,團(tuán)隊(duì)提出的方法能有效利用不同尺度的文本信息,改善了合成語音的停頓、韻律自然度。篇章上下文信息的引入,使得合成語音具有更好的全局一致性,大幅提升了合成語音在主觀聽感上的整體連續(xù)性。

圖5.篇章級(jí)情感分析模型合成結(jié)果主觀評(píng)分

表現(xiàn)力語音合成自動(dòng)風(fēng)格控制方面的研究成果,近日以“基于去噪擴(kuò)散概率模型的多樣化高表現(xiàn)力語音韻律預(yù)測”(Diverse and Expressive Speech Prosody Prediction with Denoising Diffusion Probabilistic Model)為題,被“國際語音通訊學(xué)會(huì)2023年會(huì)”(The 24th Annual Conference of the International Speech Communication Association) 錄用,并獲得最佳學(xué)生論文獎(jiǎng)。

獲獎(jiǎng)證書

清華大學(xué)深圳國際研究生院2020級(jí)碩士生李翔為該文章第一作者,通訊作者為清華大學(xué)深圳國際研究生院吳志勇副研究員,論文共同作者還包括騰訊AI Lab劉頌湘博士、林永業(yè)先生、翁超博士和香港中文大學(xué)系統(tǒng)工程與工程管理學(xué)系蒙美玲教授。該研究成果得到了國家自然科學(xué)基金委員會(huì)、深圳市科技創(chuàng)新委員會(huì)、深圳騰訊計(jì)算機(jī)系統(tǒng)有限公司等部門和單位的支持。

表現(xiàn)力語音合成的篇章情感分析上的研究成果,近日以“基于篇章級(jí)多尺度韻律模型的細(xì)粒度情感分析方法”(A Discourse-Level Multi-Scale Prosodic Model for Fine-Grained Emotion Analysis)為題,被“2023中國多媒體大會(huì)”(China Multimedia 2023) 錄用,并獲得最佳論文獎(jiǎng)。

獲獎(jiǎng)證書

清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系2020級(jí)碩士生魏憲豪為該文章第一作者,通訊作者為清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系賈珈教授,論文共同作者還包括清華大學(xué)深圳國際研究生院2020級(jí)碩士生李翔、清華大學(xué)深圳國際研究生院吳志勇副研究員、清華大學(xué)美術(shù)學(xué)院2020級(jí)碩士生王紫伊。

論文鏈接:

https://www.isca-speech.org/archive/interspeech_2023/li23j_interspeech.html

https://arxiv.org/abs/2309.11849

供稿:深圳國際研究生院

編輯:李華山

審核:郭玲

2023年09月26日 14:34:43

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.