Non-parallel Mongolian Voice Conversion Method Based on Fine-grained Prosody Modeling and Conditional CycleGAN

WU Zecheng; BAO Feilong; ZHANG Hui; WANG Haibo

doi:10.16798/j.issn.1003-0530.2021.10.005

WU Zecheng, BAO Feilong, ZHANG Hui, WANG Haibo. Non-parallel Mongolian Voice Conversion Method Based on Fine-grained Prosody Modeling and Conditional CycleGAN[J]. JOURNAL OF SIGNAL PROCESSING, 2021, 37(10): 1825-1834. DOI: 10.16798/j.issn.1003-0530.2021.10.005

Citation:

Non-parallel Mongolian Voice Conversion Method Based on Fine-grained Prosody Modeling and Conditional CycleGAN

Graphical Abstract

Abstract

Abstract

The voice conversion technique converts the voice tone of the source speaker to the target speaker while keeping the linguistic information unchanged. At present, Mongolian voice conversion is facing problems such as lack of corpus and rich prosodic changes in pronunciation of Mongolian words. To address these problems, this paper presents a non-parallel Mongolian voice conversion method based on fine-grained prosody modeling and conditional CycleGAN. This method used continuous wavelet transform to extract fine-grained prosodic features, then added speaker identity vectors to the CycleGAN to build a conditional CycleGAN, Finally, the conditional CycleGAN was used to obtain a stable prosody conversion between source and target speakers. Experimental results showed that compared with the traditional CycleGAN voice conversion method, this method can effectively improve the Mongolian voice conversion effect, and the MOS scores of speech naturalness and speaker similarity are improved by 0.1 and 0.2 respectively.

FullText(HTML)

References (29)

Supplements (0)

Cited By

Non-parallel Mongolian Voice Conversion Method Based on Fine-grained Prosody Modeling and Conditional CycleGAN

Abstract

Catalog

Export File

Citation

Format

Content