欢迎您 本站地址: 
首页   声音克隆  
VALL-E X中文一键整合包:文本转语音及语音克隆-空若网

简介:VALL-E X中文整合包是一款本地版文本转语音工具,
零样本语音克隆:经本人测试,
克隆英文效果可以,
克隆中文效果并不好,
主要原因是底模是用大部分用英文训练出的模型,
你们可以找一个底模中文的模型,
替换这个,
目前这个英文底模文本转语音还有点用 (注意事项:3~10 秒录音,
不要超过10秒,
要不然会报错) 整合包一键启动,
无需配置任何环境,
分cpu版本 和 英伟达(N卡)版本,
根据电脑配置下载对应的链接,
VALL-E X 是一个强大而创新的多语言文本转语音(TTS)模型,
最初由微软发布。
虽然微软最初在他们的研究论文中提出了该概念,
但并未发布任何代码或预训练模型。
我们认识到了这项技术的潜力和价值,
复现并训练了一个开源可用的VALL-E X模型。
我们很乐意与社区分享我们的预训练模型,
让每个人都能体验到次世代TTS的威力。
??
目录
更新日志
功能特点
本地安装
在线演示
使用方法
常见问题
待办事项
支持AR decoder的batch decodeding以实现更稳定的生成结果
将EnCodec解码器替换成了Vocos解码器,
提升了音质。
加入了长文本生成功能
加入了中文版自述文件
功能特点
VALL-E X 配备有一系列尖端功能:
多语言 TTS: 可使用三种语言 - 英语、中文和日语 - 进行自然、富有表现力的语音合成。
零样本语音克隆: 仅需录制任意说话人的短短的 3~10 秒录音,
VALL-E X 就能生成个性化、高质量的语音,
完美还原他们的声音。
语音情感控制: VALL-E X 可以合成与给定说话人录音相同情感的语音,
为音频增添更多表现力。
零样本跨语言语音合成: VALL-E X 可以合成与给定说话人母语不同的另一种语言,
在不影响口音和流利度的同时,
保留该说话人的音色与情感。
以下是一个使用日语母语者进行英文与中文合成的样例: ???? ?? 口音控制: VALL-E X 允许您控制所合成音频的口音,
比如说中文带英语口音或反之。
声学环境保留: 当给定说话人的录音在不同的声学环境下录制时,
VALL-E X 可以保留该声学环境,
使合成语音听起来更加自然。
你可以访问我们的演示页面 来浏览更多示例! 多语言 该VALL-E X实现支持三种语言:英语、中文和日语。
您可以通过设置'language'参数来指定语言。
默认情况下,
该模型将自动检测语言。
text_prompt = """ チュソクは私のお気に入りの祭りです。
私は数日間休んで、友人や家族との時間を過ごすことができます。
""" audio_array = generate_audio(text_prompt) vallex_japanese.webm 注意:即使在一句话中混合多种语言的情况下,
VALL-E X也能完美地控制口音,
但是您需要手动标记各个句子对应的语言以便于我们的G2P工具识别它们。
text_prompt = """ [EN]The Thirty Years' War was a devastating conflict that had a profound impact on Europe.[EN] [ZH]这是历史的开始。
如果您想听更多,
请继续。
[ZH] """ audio_array = generate_audio(text_prompt, language='mix') vallex_codeswitch.webm 预设音色 我们提供十几种说话人音色可直接VALL-E X使用!在这里浏览所有可用音色。
VALL-E X 尝试匹配给定预设音色的音调、音高、情感和韵律。
该模型还尝试保留音乐、环境噪声等。
若使用GPU运行,
你需要至少6GB的显存。
详 VALL-E X 与 Bark,
VALL-E and AudioLM类似,
使用GPT风格的模型以自回归方式预测量化音频token,
并由EnCodec解码. 与 Bark 相比: 轻量:更小,
快速:更快,
中文&日文的更高质量 跨语言合成时没有外国口音 开放且易于操作的声音克隆 支持的语言较少 没有用于合成音乐及特殊音效的令牌 支持的语言 语言 状态 英语 (en) 日语 (ja) 中文 (zh) 常见问题 在哪里可以下载检查点? 当您第一次运行程序时,我们使用将模型下载到目录里。
wget./checkpoints/ 如果第一次运行时下载失败,
请从这里手动下载模型,
并将文件放在里。
./checkpoints/ 需要多少显存? 6GB 显存(GPU VRAM) - 几乎所有 NVIDIA GPU 都满足要求. 为什么模型无法生成长文本? 当序列长度增加时,
Transformer的计算复杂度呈二次方增长。
因此,
所有训练音频都保持在22秒以下。
请确保音频提示(audio prompt)和生成的音频的总长度小于22秒以确保可接受的性能。
更多... ?? 待办事项 用Vocos解码器替换Encodec解码器 微调以实现更好的语音自适应

模型下载

×

空若网-温馨提示


您尚未登陆

登陆后免费下载



温馨提示

扫描下方二维码,访问手机版。