AI语音克隆cosyvoice——从入门到精通
内容简介:
本教程通过2个案例:克隆郭德纲、林志玲的声音,来掌握最像真人的AI语音克隆工具(文本转语音工具)——阿里出品的cosyvoice。
整个教程包含:①安装包、②练习素材、③视频教程、④文本教程。
教程分为“入门篇”和“进阶篇”
入门篇:选择的是“AI剪辑助手”打包的cosyvoice,它的特点是简单,新人很容易上手。 缺点是:砍掉了方言等功能。
进阶篇:选择的是“与AI同行”打包的cosyvoice,它的特点是:功能全。 缺点是略显复杂。
所以建议新手先看入门篇,知道基本的操作。 然后再看进阶篇。
如果是老手,直接看进阶篇。
相关资源下载:
(资源都一样,多放几个网盘是怕被封,选择其中的一个下载即可)
① 安装包:
入门篇工具安装包(大小:11.4G):
夸克网盘: https://pan.quark.cn/s/e49a0d238ba2
百度云盘: https://pan.baidu.com/s/17UtflIaaU-ZUC0EJu_Y6rg?pwd=2045
进阶篇工具安装包(大小:8.8G):
夸克网盘链接: https://pan.quark.cn/s/a7ed622f5ae9
百度网盘链接: https://pan.baidu.com/s/1yX17U6lGDVoCI3doFt-POw?pwd=2045 提取码:2045
② 练习素材:
练习素材入门篇和进阶篇,都是一样的。
夸克网盘链接: https://pan.quark.cn/s/19bac8977f95
③视频教程:
(包含入门教程和进阶教程)
夸克网盘链接: https://pan.quark.cn/s/bb629f97ca8b
入门篇
1. cosyvoice是什么?
免费的语音克隆工具:提供3秒的原音,既可复制音色。
由阿里的通义实验室推出。
2. cosyvoice的3大特色?
- 3秒原音,即可克隆(复制)出任何人的说话。
- 支持中、英、日、韩、中国方言(粤语、四川话、上海话、天津话、武汉话、长沙话、郑州话等)
- 可以包含情感:快乐、悲伤、笑声等等。
3. cosyvoice如何使用?——克隆郭德纲的声音
本教程将通过克隆郭德纲的声音,来演示如何使用cosyvoice。
工具说明:使用的是“AI剪辑助手”制作的cosyvoice版本。
这个版本的优点:特别适合新手,只保持了最基本的功能,去掉了多余的功能。
第1步:下载安装包
一键安装包下载地址(11.4G):
夸克网盘: https://pan.quark.cn/s/e49a0d238ba2
百度云盘: https://pan.baidu.com/s/17UtflIaaU-ZUC0EJu_Y6rg?pwd=2045
安装包里有2个文件:
工具文件:cosyvoice-2。
练习素材: 包含郭德纲和林志玲的10秒语音及文本,用来做练习

第2步:复制软件到C盘根目录
把软件复制到C盘根目录,
特别注意: 安装路径里,不要包含中文。 否则会引起报错。

第3步:运行软件
① 打开cosyvoice-2文件夹,找到并双击“go-web”文件
② 会出现命令行界面。 这个界面,在软件运行的时候,不要关闭。

大约过20~40秒,会出现下面的界面: 说明软件安装成功了。

第4步:添加“郭德纲”的声音
添加郭德纲声音。 声音文件在安装包”练习素材“文件夹里。

① 点击“声音模型管理
② 填写角色名字:郭德纲
③ 上传郭德纲的9秒音频
④ 填写参考音频文字
⑤ 添加新模型

检查声音是否添加成功
① 打开“文本生成音频”界面
② 单击“刷新声音模型列表
③ 在“声音模型列表”里,可以看到刚才添加的声音

第5步:文本转语音
输入文本:
大家好,这是我的新朋友叶赛文,他是一个分享AI干货的博主。 赶紧关注他一下,[laughter]他可是一位帅哥[laughter]

进阶篇
如何安装?
下载安装包:
夸克网盘链接: https://pan.quark.cn/s/a7ed622f5ae9
百度网盘链接: https://pan.baidu.com/s/1yX17U6lGDVoCI3doFt-POw?pwd=2045 提取码:2045

下载练习素材:
夸克网盘链接: https://pan.quark.cn/s/0070f8caeb08
百度网盘链接: https://pan.baidu.com/s/1OxVYYeAWxXKVxrNUt70Msg?pwd=2045 提取码:2045
练习素材: 包含2个语音文件:郭德纲和林志玲的声音,还有声音文本。

如何使用
文件解压后,点击“启动.exe”文件既可

打开后是这样子:

1.说方言
如何使用cosyvoice的方言
① 选择“自然语言控制”
② 选择要克隆的声音。 (可以选择安装包里的林志玲声音。声音不能小于3秒,不能超过30秒)
③ 输入克隆声音的文本
④ 输入要文本转语音的文字
⑤ 输入要将的方言。 例如:用四川话

目前支持粤语、四川话、上海话、天津话、长沙话、郑州话。
效果:
四川话:他们都看不起我,偏偏我也不争气. 本想盖上被子大哭一场,结果睡着了.
粤语: 无人扶我凌云志,我自己也上不去;人人都笑话我,偏偏我也最好笑.
上海话:但凡我有一点本事,也不至于我一点本事也没有
天津话:小学很关键,中学很关键,中考很关键,高中很关键,高考很关键,大学很关键,合着我这辈子就是一个键人
长沙话:有付出就有回报,你给我100,我给你80,算起来你才付了20,却得到了80.(有意者私我)
郑州话:那晚你跟我聊到凌晨,我以为你心里也有我,后来才知道你在美国
2. 加入:笑声、呼吸声、强调
如何使用
如何使用cosyvoice的方言
① 选择“自然语言控制”
② 选择要克隆的声音。 (可以选择安装包里的林志玲声音。声音不能小于3秒,不能超过30秒)
③ 输入克隆声音的文本
④ 输入要文本转语音的文字。 注意:加入笑声、强调的语法。
⑤ 生成音频
⑥ 下载音频

呼吸
作用:在加入的地方,会有一次换气声
示例:我已经不是当年的穷小子了[breath],现在的我是今年的穷小子[breath]。
效果:
笑声
作用:发出笑声
用法示例: 我在窗户上就着雾写下他全家的名字,雾散了,他全家也没了[laughter][laughter]。
效果
作用:发出笑声
用法示例: 没出息没关系,有气息就已经<laughter>很棒了</laughter>。
效果:
强调
作用:强调内容
用法示例: 人为什么一定要往高处走呢,人可以往<strong>四处走</strong>。
效果:
3.加入情绪
使用方法和方言一样,在“输入instruct文本” 里写,需要什么情绪
用开心的语气说
示例: 能打败我的人,我也不跟他们打。
效果:
① 选择“自然语言控制”
② 选择要克隆的声音。 (可以选择安装包里的林志玲声音。声音不能小于3秒,不能超过30秒)
③ 输入克隆声音的文本
④ 输入要文本转语音的文字。
⑤ 输入情绪词:例如,用开心的语气说
⑥ 生成音频
⑦ 下载音频

用生气的语气说
示例:在交通高峰期,遭遇到一位鲁莽的司机插队,我感到非常生气。这种不文明的行为总让人无奈。
效果:
4. 角色扮演
用天真浪漫的小孩语气说
① 选择“自然语言控制”
② 选择要克隆的声音。 (可以选择安装包里的林志玲声音。声音不能小于3秒,不能超过30秒)
③ 输入克隆声音的文本
④ 输入要文本转语音的文字。
⑤ 输入角色
⑥ 生成音频
⑦ 下载音频

指令文本(instruct文本):一个天真烂漫的小孩,总是充满幻想和无尽的好奇心。
文本:没出息没关系,有气息就已经很棒了
5. 任务描述词(instruct文本)词汇总
根据官方文档整理。
官方文档链接: https://funaudiollm.github.io/cosyvoice2
分类 | 内容 |
---|---|
说方言 | 四川话 |
粤语 | |
上海话 | |
郑州话 | |
长沙话 | |
天津话 | |
加入:笑声、呼吸声、强调 | [laughter] |
<laughter></laughter> | |
<strong></strong> | |
[breath] | |
加入情绪 | 用开心的语气说 |
用伤心的语气说 | |
用惊讶的语气说 | |
用生气的语气说 | |
用恐惧的情感表达 | |
用恶心的情感表达 | |
冷静 | |
严肃 | |
快速 | |
非常快速 | |
慢速 | |
非常慢速 | |
角色扮演 | 神秘 |
凶猛 | |
好奇 | |
优雅 | |
孤独 | |
模仿机器人风格 | |
我想听听你模仿小猪佩奇的语气。 | |
一个活泼、爱冒险的小精灵,总是带着微笑和奇思妙想。 | |
一位权威、威严的古代将军,声音如洪钟,充满决断力。 | |
一个忧郁的诗人,言语中总是透露出一丝哀愁和浪漫。 | |
一个天真烂漫的小孩,总是充满幻想和无尽的好奇心。 | |
一个聪慧的侦探,善于发现细微之处,思维缜密。 |
3.常见问题
3.1 安装不成功:No module named’ttsfrd’
问题原因: 安装路径有中文
解决方法: 把安装包复制到C盘根目录


3.2.安装路径里,有中文
报错:FstIOError:read failded
问题原因:文件安装路径里,有中文。
解决方法:修改安装路径,不要有中文。

3.3 localhost is not accessible
报错:ValueError: When localhost is not accessible, a shareable link must be created. Please set share=True or check your proxy settings to allow access to localhost.
问题原因:开了国际网
解决方法:关闭国际网
3.4 出现其它问题
还可能出现其它的七七八八的问题,大多都是电脑配置的问题。
解决方法:
- 租用阿里云电脑(第一个月免费)。这篇文章里的第二部分,有教程: http://yesaiwen.com/tutorial-clone-voice/
- 租用GPU电脑:教程: http://yesaiwen.com/tutorial-rent-gpu-computer/
- 使用魔塔在线的工具: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B
发表评论