Amadeus复刻计划(AI拟声篇 一 So-vits-svc的训练)
目前主流的AI合成声音模型有三种:
VITS: 最早出现的基于GAN的网络模型,用于文字转语音,但是想要提升合成质量需要手动对数据集进行标注,并且很难跨语种,如使用日语训练集进行训练的模型,无法使用中文输入进行推理
【资料图】
So-vits-svc:据说是国人根据的VITS和soft-vc创建的开源模型,版本迭代到了4.0,其用于“AI换声”,可理解为柯南的蝴蝶结变声器,由于其仅学习声色特征,可用于跨语种(当然相似度肯定不如原语种直接换声)
ps:由于其拟声特性,许多人使用其进行歌声合成,但是考虑到必须有干声素材作为输入,灵活性并不高,之后笔者打算结合xstudio等软件作为输入尝试下调教
仓库地址:https://github.com/svc-develop-team/so-vits-svc
diffsinger:基于diffsion扩散模型实现的歌声合成,扩散模型也是Stable diffusion这一AI绘画模型所使用的,不过这一模型最大的问题就是很吃算力资源,文档中提到训练时需要准备不小于20G显存的显卡,因此笔者暂时放弃该模型。不过据说稳定性很高,有爱好者尝试后可以在评论区交流交流。
仓库地址:https://github.com/MoonInTheRiver/DiffSinger
笔者近些天折腾了下so-vits-svc的训练,以下是基本流程,希望能给后来者以借鉴
数据准备:
笔者从命运石之门(stein;gate)游戏中提取牧濑红莉栖角色语音2906条,将提取出的ogg格式语音转化为wav格式,并将其放在cristina文件夹下待用(理论上来说应该手动筛选掉时长过短或无意义的音频,但数据量过大,笔者并未人工处理)
ps:感谢大佬的开源项目用于解包游戏文件:https://github.com/rdavisau/sg-unpack
模型准备:
本人使用的是B站大佬的整合包,其打包了整个python环境与预训练模型,加入了几个简单的bat脚本,操作较为方便,有一定编程基础且不懒的可以直接通过上述仓库clone
视频链接:https://www.bilibili.com/video/BV1H24y187Ko
3. 需要了解的模型文件结构:
其中Cristina文件夹即先前整理过的放置角色语音的文件夹,直接放在dataset_raw文件夹下即可,logs/44k文件夹下存储了训练后的权重模型,其中默认放置了D_0,G_0作为预训练模型,config.json中决定了训练该如何进行,其中参数的意义在下文单独介绍
3.5.config.json的参数意义
大部分参数不需要去动他,除非你深刻了解自己要做什么,可以动的参数:
seed:初始化随机种子,如果训练效果不好,可以更改该值再次训练,或许会好些?不过一次完整的训练过程中不应改动该值
epochs:总共训练的轮次,一般设置为10000确保其不会停止,请记住,并不一定训练轮次越多,效果越好
learing_rate:学习步长,设置时尽量与batch_size成反比,如batch_size->2*batch_size,learing_rate->0.5*learning_rate
batch_size:其值越大训练越快,也越占显存,根据自己电脑显存设置,记得同步更改learning_rate
keep_ckpts: 最大保存模型数量,设置为0表示保存所有模型,一个模型大约500M,请根据自己硬盘容量进行设置
4. 点击数据预处理.bat或使用官方代码
5. 开始训练即可
6.检测训练效果
初级:直接从logs/44k中取出模型进行推理,人耳判别好坏
中级:训练过程中会打印每个epoch所花费的时间,以及相关loss数值,可以一般化的了解
高级:使用
然后在6006端口获取可视化数据
7.补充下各loss的意义
写在最后:
笔者使用租赁的3090,设置batch_size为12,跑上述2906个语音数据,大概3分钟一个epoch,在跑了一百多个epoch,步长为10400后效果较为理想。
并且先前笔者使用100个语音数据在个人电脑上(2060)简单跑了3000步左右(epoch次数忘了……),已经基本可以还原音色(或者是可以听出来是谁了),感觉模型质量还不错,鼓励大家尝试
ps: 对于命运石之门角色音线合成有兴趣的欢迎加群交流,群内已打包上传cris的音频数据集,桶子的声音也很有辨识度哇(笑)
交流群:
723240586
关键词:
-
Amadeus复刻计划(AI拟声篇 一 So-vits-svc的训练)
2023-04-22 -
英国央行“鸽王”警告利率已经过高 经济难以承受
2023-04-22 -
江苏棒球队在扬州问鼎全锦赛,成就“大满贯”! 速看料
2023-04-22 -
农夫山泉玻璃瓶水(农夫山泉瓶贴) 全球新要闻
2023-04-22 -
康缘药业:4月21日融资买入1825.44万元,融资融券余额1.32亿元_环球今日讯
2023-04-22 -
当前热讯:91年男更佳婚配属相,93年属鸡的属相婚配表
2023-04-22 -
国资委新增10家央企纳入“创一流”名单 央地示范企业数量合计达28家 简讯
2023-04-22 -
全球看点:财报速递:四维图新2023年一季度净亏损1.03亿元,总体财务状况不佳
2023-04-22 -
17省份今年一季度GDP数据出炉,13地同比增速跑赢全国
2023-04-22 -
橙子皮与橘子皮一样吗? 全球热讯
2023-04-22 -
孙怡春日花仙子美照,一身粉色玫瑰裙造型,清澈优雅温婉迷人 焦点信息
2023-04-22 -
2022年互联网+工会维权服务优秀案例|陕西省总工会网上维权服务典型案例|全球速看
2023-04-22 -
世界关注:愤懑的意思是什么-愤懑的意思
2023-04-22 -
证监会:对泽达易盛和紫晶存储所涉中介机构开展“一案双查”
2023-04-22 -
最资讯丨地市级和副省级区别省考_地市级和副省级区别
2023-04-22 -
“90后”为第一批出境游主力军,占比超57% 全球球精选
2023-04-22 -
世界热议:星网宇达:公司的雷达产品主要用于安防监控和反无人机
2023-04-22 -
英雄司机_关于英雄司机的简介
2023-04-22 -
“上台走运·枣城有戏” 枣庄将打造五大项目、四条路线迎接“五一”游客-全球关注
2023-04-22 -
海南机场(600515):4月21日北向资金减持99.14万股-全球即时
2023-04-22 -
呆妹回应和钻粉群吵架,夸sylar人好;聊566五级大根事件
2023-04-22 -
每日看点!座椅屋顶操场边,北京首所碳中和试点校处处藏“玄机”
2023-04-22 -
“五一”假期 武汉天河机场将迎进出港客流高峰 全球速讯
2023-04-22 -
高效纤维球滤料商品报价动态(2023-04-21)
2023-04-22 -
4月21日基金净值:东吴兴享成长混合A最新净值0.8244,跌1.63% 环球微速讯
2023-04-22 -
18部新片抢占今年“五一档”,《长空之王》最受观众期待
2023-04-22 -
每日热闻!安鑫花的网贷逾期逾多久了上征信
2023-04-22 -
人民网评:“五个一百”,传递正能量、传播真善美
2023-04-22 -
新动态:上交所对*ST紫晶、*ST泽达实施重大违法强制退市
2023-04-22 -
天天即时看!久假不归成语解释(久假不归)
2023-04-22
-
守住网络直播的伦理底线
2021-12-16 -
石窟寺文化需要基于保护的“新开发”
2021-12-16 -
电影工作者不能远离生活
2021-12-16 -
提升隧道安全管控能力 智慧高速让司乘安心
2021-12-16 -
人民财评:提升消费体验,服务同样重要
2021-12-16 -
卫冕?突破?旗手?——武大靖留给北京冬奥会三大悬念
2021-12-16 -
新能源车险专属条款出台“三电”系统、起火燃烧等都可保
2021-12-16 -
美术作品中的党史 | 第97集《窗外》
2021-12-16 -
基金销售业务违规!浦发银行厦门分行等被厦门证监局责令改正
2021-12-16 -
保持稳定发展有支撑——从11月“成绩单”看中国经济走势
2021-12-16