科大讯飞重磅开源OpenMusic 人人都是音乐家！中科大&amp 音乐生成更高品质更有乐感

文章链接：代码链接：链接：链接：（chatgpt * 30， musiccaps * 30）

背景

近年来，基于分散的文本到音乐（TTM）生成方法逐渐遭到注重，提供了一种翻新的方法，将文本形容分解音乐内容。要在这永世成环节中成功高准确性和多样性，必定依赖少量高品质的数据，包含高保真音频波形和详细的文本形容，但这些理论仅占现有数据集中的一小局部。在开源数据集中，低品质音乐波形、标签失误、弱标签和无标签数据等疑问清楚阻碍了音乐生成模型的开展。为了处置这些应战，当天和大家分享一种全新的高品质音乐生成范式，该范式结合了品质感知训练战略，使生成模型能够在训练环节中分别输入音乐波形的品质。应用音乐信号的共同个性，首先针对TTM义务调整并成功了一个掩码分散Transformer（MDT）模型，展现出其在品质控制和音乐性增强方面的共同才干。此外，还经过字幕优化数据处置方法处置了TTM中低品质字幕的疑问。试验结果标明，在MusicCaps和Song-Describer数据集上取得了最先进的（SOTA）功能。

音乐生成（音效生成）畛域的疑问为品质低，详细来说分为三个方面：

翻新方法及思绪

品质消息注入

处置： 引入品质感知训练战略 。驳回客观数据集中的MOS分训练出的品质评分模型，在训练环节中注入（伪MOS分）音频品质消息。

两种注入方法：

论断：品质感知战略准许了在推理阶段以 高品质文本和品质token启动疏导 ，从而生成清楚高于训练集平均品质的音频。

以相似 解耦的方式 在训练中感知音频的品质（相似TTS中分别出音色训练），从而更好地促成了模型的训练 （大幅降落FAD，KL，并优化IS，REL，CLAP等目的） 。

咱们还发现，粗粒度文本控制和细粒度token控制 相结合 ，更有助于模型训练中解耦，感知，并控制更高品质音频的生成，从而处置训练数据集影响的疑问

品质感知型 masked分散Transformer

处置：从音乐性建模角度，咱们发现 U-ViT/DiT 类架构对频谱隐空间建模也具备图像上表白的scale ability，并能更好建模谐波，音色等方面（反响在客观评分）

优化：

优化音乐标注形容

处置：初次在音乐生成畛域经常使用预训练标注模型（LP-Musiccaps）启动大规模标注优化：

试验

总体对比与，对比U-net架构和transformer based架构

对比overlap战略和patch size

品质感知消融

此图证实了相比于无品质感知，大幅优化了生成品质和客观目的。并且，MDT（咱们的架构）比 U-Net 在文本品质控制感知上的共同长处（生成品质更高，总体客观目的更好）

左图展现了 token as control 的准确感知控制生成才干，生成的高品质数据（黄色区域）清楚高于训练集MOS分。

右图展现了文本品质控制和token品质控制的结合成果与单纯token和文本控制的对比。

客观评测结果

各团体的评分下，均有长处。

论断与展望

本钻研识别出大规模音频品质不均和文本标注未对齐所带来的应战，这些应战阻碍了基于分散的文本到音乐（TTM）生成的开展。经过驳回基于p-MOS的新型品质感知学习方法，以及以masked分散Transformer作为分散环节的骨干，在音乐生成中成功了更高的生成品质和音乐性。

原文链接:

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#云雀 #紫东太初 #音乐 #OpenAI #ChatGPT #AI #日日新 #文心一言 #AIGC运行 #言犀 #孟子 #4 #Agent #清言 #开源大模型 #人工自动 #Sora #GPT #多模态 #AIGC #大模型 #Bard #悟道 #Copilot #通义千问 #LaMDA #盘古 #混元 #生成

科大讯飞重磅开源OpenMusic 人人都是音乐家！中科大&amp 音乐生成更高品质 更有乐感

背景