文章链接:代码链接:链接:链接:(chatgpt * 30, musiccaps * 30)
背景
近年来,基于分散的文本到音乐(TTM)生成方法逐渐遭到注重,提供了一种翻新的方法,将文本形容分解音乐内容。要在这永世成环节中成功高准确性和多样性,必定依赖少量高品质的数据,包含高保真音频波形和详细的文本形容,但这些理论仅占现有数据集中的一小局部。在开源数据集中,低品质音乐波形、标签失误、弱标签和无标签数据等疑问清楚阻碍了音乐生成模型的开展。为了处置这些应战,当天和大家分享一种全新的高品质音乐生成范式,该范式结合了品质感知训练战略,使生成模型能够在训练环节中分别输入音乐波形的品质。应用音乐信号的共同个性,首先针对TTM义务调整并成功了一个掩码分散Transformer(MDT)模型,展现出其在品质控制和音乐性增强方面的共同才干。此外,还经过字幕优化数据处置方法处置了TTM中低品质字幕的疑问。试验结果标明,在MusicCaps和Song-Describer数据集上取得了最先进的(SOTA)功能。
音乐生成(音效生成)畛域的疑问为品质低,详细来说分为三个方面:
翻新方法及思绪
品质消息注入
处置: 引入品质感知训练战略 。驳回客观数据集中的MOS分训练出的品质评分模型,在训练环节中注入(伪MOS分)音频品质消息。
两种注入方法:
论断 :品质感知战略准许了在推理阶段以 高品质文本和品质token启动疏导 ,从而生成清楚高于训练集平均品质的音频。
以相似 解耦的方式 在训练中感知音频的品质(相似TTS中分别出音色训练),从而更好地促成了模型的训练 (大幅降落FAD,KL,并优化IS,REL,CLAP等目的) 。
咱们还发现,粗粒度文本控制和细粒度token控制 相结合 ,更有助于模型训练中解耦,感知,并控制更高品质音频的生成,从而处置训练数据集影响的疑问
品质感知型 masked分散Transformer
处置 :从音乐性建模角度,咱们发现 U-ViT/DiT 类架构对频谱隐空间建模也具备图像上表白的scale ability,并能更好建模谐波,音色等方面(反响在客观评分)
优化 :
优化音乐标注形容
处置 :初次在音乐生成畛域经常使用预训练标注模型(LP-Musiccaps)启动大规模标注 优化 :
试验
总体对比与,对比U-net架构和transformer based架构
对比overlap战略和patch size
品质感知消融
此图证实了相比于无品质感知,大幅优化了生成品质和客观目的。并且,MDT(咱们的架构)比 U-Net 在文本品质控制感知上的共同长处(生成品质更高,总体客观目的更好)
左图展现了 token as control 的准确感知控制生成才干,生成的高品质数据(黄色区域)清楚高于训练集MOS分。
右图展现了文本品质控制和token品质控制的结合成果与单纯token和文本控制的对比。
客观评测结果
各团体的评分下,均有长处。
论断与展望
本钻研识别出大规模音频品质不均和文本标注未对齐所带来的应战,这些应战阻碍了基于分散的文本到音乐(TTM)生成的开展。经过驳回基于p-MOS的新型品质感知学习方法,以及以masked分散Transformer作为分散环节的骨干,在音乐生成中成功了更高的生成品质和音乐性。
原文链接: