本文涵盖了我最近在ISMIR 2024上宣布的论文《聚类和分别:一种用于乐谱雕琢的声响和谱表预测的GNN方法》的关键内容。
简介
以MIDI等格局编码的音乐,即使蕴含量化音符、拍号或小节消息,通常也缺少可视化的关键元素,例如语音和五线谱消息。这种限度也实用于音乐生成、转录或编曲系统的输入。因此,这种音乐无法随便转换成人类音乐家可以解读和演奏的可读乐谱。
值得留意的是,语音和五线谱分别只是乐谱雕琢系统或许处置的泛滥方面中的两个——其余方面包括音高拼写、节拍分组和连音创立等。
在音乐术语中,“声部(voice)”通常是指一系列不堆叠的音符,通常称为单声道声响。但是,在处置复调乐器时,这个定义并不充沛。例如,声部还可以包括和弦,和弦是同时演奏的音符组,被视为一个单元。在这种状况下,咱们将这种能够蕴含和弦的声响称为谐音。
疑问
将量化的符号音乐作品(例如MIDI文件)中的音符分别成多个声部和五线谱是一项关键且不便捷的义务。它是乐谱雕琢(或乐谱排版)这一更大义务的基本组成局部,旨在为人类扮演者制造可读的乐谱。
乐谱是音乐家的关键工具,由于它能够以紧凑的图形方式传达音乐消息。与其余或许更容易为机器定义和处置的音乐示意方式(例如MIDI文件)相比,乐谱的特点是训练有素的音乐家能够高效地浏览它。
给定一个量化的MIDI,有很多方法可以将其转换为可读格局,其中关键包括将音符分别成声部和五线谱。
请参见以下两种或许性。它们展现了雕琢系统通常如何上班。
最大的疑问是咱们如何使智能转录模型更好
动机
为了开发一种更有效的系统来将音符分别为声部和五线谱,特意是关于复杂的钢琴音乐,咱们须要从不同的角度从新思索这个疑问。咱们的指标是从量化的MIDI开局提高转录音乐的可读性,这关于制造出好的乐谱和让音乐家更好地演奏十分关键。
为了取得良好的乐谱可读性,两个元素或许是最关键的:
如前所述,在钢琴乐谱中,声响不是严厉意义上的单音,而是谐音。这象征着,一个声响可以蕴含一个或多个同时演奏的音符。从如今开局,咱们称之为和弦。你可以在上图底部的标尺中看到一些以紫色突出显示的和弦示例。
从机器学习的角度来看,咱们有两个义务须要处置:
但是,间接预测语音标签是有疑问的。咱们须要确定系统可以接受的最大语音数量,但这会在系统灵敏性和数据中的类别不平衡之间发生权衡。
例如,假设咱们将最大声响数设置为8,以示意每个五线谱中有4个声响,就像在音乐符号软件中通常做的那样,那么咱们可以预期在咱们的数据集中标签8和4的出现次数会十分少。
带相对标签的语音分别
特意检查此处的乐谱摘录,语音3、4和8齐全缺失。高度不平衡的数据会降落多标签分类器的性能,假设咱们设置较少的语音数量,咱们将失去系统灵敏性。
方法论
处置这些疑问的方法是能够将系统在某些声响上学到的常识翻译成其余声响。为此,咱们丢弃了多类分类器的想法,并将语音预测构建为链接预测疑问。假设两个音符在同一声响中是延续的,咱们想将它们咨询起来。这样做的好处是将一个复杂的疑问合成为一组十分便捷的疑问。关于每对音符,咱们再次预测一个二进制标签,通知这两个音符能否链接。这种方法也实用于和弦,正如你在这张图片的高音中所看到的那样。
这个环节将创立一个咱们称之为输入图的图。为了找到声响,咱们可以便捷地计算输入图的连通重量!
重申一下,咱们将语音和谱表分别疑问表述为两个二元预测义务。
让咱们回忆一下到目前为止咱们的系统是什么样子的:咱们有三个二元分类器,一个输入单个音符,两个输入成对的音符。咱们如今须要的是好的输入特色,这样咱们的分类器就可以在预测中经常使用高低文消息。经常使用深度学习词汇表,咱们须要一个好的音符编码器!
咱们选用经常使用图神经网络(GNN)作为音符编码器,由于它通常在符号音乐处置方面体现杰出。因此,咱们须要从音乐输入中创立一个图。
为此,咱们确定性地从量化MIDI构建一个新的图,咱们称之为输入图。
经常使用GraphMuse等工具可以轻松创立这些输入图
如今,把一切内容放在一同,咱们的模型看起来像这样:
后处置的指标是删除或许造成有效输入的性能,例如将语音拆分为两个语音。为了缓解这些疑问:
咱们系统的后处置程序
咱们系统的一个突出特点是,它在音乐剖析和乐谱雕琢方面能够逾越其余现有系统。与依赖音乐启示式的传统方法(有时或许无法靠)不同,咱们的系统经过坚持便捷但持重的方法来防止这些疑问。此外,由于内存和计算要求低,咱们的系统能够计算出整个片段的全局解,而无需启动宰割。此外,它能够处置有限数量的声响,使其成为复杂音乐作品中更灵敏、更弱小的工具。这些优势突出了该系统的持重设计及其以更高的精度和效率应答音乐处置当战的才干。
数据集
为了训练和评价咱们的系统,咱们经常使用了两个数据集。J-pop数据集蕴含811首盛行钢琴乐谱,DCML浪漫语料库蕴含393首浪漫音乐钢琴乐谱。相比之下,DCML语料库要复杂得多,由于它蕴含的乐谱存在许多艰巨,如少量的声响、声响交叉和五线谱交叉。经常使用复杂和便捷数据的组合,咱们可以训练一个对不同类型的输入坚持鲁棒性和灵敏性的系统。
可视化预测
为了配合咱们的系统,咱们还开发了一个Web界面,可以可视化和探求输入和输入图形,调试复杂的案例,或许只是更好地理解图形创立环节。请检查链接。
为了对咱们的模型如何上班以及预测如何变动启动偏心的比拟和更深化的了解,咱们细心钻研了一些。
咱们将基本理想边缘(链接)与咱们预测的边缘启动比拟,以启动和弦和语音预测。请留意,在你正在检查的示例中,在咱们的可视化工具的协助下,输入图间接绘制在乐谱的顶部。
前两个小节做得很好,但咱们可以在第三个小节看到咱们系统的一些局限性。在凑近音高范围内但声响陈列不同的同步音符或许会有疑问。
咱们的模型预测了一个蕴含一切同步切分四分之一音符的单个和弦(而不是跨和弦),并且还预测了第一个D#4音符的和弦。对为什么会出现这种状况启动更深化的钻研并非易事,由于神经网络不能间接解释。
放开式应战
虽然咱们的系统具有诸多优势,但未来开展仍面临一些应战。目前,此版本未思索装璜音,并且必定在输入中明白复制堆叠音符,这或许会很费事。此外,虽然咱们曾经开发了用于可视化结果的初始MEI导出性能,但这依然须要进一步降级才干齐全支持符号乐谱中发现的各种例外和复杂性。处置这些疑问将是增强系统多性能性并使其更顺应各种音乐作品的关键。
论断
本文引见了一种基于图形的方法,用于符号钢琴音乐中的同音分别和谱线预测。新方法比现有的深度学习或基于启示式的系统体现更好。最后,还提供了一个后处置步骤,可以从模型中删除或许造成分数不正确的疑问预测。
注1:论文《聚类与分别:一种用于乐谱雕琢的语音和五线谱预测的GNN方法》的GitHub代码库地址是:
注2:本文中一切图片皆由作者自己提供。
译者引见
朱先忠,社区编辑,专家博客、讲师,潍坊一所高校计算机老师,自在编程界老兵一枚。
Voice and Staff Separation in Symbolic Piano Music with GNNs