企业宣传,产品推广,广告招商,广告投放联系seowdb

用户偏好数据 谷歌调优MusicLM的秘密

何谓MusicLM?

MusicLM是谷歌公司开发的文本到音乐人工自动中的旗舰产品,最后颁布于2023年终。即使是在其基础版本阶段,它也代表着一个严重打破,并让音乐行业大吃一惊。但是,几周前,MusicLM启动了一次性关键的更新。以下给出的是针对两个筛选的提醒句子的并排比拟状况:

中文意思:“带有旋律分解并伴有琶音的舞曲”:

Prompt: “a nostalgic tune played by accordion band”

中文意思:“手风琴乐队演奏的复旧曲调”

上述音乐品质的提高关键归因于谷歌钻研公司的一篇新论文,题为《MusicRL: Aligning Music Generation to Human Preferenc\es》。显然,这次更新被以为意义严重;因此,他们选择从新命名该模型。但是,从底层成功来看,MusicRL在其关键架构上与MusicLM齐全相反。惟一的区别在于:微调形式不同。

何谓微调?

当人们从头开局构建人工自动模型时,都是从零常识开局的,实质上是启动随机猜想。而后,该模型经过对数据启动训练来提取有用的形式,并随着训练的启动开局显示越来越自动的行为。这种方法的一个缺陷是,从头开局训练须要少量数据。相比来说,微调则是经常使用现有模型并使其顺应新义务,或许使其顺应以不同的形式处置同一义务。由于模型曾经学习了最关键的形式,所以所需的数据相对传统打算要少得多。

例如,准则上,任何人都可以从头开局训练像Mistral7B这样弱小的开源LLM。即使发生十分有用的输入,也须要少量的数据。相反,假设公司经常使用现有的Mistral7B模型,并向其提供大批专有数据,就可以使其处置新的义务,无论是编写SQL查问这样的义务还是关于像电子邮件启动分类的义务。

关键是微调不会扭转模型的基本结构。它只是稍微调整其外部逻辑,以便在特定义务上口头得更好。如今,让咱们应用这些常识来了解谷歌是如何在用户数据基础上微调MusicLM的。

谷歌如何搜集用户数据

MusicLM论文宣布几个月后,作为谷歌人工自动Test Kitchen名目的一局部,颁布了一个地下演示版本。此版本中,用户可以收费试用文本到音乐的模型。但是,你或许知道这样一句话:假设产品是收费的,你就成为产品自身。不出所料,谷歌也不例外。在经常使用MusicLM的地下演示版本时,您偶然会遇到两个生成的输入结果,并被要求说明您青睐哪一个。经过这种方法,谷歌能够在几个月内搜集到300000个用户偏好。

MusicLM公共游乐场中捕捉的用户偏好评级示例(图片取自MusicRL论文:)

正如你从屏幕截图中看到的,用户没有被明白告知他们的偏好将用于机器学习。虽然这或许觉得不偏心,但关键的是要留意,咱们在互联网上的许多行为都被用于ML训练,无论是咱们的谷歌搜查历史、咱们的Instagram点赞,还是咱们的公家Spotify播放列表。与这些相当私密和敏感的状况相比,MusicLM游乐场上的音乐偏好搜集仿佛微无余道。

Linkedin协作文章上的用户数据搜集示例

值得留意的是,机器学习的用户数据搜集不时在启动,理论不须要明白的赞同。假设你在Linkedin上,你或许会被约请为所谓的“协作文章”投稿。从实质上讲,用户被约请就其专业畛域的疑问提供提醒。下图给出的是一篇关于如何写一首成功的民歌(我不知道我须要什么)的协作文章()的例子。

一篇关于歌曲创作的协作文章的题目(左边是我被要求捐款以取得“顶级声响”徽章)

处罚用户投稿,为他们赢得平台上的“顶级声响”徽章。但是,我的印象是,没有人真正读过这些文章。这让我置信,微软(Linkedin的一切者)正在经常使用这数千个问答对来训练这些数据的专家人工自动系统。假设我的疑心是准确的,那么我会发现这个例子比谷歌向用户征询他们最青睐的曲目更有疑问。

废话少讲,还是回到咱们探讨的MusicLM!

谷歌如何应用这些用户数据

接上去的一个疑问是,谷歌是如何应用这一宏大的用户偏好汇合来微调MusicLM的。其实,秘密在于一种名为“从人类反应中强化学习(RLHF)”的技术,这是ChatGPT在2022年的关键打破技术之一。在RLHF中,人类偏好被用来训练一团体工自动模型,该模型学习模拟人类偏好决策,从而发生一团体工评分器。一旦这个所谓的处罚模型被训练进去,它就可以接受任何两个曲目,并预测哪一个曲目最有或许被人类评分者所偏好。

经过建设处罚模型,人们可以对MusicLM启动微调,以最大限制地提高其输入的预测用户偏好。这象征着,文本到音乐模型可以生成数千首曲目,而每首曲目都能够从处罚模型中取得评级。经过对模型权重的迭代自顺应,MusicLM可学会生成相当于人工评分者“青睐”的音乐。

从人类反应中强化学习(RLHF)作出的解释(图片取自MusicRL论文:)

除了对用户偏好启动微调外,MusicLM还对另外两个规范启动了微调:

1.提醒听从

经常使用谷歌专有的文本到音频嵌入模型MuLan()可以计算用户提醒和生成的音频之间的相似性。在微调环节中,这种听从性得分被最大化。

2.音频品质

谷歌在用户数据上训练了另一个处罚模型,以评价其生成输入的客观音频的品质。这些用户数据仿佛是在独自的考查中搜集的,而不是在MusicLM公展开现的版本中。

新的MusicLM有多好?

新发生的经过微调的模型大略率优于旧的MusicLM,有兴味的读者可以听一下其展现页面()上提供的示例声响。当然,一个筛选出的公展开现作品或许是骗人的,由于创作者会被加以处罚以便展现他们的新模型看起来尽或许好。真心宿愿咱们大家能很快在公共场合测试经常使用MusicRL。

但是,论文中也提供了关于客观品质的定量评价。为此,谷歌启动了一项钻研,要求用户为同一提醒生成的两首曲目加以比拟,每条曲目的得分范围是从1到5。将这个目的与平均意见得分(MOS)联合经常使用,咱们不只可以比拟每个模型的间接比拟获胜次数,还可以计算平均意见得分(MOS)。

定量基准目的比拟结果(图片雷同取自上述MusicRL论文)

上述图片中,MusicLM示意原始的MusicLM模型。MusicRL-R仅针对音频品质和提醒听从方面启动了微调。MusicRL-U仅依据人类反应(处罚模型)启动微调。最后,MusicRL RU在一切三个目的上都启动了微调。毫不奇异,MusicRL RU在间接比拟敌对均收视率方面击败了一切其余模型。

该论文还报道称,齐全微调的MusicRL-RU模型在87%的间接比拟中击败了MusicLM模型。经过分析MusicRL-R和MusicRL-RU之间的间接比拟,可以看出RLHF的关键性。在这里,后者的胜率为66%,比拟有掌握地超越了竞争对手。

这象征着什么?

虽然输入品质的差异在品质和数量上都很显著,但在大少数状况下,新的MusicLM与人类水平的输入依然相距甚远。即使在公共演示页面上,许多生成的输入曲目听起来也很奇异,有节拍,不可捕捉到从提醒中输入的关键元素,或许声响不人造。

在我看来,下面这篇论文依然意义严重,由于它是第一次性尝试将RLHF用于音乐生成。RLHF在文本生成中曾经被宽泛经常使用了一年多。但为什么花了这么长期间?我疑心搜集用户反应和微调模型的老本相当高。谷歌或许颁布地下的MusicLM演示的关键目的是搜集用户反应。显然,这是一个理智的举动,这会使他们比Meta公司有长处,由于Meta公司有雷同弱小的模型,但没有提供开明的平台来搜集用户数据。

总的来说,谷歌应用了从ChatGPT自创来的经过验证的微调方法,使自己在竞争中上游。虽然借助于RLHF技术其改良版本的新的MusicLM依然没有到达人类水平的品质,但谷歌如今可以保养和更新其处罚模型,经过相反的微调程序改良未来几代的文本到音乐模型。

看看Meta或Stability AI等其余竞争对手能否以及何时会迎头赶上,这将是一件幽默的事件。关于咱们这些用户来说,这一切都是个好信息!咱们会领有收费的地下演示版本和更弱小的模型。

关于音乐家来说,AI目前的开展步调或许会对他们有点要挟——这是有充沛理由的。我宿愿在未来的1-3年里看到人类水平的文本到音乐的一代模型。我指的是文本到音乐人工自动方面的模型,它在制造音乐方面的才干至少与ChatGPT颁布时编写文本的才干一样。音乐家必定了解人工自动,以及它如何在日常上班中为他们提供允许。随着音乐行业再次被推翻,猎奇心和灵敏性将是成功的首要关键。

对音乐AI感兴味?

假设你青睐这篇文章,你或许想看看我撰写的其余文章:

您也可以在Linkedin上关注我(),随时了解音乐人工自动的最新论文和趋向。

参考文献

译者引见

朱先忠,社区编辑,专家博客、讲师,潍坊一所高校计算机老师,自在编程界老兵一枚。

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender