1、AI模型更新有妙招!"废物应用"让大言语模型更弱小
构想一下,假设能把你的旧手机变成最新的智能设施,是不是很酷?在AI畛域,钻研人员就成功了相似的"魔法"!他们提出了一种叫做"upcycling"的方法,可以将现有的大言语模型(LLM)更新成更弱小的"专家混合模型"(MoE)。这项技术不只能提高模型功能,还能大幅节俭训练老本和期间。
那么,这种"更新魔法"是如何成功的呢?钻研团队启动了少量试验,探求了各种更新技巧和参数设置。他们发现,经过精心设计的训练打算、陈腐的"虚构分组"初始化方法,以及奇妙的权重缩放战略,可以让更新后的模型功能清楚优化。更令人兴奋的是,他们还发现了一种新的"专家路由"方法,让模型在处置消息时愈加高效。
为了证实这种更新方法的威力,钻研人员对Nemotron-4 15B模型启动了更新试验。结果令人惊喜:在相反的训练数据量下,更新后的模型在MMLU测试中的得分从65.3%优化到了67.6%。这象征着,经过"upcycling",咱们可以让现有的AI模型变得更痴呆、更高效,而无需从头开局训练新模型。
这项钻研不只为AI畛域带来了新的开展方向,也为咱们提供了一种全新的思绪:如何更好地利用和优化现有资源。在未来,咱们或者会看到更多的AI模型经过这种"更新魔法"变得愈加弱小,为各行各业带来更智能、更高效的处置打算。AI的未来,兴许就藏在这种翻新的"废物应用"中!
论文题目:Upcycling Large Language Models into Mixture of Experts
论文链接:
2、AI数学天赋还是数字骗子?GSM-Symbolic揭秘大言语模型的数学推理才干
你或者据说过AI在数学测试中体现惊人,但它们真的懂数学吗?最新钻研GSM-Symbolic给出了令人深思的答案。钻研团队经过翻新的符号化模板,生成了大质变体疑问,深化探求了大言语模型(LLMs)的数学推理才干。结果提醒,这些AI"数学天赋"或者并不如咱们构想的那么痴呆!
钻研发现,当面对GSM-Symbolic生成的新疑问时,一切模型的体现都出现了下滑。这不由让人疑心,之前在GSM8K测试中的高分能否只是数据污染造成的"假象"?更幽默的是,AI们对人名等内表变动还算"淡定",但一旦数字出现变动,它们就会变得"手足无措"。随着疑问复杂度参与,AI的体现更是日薄西山,暴显露其推理才干的局限性。
最令人惊讶的是GSM-NoOp试验。钻研者只是在疑问中参与了一些看似关系但实践有关的消息,结果AI的体现就大幅下滑,最高降幅竟达65%!这说明AI在分辨关键消息方面还很"童稚",其所谓的"推理"或者更像是一种形式婚配,而非真正的逻辑思索。即使给AI多个相似例子,它们依然难以克制这一应战,暴显露其推理环节中的深层疑问。
这项钻研不只提醒了AI在数学推理方面的局限性,也为咱们提供了一个全新的视角来评价和改良AI系统。它提示咱们,在为AI的"痴呆"喝彩之前,咱们还须要更深化、更片面的评价方法。未来,如何让AI真正把握逻辑推理才干,而不是仅仅依赖外表形式婚配,将成为AI钻研的一个关键方向。AI的数学之路,仿佛还有很长的路要走!
论文题目:GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
论文链接:
本文转载自,作者: