大数字一贯吸引眼球。
千亿参数、万卡集群,——还有各大厂商不时在卷的超长高低文。
从一开局的几K几十K,开展到了当初的百万token级别。
Gemini的最新版本可以接纳200万个token作为高低文。
这大略相当于140万个单词、2小时视频或许22小时的音频。
但不知诸位往罕用得着这么长的高低文吗?毕竟100K曾经相当于一部比拟长的小说了。
更关键的是,LLM真的能在这个长度上启动推理吗?
近日,有两篇独立钻研区分标明:长高低文水分很大!LLM实践上并不能「了解」内容。
读小说应战
首先是来自UMass、AI2和普林斯顿的钻研人员,推出了一项针对性的测试。
论文地址:
代码和示例数据:
传统的长高低文测试手腕普通被称为「海底捞针」(needle-in-a-haystack):
将一个理想(针)嵌入到少量的高低文消息(干草堆)中,而后测试模型能否找到这根「针」,并回答与之关系的疑问。
这种模式基本上权衡的是LLM的检索才干,有些流于外表。
于是钻研人员构建了NoCha(小说应战)数据集,让模型依据所提供的高低文(书籍)验证申明的虚实。
如下图所示,由小说的粉丝依据书籍内容,提出关于同一事情或角色叙说的一对相反的申明。
LLM看完小说后须要区分判别两个疑问的虚实(确保是依据了解做题,打击在考场上瞎蒙的)。
关于一对疑问的回答有四种状况,只要两个疑问全对时才干得一分。
钻研人员测试了目前最强的一些长高低文模型(包括闭源和开源),并将效果单贴在墙上,地下处刑:
首当其冲的是GPT-4o,只管全班第一,然而55.75分。
而开源营垒的效果间接惨不忍睹,体现最好的Command R(simple)只要22.47%的准确率。
——要知道,这考试瞎蒙也能得25分(四选一)。
当然,这也说明人家不是瞎蒙的,确实动脑子了。
视觉上的长高低文
另一篇钻研来自UCSB,调查的是视觉大模型(VLM)的长高低文才干。
论文地址:
关键的试验思绪如下图所示,钻研人员经过不时参与高低文长度(搅扰图片的数量),将现有的VQA基准和便捷图像识别集 (MNIST) 裁减为测试长高低文「提取推理」的示例。
结果在便捷VQA义务上,VLM的性能出现出惊人的指数衰减。
——LLM:暴露无遗了家人们。
而与实践钻研相对的,在往年早些时刻,谷歌展现了几个预先录制的演示。
让Gemini 1.5 Pro搜查阿波罗11号登月的电视直播记载(约402页),查找蕴含笑话的引语,以及在电视直播中找到与铅笔素描相似的场景。
掌管这次简报会的谷歌DeepMind钻研副总裁Oriol Vinyals示意,「Gemini 1.5 Pro可以在每一页、每一个单词上口头此类推理义务。」
一千零一夜
第一篇上班被作者命名为「One Thousand and One Pairs」(上方这盏灯应该也是这么来的)。
一千零一在这里有两个含意,首先用于测试的资料基本都是小说,关于大模型来说,算是故事会了;
其次,作者真的花钱请人注释了刚刚好1001个疑问对。
为了保障模型不可依托自己的常识来舞弊,这1001个疑问大局部来自于最近出版的虚拟叙事类读物。
数据搜集
NoCha数据集包括63本旧书(33本于2023年出版,30本于2024年出版)和四本经典小说,书籍的平均长度为127k个token(约98.5k个单词)。
注释者首先写出关于书中事情或人物的实在陈说,而后针对同一对象创立相应的虚伪陈说,同时还须要给出一个冗长的解释,说明为什么这些说法是正确或失误的。
为了确保申明的品质,作者延聘了读过相反书籍的注释者,来验证五本书中的128个申明,并最终对其中的124个达成了分歧。
上方给出参与本次考试的考生消息(开源和闭源两大营垒):
以及考试效果:
结果剖析
假设依照小说类型划分,一切六个闭源模型在历史小说上的准确率为56.4%,当代小说为46.8%,推理小说为38.8%。
关于每个模型来说,都是历史小说的准确度最高,当代小说次之,推理小说的准确度最低。
从这个结果来看,貌似LLM的推理更多依赖于自身参数中的常识。
接上去做个对比试验:假设某个主张可以经过书中的一小局部内容来独自验证,那么提供本书的其他局部能否会影响其准确性?
上图显示了在四个短篇故事集上的模型性能,每两行为一组,上方一行示意给出整本书(约129k token)时的准确率,上方示意只给出与申明关系的局部(约21k token)。
Gemini关于参与高低文的体现相对持重,而Claude-3-Opus的准确度间接降低了44.5%,Claude-3.5-Sonnet、GPT-4-Turbo和GPT-4o的体现也大幅降低。
作者示意,与句子层面的检索义务相比,模型在验证须要思考整本书(或大局部)内容的疑问时,显得力所能及。
另外,书中的一些隐含消息关于人类读者来说是明白的,但LLM却不可了解。
海底捞针
另一项钻研来自加州大学圣巴巴拉分校(UCSB),作者引入了 LoCoVQA,一种带有搅扰项的长高低文视觉问答 (VQA) 基准生成器。
LoCoVQA可以提供与疑问关系的图像序列,以及一组可性能的视觉搅扰项,从而准确评价VLM如何在错乱的高低文中仅提取与查问关系的消息。
从原理上讲,这也是一项「海底捞针」的义务。
另外,LoCoVQA的方法能够以任用意像了解数据集为基础,创立长高低文图像了解测试。
生成方法
经过LoCoVQA分解的样本蕴含一个或多个与问答对(