企业宣传,产品推广,广告招商,广告投放联系seowdb

最强GPT 长高低文才干只是吹嘘

大数字一贯吸引眼球。

千亿参数、万卡集群,——还有各大厂商不时在卷的超长高低文。

从一开局的几K几十K,开展到了当初的百万token级别。

Gemini的最新版本可以接纳200万个token作为高低文。

这大略相当于140万个单词、2小时视频或许22小时的音频。

但不知诸位往罕用得着这么长的高低文吗?毕竟100K曾经相当于一部比拟长的小说了。

更关键的是,LLM真的能在这个长度上启动推理吗?

近日,有两篇独立钻研区分标明:长高低文水分很大!LLM实践上并不能「了解」内容。

读小说应战

首先是来自UMass、AI2和普林斯顿的钻研人员,推出了一项针对性的测试。

论文地址:

代码和示例数据:

传统的长高低文测试手腕普通被称为「海底捞针」(needle-in-a-haystack):

将一个理想(针)嵌入到少量的高低文消息(干草堆)中,而后测试模型能否找到这根「针」,并回答与之关系的疑问。

这种模式基本上权衡的是LLM的检索才干,有些流于外表。

于是钻研人员构建了NoCha(小说应战)数据集,让模型依据所提供的高低文(书籍)验证申明的虚实。

如下图所示,由小说的粉丝依据书籍内容,提出关于同一事情或角色叙说的一对相反的申明。

LLM看完小说后须要区分判别两个疑问的虚实(确保是依据了解做题,打击在考场上瞎蒙的)。

关于一对疑问的回答有四种状况,只要两个疑问全对时才干得一分。

钻研人员测试了目前最强的一些长高低文模型(包括闭源和开源),并将效果单贴在墙上,地下处刑:

首当其冲的是GPT-4o,只管全班第一,然而55.75分。

而开源营垒的效果间接惨不忍睹,体现最好的Command R(simple)只要22.47%的准确率。

——要知道,这考试瞎蒙也能得25分(四选一)。

当然,这也说明人家不是瞎蒙的,确实动脑子了。

视觉上的长高低文

另一篇钻研来自UCSB,调查的是视觉大模型(VLM)的长高低文才干。

论文地址:

关键的试验思绪如下图所示,钻研人员经过不时参与高低文长度(搅扰图片的数量),将现有的VQA基准和便捷图像识别集 (MNIST) 裁减为测试长高低文「提取推理」的示例。

结果在便捷VQA义务上,VLM的性能出现出惊人的指数衰减。

——LLM:暴露无遗了家人们。

而与实践钻研相对的,在往年早些时刻,谷歌展现了几个预先录制的演示。

让Gemini 1.5 Pro搜查阿波罗11号登月的电视直播记载(约402页),查找蕴含笑话的引语,以及在电视直播中找到与铅笔素描相似的场景。

掌管这次简报会的谷歌DeepMind钻研副总裁Oriol Vinyals示意,「Gemini 1.5 Pro可以在每一页、每一个单词上口头此类推理义务。」

一千零一夜

第一篇上班被作者命名为「One Thousand and One Pairs」(上方这盏灯应该也是这么来的)。

一千零一在这里有两个含意,首先用于测试的资料基本都是小说,关于大模型来说,算是故事会了;

其次,作者真的花钱请人注释了刚刚好1001个疑问对。

为了保障模型不可依托自己的常识来舞弊,这1001个疑问大局部来自于最近出版的虚拟叙事类读物。

数据搜集

NoCha数据集包括63本旧书(33本于2023年出版,30本于2024年出版)和四本经典小说,书籍的平均长度为127k个token(约98.5k个单词)。

注释者首先写出关于书中事情或人物的实在陈说,而后针对同一对象创立相应的虚伪陈说,同时还须要给出一个冗长的解释,说明为什么这些说法是正确或失误的。

为了确保申明的品质,作者延聘了读过相反书籍的注释者,来验证五本书中的128个申明,并最终对其中的124个达成了分歧。

上方给出参与本次考试的考生消息(开源和闭源两大营垒):

以及考试效果:

结果剖析

假设依照小说类型划分,一切六个闭源模型在历史小说上的准确率为56.4%,当代小说为46.8%,推理小说为38.8%。

关于每个模型来说,都是历史小说的准确度最高,当代小说次之,推理小说的准确度最低。

从这个结果来看,貌似LLM的推理更多依赖于自身参数中的常识。

接上去做个对比试验:假设某个主张可以经过书中的一小局部内容来独自验证,那么提供本书的其他局部能否会影响其准确性?

上图显示了在四个短篇故事集上的模型性能,每两行为一组,上方一行示意给出整本书(约129k token)时的准确率,上方示意只给出与申明关系的局部(约21k token)。

Gemini关于参与高低文的体现相对持重,而Claude-3-Opus的准确度间接降低了44.5%,Claude-3.5-Sonnet、GPT-4-Turbo和GPT-4o的体现也大幅降低。

作者示意,与句子层面的检索义务相比,模型在验证须要思考整本书(或大局部)内容的疑问时,显得力所能及。

另外,书中的一些隐含消息关于人类读者来说是明白的,但LLM却不可了解。

海底捞针

另一项钻研来自加州大学圣巴巴拉分校(UCSB),作者引入了 LoCoVQA,一种带有搅扰项的长高低文视觉问答 (VQA) 基准生成器。

LoCoVQA可以提供与疑问关系的图像序列,以及一组可性能的视觉搅扰项,从而准确评价VLM如何在错乱的高低文中仅提取与查问关系的消息。

从原理上讲,这也是一项「海底捞针」的义务。

另外,LoCoVQA的方法能够以任用意像了解数据集为基础,创立长高低文图像了解测试。

生成方法

经过LoCoVQA分解的样本蕴含一个或多个与问答对(

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender