最强GPT 长高低文才干只是吹嘘

大数字一贯吸引眼球。

千亿参数、万卡集群，——还有各大厂商不时在卷的超长高低文。

从一开局的几K几十K，开展到了当初的百万token级别。

Gemini的最新版本可以接纳200万个token作为高低文。

这大略相当于140万个单词、2小时视频或许22小时的音频。

但不知诸位往罕用得着这么长的高低文吗？毕竟100K曾经相当于一部比拟长的小说了。

更关键的是，LLM真的能在这个长度上启动推理吗？

近日，有两篇独立钻研区分标明：长高低文水分很大！LLM实践上并不能「了解」内容。

读小说应战

首先是来自UMass、AI2和普林斯顿的钻研人员，推出了一项针对性的测试。

论文地址：

代码和示例数据：

传统的长高低文测试手腕普通被称为「海底捞针」（needle-in-a-haystack）：

将一个理想（针）嵌入到少量的高低文消息（干草堆）中，而后测试模型能否找到这根「针」，并回答与之关系的疑问。

这种模式基本上权衡的是LLM的检索才干，有些流于外表。

于是钻研人员构建了NoCha（小说应战）数据集，让模型依据所提供的高低文（书籍）验证申明的虚实。

如下图所示，由小说的粉丝依据书籍内容，提出关于同一事情或角色叙说的一对相反的申明。

LLM看完小说后须要区分判别两个疑问的虚实（确保是依据了解做题，打击在考场上瞎蒙的）。

关于一对疑问的回答有四种状况，只要两个疑问全对时才干得一分。

钻研人员测试了目前最强的一些长高低文模型（包括闭源和开源），并将效果单贴在墙上，地下处刑：

首当其冲的是GPT-4o，只管全班第一，然而55.75分。

而开源营垒的效果间接惨不忍睹，体现最好的Command R（simple）只要22.47%的准确率。

——要知道，这考试瞎蒙也能得25分（四选一）。

当然，这也说明人家不是瞎蒙的，确实动脑子了。

视觉上的长高低文

另一篇钻研来自UCSB，调查的是视觉大模型（VLM）的长高低文才干。

论文地址：

关键的试验思绪如下图所示，钻研人员经过不时参与高低文长度（搅扰图片的数量），将现有的VQA基准和便捷图像识别集 (MNIST) 裁减为测试长高低文「提取推理」的示例。

结果在便捷VQA义务上，VLM的性能出现出惊人的指数衰减。

——LLM：暴露无遗了家人们。

而与实践钻研相对的，在往年早些时刻，谷歌展现了几个预先录制的演示。

让Gemini 1.5 Pro搜查阿波罗11号登月的电视直播记载（约402页），查找蕴含笑话的引语，以及在电视直播中找到与铅笔素描相似的场景。

掌管这次简报会的谷歌DeepMind钻研副总裁Oriol Vinyals示意，「Gemini 1.5 Pro可以在每一页、每一个单词上口头此类推理义务。」

一千零一夜

第一篇上班被作者命名为「One Thousand and One Pairs」（上方这盏灯应该也是这么来的）。

一千零一在这里有两个含意，首先用于测试的资料基本都是小说，关于大模型来说，算是故事会了；

其次，作者真的花钱请人注释了刚刚好1001个疑问对。

为了保障模型不可依托自己的常识来舞弊，这1001个疑问大局部来自于最近出版的虚拟叙事类读物。

数据搜集

NoCha数据集包括63本旧书（33本于2023年出版，30本于2024年出版）和四本经典小说，书籍的平均长度为127k个token（约98.5k个单词）。

注释者首先写出关于书中事情或人物的实在陈说，而后针对同一对象创立相应的虚伪陈说，同时还须要给出一个冗长的解释，说明为什么这些说法是正确或失误的。

为了确保申明的品质，作者延聘了读过相反书籍的注释者，来验证五本书中的128个申明，并最终对其中的124个达成了分歧。

上方给出参与本次考试的考生消息（开源和闭源两大营垒）：

以及考试效果：

结果剖析

假设依照小说类型划分，一切六个闭源模型在历史小说上的准确率为56.4%，当代小说为46.8%，推理小说为38.8%。

关于每个模型来说，都是历史小说的准确度最高，当代小说次之，推理小说的准确度最低。

从这个结果来看，貌似LLM的推理更多依赖于自身参数中的常识。

接上去做个对比试验：假设某个主张可以经过书中的一小局部内容来独自验证，那么提供本书的其他局部能否会影响其准确性？

上图显示了在四个短篇故事集上的模型性能，每两行为一组，上方一行示意给出整本书（约129k token）时的准确率，上方示意只给出与申明关系的局部（约21k token）。

Gemini关于参与高低文的体现相对持重，而Claude-3-Opus的准确度间接降低了44.5%，Claude-3.5-Sonnet、GPT-4-Turbo和GPT-4o的体现也大幅降低。

作者示意，与句子层面的检索义务相比，模型在验证须要思考整本书（或大局部）内容的疑问时，显得力所能及。

另外，书中的一些隐含消息关于人类读者来说是明白的，但LLM却不可了解。

海底捞针

另一项钻研来自加州大学圣巴巴拉分校（UCSB），作者引入了 LoCoVQA，一种带有搅扰项的长高低文视觉问答 (VQA) 基准生成器。

LoCoVQA可以提供与疑问关系的图像序列，以及一组可性能的视觉搅扰项，从而准确评价VLM如何在错乱的高低文中仅提取与查问关系的消息。

从原理上讲，这也是一项「海底捞针」的义务。

另外，LoCoVQA的方法能够以任用意像了解数据集为基础，创立长高低文图像了解测试。

生成方法

经过LoCoVQA分解的样本蕴含一个或多个与问答对（

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#云雀 #Copilot #多模态 #训练 #混元 #言犀 #紫东太初 #孟子 #日日新 #Agent #4 #悟道 #开源大模型 #通义千问 #Bard #文心一言 #ChatGPT #AIGC #盘古 #LaMDA #清言 #模型 #Sora #OpenAI #AI #大模型 #人工智能 #AIGC运行 #GPT