论文标题:
ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models
论文地址:
代码地址:
为了使 LLM 能够允许更复杂和多样化的运行,越来越多的钻研努力于裁减 LLM 能够处置的高低文窗口。为了评价这些 long context LLM 允许长高低文才干,目前英文畛域有几个数据集被提出(如 LongBench, L-Eval, LooGLE)。
但是,在中文畛域,关于 long context LLM 才干评价的钻研还有些滞后。目前只要一个双语基准 LongBench 可用,中文局部仅有平均长度约 13K 个字符的 1000 个测试实例。基于中文畛域不足高品质评价数据集的现状,这篇论文提出了一个基准测试集,以准确评价 LLM 在中文畛域的长文本高低文处置才干。
论文提出了 CLongEval,一个蕴含了 7 种 NLP 义务、笼罩 4 个才干维度的中文长文天性力测试集。以确保对模型才干的综合评价,作者首先对 LLM 处置长文本所需的关键才干启动了拆解。
如下图所示的框架,基于于人类自身处置疑问的范式,作者将 LLM 在处置长高低文义务时所用的基础才干分解为:1)在 局部高低文 (Partial Context)或许 所有高低文 (Full Context)中识别和失掉关键消息的才干;2)基于失掉的所有消息,以 抽取式 (Extractive)或许 形象式 (Abstractive)推理出答案的才干。
在这些基础才干的维度上,作者构建了了 CLongEval 基准测试集。该测试集蕴含了 7 个义务共 7,267 个测试样本,包括长篇故事问答(Long Story QA)、长对话记忆(Long Conversation Memory)、长篇故事摘要(Long Story Summarization)、资讯标注(Stacked News Labeling)、错别字检测(Stacked Typo Detection)、段落检索(Key-Passage Retrieval)和表格查问(Table Querying)。
其中,长篇故事问答和长对话记忆均为全新标注的数据。长篇故事摘要由 GPT-4 启动辅佐标注。其他 4 个义务由公共数据集重构得来。
因为目前 LLM 允许的文本长度窗口(context window)差异较大,为了确保基准测试集的实用性,CLongEval 依照输入文本的长度构建了三个子集:small set、medium set 和 large set。small set 重要包括长度在 1K 到 16K 个 token 之间的测试数据,medium set 是 16K 到 50K 个 token 之间,而 large set 蕴含的数据裁减到 50K 到 100K 个 token。下表展现了数据集的详细统计消息。
以下是 CLongEval 蕴含的测试义务。每个义务针对测试一种上文提到的基础才干。
下表为主试验结果,展现了 6 个开源模型和 2 个闭源模型(GPT-4-Turbo 和 Moonshot-v1)在 CLongEval 上的体现。
作者剖析了参考答案在高低文中的对应位置对模型功能的影响,结果如下图所示。作者在须要局部高低文的四个义务上启动试验,发如今长篇故事问答和长对话记忆这两个义务中,“Lost in the middle” 这一现象较为显著。
上方的两张图展现了 GPT-4-Turbo 与 Moonshot-v1 在资讯标注这个义务中不同位置与不同深度的分类准确率的可视化剖析。可以发现,Moonshot-v1 的体现愈加稳固。
更多试验结果以及剖析请参考原文。
原文链接: