AIAgent(自动体)作为大模型的关键运行形式,能够经过经常使用外部工具来执行复杂义务,成功多步骤的上班流程。为了能片面评价模型的工具经常使用才干,司南及协作同伴团队推出了T-Eval 评测基准,关系成绩论文已被ACL2024主会录用。
检查原文:
PART1为什么须要 T-Eval?
经常使用了工具的大言语模型有着冷艳的疑问处置才干,然而如何评价模型的工具经常使用才干还有很大的探求空间。现有评价方法理论只关注模型处置单步骤义务时的工具调用体现,缺少在多步骤复杂义务场景下模型经常使用工具才干的评价。
因此,为了更片面地评价大言语模型的工具经常使用才干,司南及协作同伴团队推出了T-Eval (a step-by-stepTool Evaluationbenchmark for LLMs)评测基准,相较于之前全体评价模型的形式,论文中将大模型的工具经常使用分解为多个子环节,包含:布局、推理、检索、了解、指令追随和审查。
PART2T-Eval构建环节
T-Eval 的构建关键包含 3 个阶段:工具搜集、指令生成和参考答案标注。
首先,咱们依据可用性和经常使用率,筛选了15种基本工具,涵盖了钻研、游览、文娱、网络、生存和金融等多个畛域。此外,还为每个工具生成了具体的API文档,以缩小因工具形容不充沛而造成的工具调用失败案例。
而后,咱们应用 GPT-3.5 生成了初始疑问,并经过 GPT-4 进一步完善疑问。之后,咱们开发了一个多自动体框架,应用所提供的工具处置疑问,同时搜集处置方案门路和工具照应。最后,咱们经常使用人类专家来筛选高品质样本。
PART3T-Eval关键奉献
细粒度评测:T-Eval将评测环节分解为多个子义务,区分评价模型在工具经常使用上的细粒度才干。
多自动体数据生成:经常使用了由人类专家验证的多自动体数据生成流程,清楚缩小了外部起因的影响,使评测结果愈加稳固、偏心。
宽泛试验:经过在各种大模型上的宽泛试验,验证了T-Eval的有效性和普适性,为大言语模型的工具经常使用才干瓶颈提供了贵重的见地,并为改良工具经常使用才干提供了新的视角。
PART4T-Eval 评测结果
咱们在 T-Eval 上对 20 种大言语模型启动了评测,包含基于 API 的商业模型和开源模型。结果显示,GPT-4 在全体评分上取得了最高分,显示出其出色的工具经常使用才干。关于开源模型,咱们对三种不同规模的模型启动了试验,它们的尺寸大概是7B、13B和70B,可以发现,随着模型参数的参与,其体现也愈加低劣。特意是 Qwen-72B 模型,其总得分已凑近 API 模型水平。