一、论断写在前面
论文来自香港市区大学、华为诺亚方舟试验室。
论文题目:LLM-enhanced Reranking in Recommender Systems
论文链接:
重排序是介绍系统中的关键组件,对精炼介绍算法的输入起着至关关键的作用。传统的重排序模型关键关注准确性,但现代运行要求思索多样性和偏心性等额外规范。现有的重排序方法往往在模型层面未能有效地和谐这些多样化的规范。此外,这些模型由于其复杂性和不同场景下重排序规范的不同关键性,经常面临可裁减性和共性化的应战。
为此,论文引见了一种基于LLM的智能重排序框架,旨在经过智能重排序增强介绍系统。论文方法的**是开发一个通用的节点结构,用于示意各种方面的需求,并在系统中作为不同的节点。这种结构有助于构建一个协调智能重排序环节的函数图,辅以历史重排序池,便于对重排序决策启动回忆性剖析。
此外,经常使用“目的”句子来指点不同节点的整合,确保框架能够灵活地融合多个方面的需求。这一设计使得LLM4Rerank在重排序环节中展现出出色的性能、可裁减性和共性化。在三个宽泛认可的工业数据集上的试验验证,强调了所提出的LLM4Rerank框架的有效性。
二、论文的便捷引见
2.1 论文的背景
现有的重排序模型确实存在几个限度。首先,由于这些方面之间存在渺小的语义鸿沟,在模型中片面思索敌对衡多个方面的复杂组合是具备应战性的。这是由于每个方面都经过共同的属性维度审查介绍列表,突出了复杂的语义相关和区别。这种复杂性突显了不同方面之间存在的渺小鸿沟。
此外,可裁减性疑问形成了另一个关键阻碍,阻碍了繁多模型在或者优先思索不同方面或性能规定的多样化介绍设置中的运行。当引入新的方面或定制重排序规定(如反向规定或中止条件)时,这一应战尤为突出,这些规定在模型开发之初并未预料到。
此外,无法共性化地融合各种方面进一步限度了现有模型的共性化,正如先前钻研所指出的。一旦部署,特定模型在不同方面的输入偏向是固定的,无法依据一直变动的业务或用户偏好启动智能调整。
为了克制这些阻碍,一个理想的处置打算是构建一个多性能的从新排序框架,该框架能够同时思索多种方面组合和语义纤细差异。这样的框架能够灵敏顺应不同情境和用户需求的共同要求,提供一个愈加灵活和定制化的从新排序打算。
图1:介绍系统中的排序与重排序环节
但是,在经常使用LLMs构建重排序框架时,发生了几个严重应战。第一个应战触及确保框架以有组织和灵敏的模式启动裁减,使其能够容纳的方面需求,同时也能顺应潜在的未来方面。第二个应战围绕制订一种机制,能够依据特定的介绍设置或用户偏好智能联合多样化的方面需求,最终成功真正的共性化。
为了处置这些应战,论文提出了LL.M4Kerank,这是一个翻新的从新排序框架,它应用零样本大型言语模型(LLMs)的力气启动更准确的从新排序。详细来说,LLM4Rerank将从新排序中的各种方面要求示意为不同的节点,使框架能够以思想链(CoT)的模式智能整合这些节点。这种方法的长处在于:它确保了可裁减性,准许无缝地蕴含新的节点以应答新兴的方面要求。为了证明这一点,除了准确性方面,多样性和偏心性方面也被参与到LLM4Rerank建模中。
2.2 框架
这里概述了介绍中从新排序义务的疑问公式化,随后对LLM4Rerank及其关键组件启动了片面概述。
2.2.1 疑问公式化
重排序义务在介绍系统中表演着关键角色。如图1所示,思索U为用户汇合,I为可供介绍的东西汇合。为明晰起见,本文将每个用户和东西区分示意为特色向量(w和i)。初始时,一个排序模型生成一个候选东西列表。为了提高介绍性能,运行重排序环节来剖析\boldsymbol{I}^{r}中东西间的相关,从而生成K个东西,从初始列表中。重排序模型的目的是优化定义的目的函数,以增强用户-东西的相关性:
图2:LLM4Rerank的全体结构。输入首先被导向“准确性”节点,该节点在函数图中启动一个智能的节点到节点的重排序环节(a)。不同色彩的节点(b)代表了重排序环节中的不同方面或性能步骤,指点大型言语模型(LLM)启动决策。一旦“中止”节点被选为下一个节点,一个完整的重排序环节就被以为成功。最终结果是基于历史重排序池(c)中的最近重排序结果生成的。为简化起见,历史重排序池中的名目列表由名目ID的列表示意。留意,下划线符号对应于子图(b)中的模块
为了促成各种重排序基线之间的偏心比拟,驳回了狭义矩阵合成(GMF)模型作为一致的全局排名模型,遵照先前的钻研。这种方法确保一切重排序模型在相反的候选名目列表上操作。
2.2.2 LLM4Rerank概览
论文引见提出的重排序框架LLM4Rerank,如图2所示。该框架接纳三种类型的输入:
用户消息(user info),包括性别和年龄等特色;
候选名目列表I;
一个名为“目的”的句子,概述了重排序的优先方面。
LLM4Rerank被构形成一个齐全衔接的函数图,不包括“中止”节点,如图2(a)所示。每个节点代表一个潜在的重排序步骤,由LLM生成一个重排序列表,思索到特定的方面相关或性能要求,如图2(b)所示。函数图中的每个边示意节点到节点转换的潜在门路,确保一切节点之间的连通性,除了“中止”节点。为了展现LLM4Rerank的可裁减性,论文不只集成了一个“准确性”节点,还集成了“多样性”和“偏心性”方面节点以及两特性能节点:“前进”和“中止”,以实理想际性能。节点架构精心设计,准许LLM顺序评价不同节点,从而优化重排序结果,片面满足多个方面要求。此外,为了防止记忆失落并增强LLM对方面组合的评价,经常使用了一个历史重排序池(图2(c))。该池按顺序记载每个节点的结果,作为每个节点后续重排序的辅佐参考。最终,当到达“中止”节点时,重排序环节成功。
2.2.3 节点构建
为了便于大型言语模型(LLM)对复杂方面要求启动系统性剖析,本结构旨在为特定要求建设明白的节点。这种布置使得LLM能够驳回思想链方法处置这些要求。但是,这种方法面临两个关键应战:首先,定制节点结构以坚持可裁减性,当集成更多要求时;其次,使LLM能够智能选用其后续重排序步骤。
为处置这些应战,论文引入了一个通用的节点结构。它包括一个重排序步骤,并配有一个辅佐批示器,该批示器示意由下一节点称号识别的行未来到的步骤的方向。这种性能准许LLM在LLM4Rerank框架内智能导航,依据可用的消息做出决策。
这概述了论文针对节点结构定制化的应战,旨在增强LLM4Rerank框架的可裁减性的战略。详细而言,论文引入了一种通用的节点结构,作为一切节点的基础,如图2(b)所示。这种通用节点代表在LLM思索下的单步重排序。通用节点的输入包括用户消息的语义示意、候选名目、定义整个重排序环节共性化焦点的“目的”句子,以及假设可用的话,整个历史重排序池。该节点的输入分为两部分:节点的即时重排序结果,由名目ID列表示意,与节点的称号一同整合到历史重排序池中,作为后续步骤的参考。此外,还发生了一个批示器(即本文中的下一个节点的称号),指定下一个用于重排序的节点,从而成功智能的逐渐环节。在每个节点外部,LLM4Rerank首先依据预约义模板和特定的重排序规范及输入,定制一个提醒。随后,LLCM4Rerank将与LLM交互,基于生成的提醒失掉两个输入。
方面节点为了使LLM能够口头针对不同方面需求定制的重排序义务,论文在提出的通用节点结构中驳回基于提醒的模板方法。这种方法准许实例化专门用于评价重排序环节中不同方面的特定节点。因此,每个节点都被设计为系统地处置这些关键方面之一,确珍重排序结果反映出平衡的思索。在本钻研中,为了展现LLM4Rerank的可裁减性,论文成功了三个专门用于重排序的方面节点:“准确性”、“多样性”和“配对性”。
•准确性节点:该节点旨在满足重排序阶段最终介绍列表的性能规范。因此,提醒模板的设计强调了用户与东西之间的关联。图3展现了一个在该节点内经常使用的便捷模板示例。此外,鉴于介绍准确性的至关关键性——这是介绍系统中无法或缺的基本方面——准确性节点已被确立为LLM4Rerank框架的终点。因此,每次重排序环节都以准确性节点开局,确保从一开局就对准确性给予基础关注.
•多样性节点:该节点专门设计以满足重排序阶段最终介绍列表的多样性规范。在本钻研中,论文经过评价最终列表中特定东西属性的变动水平来评价重排序结果的多样性。为此,论文驳回了-NDCG目的。因此,图4描画了多样性节点中经常使用的模板的一个示例。
•偏心性节点:该节点旨在满足重排序阶段最终介绍列表中的偏心性目的。在论文的钻研中,介绍结果的偏心性被操作化为两个样本组之间平均分数差异,这两个样本组依据一个清楚的特色启动区分,并经常使用平均相对偏向(MAD)目的启动评价(Zhu, Hu, and Caverlee 2018)。鉴于LLM实质上生成的是重排序列表而非数值分数,论文为最终介绍列表中的名目调配线性范畴从1到0的分数。随后,这些分数用于计算MAD以评价偏心性。关于深化的方法论论述,读者可参考第.节。图S提供了一个便捷的偏心性节点模板示例。
图3:准确性节点的示例提醒模板
图4:多样性节点的示例提醒模板
性能性节点:最近的从新钻研曾经证明了反思在优化LLMs输入中的有效性。为了增强LLM4Rerank在重排序环节中的逻辑才干并引入专门性能,论文开发了两特性能性节点,专门用于促成重排序序列中的反思和中断。
•反向节点:该节点使LLM能够在评价先前的重排序致力时,有选用地疏忽被以为是次优的重排序结果。在此框架内,LLM4Rerank从历史重排序池中删除最新的重排序结果,并推动到一个偏心性节点模板的示例后续节点依据LLM输入指令确定。该节点的操作示例模板如图6所示。
•中止节点:此节点控制LLM4Rerank输入序列的中断。当LLM4Rerank指定此节点作为输入步骤时,示意完整的从新排名环节的完结。随后,此节点从历史从新排名池中提取最近的从新排名结果,并将其出现为最终的从新排名结果。须要留意的是,由于此节点仅性能性地标记着从新排名的完结,并不须要访问LLM,因此此节点不须要提醒模板。
图5:偏心性节点的示例提醒模板
图6:后向节点示例提醒模板
2.2.4智能从新排名环节
为了应用LLM基于多样化的方面要求启动从新排名,论文设计了不同的节点,每个节点针对特定的方面规范。但是,为每个从新排名义务预约义从一个节点到另一个节点的门路既低效又难以成功。因此,为了顺应共同的用户偏好并清楚提高共性化,开发了一个智能从新排名环节,关键蕴含以下三个子环节:
•设定目的:为了顺应共性化需求并促成LLM4Rerank在不同高低文中的可裁减性,手动输入的句子,即“目的”,被作为每个从新排名环节的初步输入之一。如图2所示,“目的”指明了特定从新排名环节的关键焦点。经过解释“目的”与相应节点之间的语义咨询,LLM能够智能为任何给定的从新排名义务选用最适宜的节点。经过解释“目的”与相应节点之间的语义咨询,LLM能够智能为任何给定的从新排名义务选用最适宜的节点。
•节点间智能过渡:关于每个节点,在接纳到大型言语模型(LLM)的回复后,LLM4Rerank会失掉的从新排名结果,并随同一个批示器(即下一个节点的称号),以确保在不同节点间流利且智能地过渡。
•中止从新排名的条件:为增加长期间不生动的危险,并处置或者因LLM回复中未识别的语义不准确性造成的失误,框架内设定了两个中断规范。第一个规范在LLM智能识别“中止”节点为后续步骤时触发。第二个规范在LLM遍历预设数量的节点后激活,该数量由超参数设定,不包括“前进”节点。满足任一条件即标记着从新排名环节的成功。随后,该节点从历史从新排名池中检索并出现最新的从新排名结果作为最终结果。
算法1:LLM4Rerank的整个智能从新排名环节
经过运行这些子环节,LLM4Rerank的整个智能从新排名环节如算法1所示。
2.3试验
论文在三个宽泛认可的工业数据集上启动试验,讨论以下钻研疑问:
表1:所用数据集的统计消息
•RQ1:LLM4Rerank在准确性、多样性和偏心性方面与已建设的从新排名基线相比如何?
•RQ2:LM4Rerank能否智能识别并优先思索针对团体偏好的特定方面要求的从新排名混合?
•RQ3:LLM4Rerank的智能从新排名框架能否清楚优于预约的从新排名门路?
2.3.1试验设置
数据集:论文经常使用三个宽泛认可的公共数据集启动试验:ML-1M 1,KuaiRand(KuaiRand-Pure),和Douban-Movie。关于每个数据集,论文驳回文献中宽泛驳回的留一法(He等 2017; Bayer等 2017; Gan等 2021),将数据分为训练、验证和测试集。
依据先前钻研(Lin等 2022),论文选用狭义矩阵合成(GMF)模型作为全局排名模型,为每个用户生成蕴含20个名目的候选列表。为确保深度学习与LLM基础模型之间的偏心比拟,论文扫除了不足明白语义消息的特色和交互少于五次的用户。关于深度学习模型,论文经常使用规范嵌入技术(Wang等 2021; Guo等 2021)将各种特色转换为向量输入。相反,关于LLM基础模型,特色的语义消息(例如,特色的称号)被用作输入。表1展现了预处置后数据集的统计消息。
基线方法在本节中,论文经过与以下基线方法启动比拟,评价LLM4Rerank处置多样化方面需求的才干:
•GMF将矩阵合成裁减到非线性框架中,作为本钻研中的关键全局排序方法。GMF的结果代表了运行任何重排序环节之前的介绍。
•DLCM经过经常使用循环神经网络和基于留意力的损失函数来了解部分排序灵活,旨在关键提高介绍结果的准确性,从而增强重排序成果。
•PRM应用具备自留意力机制的变换器架构,经过识别名目间的相互影响来精炼整个介绍列表,从而专一于提高准确性。
•MMR旨在平衡查问相关性与重排序言档中的冗余增加,经常使用最大边沿相关性得分来增强介绍结果中的多样性方面。
•FastDPP减速了确定性点环节(DPP)的最大后验(MAP)推断,促成了多样化介绍集的高效生成。该模型专一于介绍结果的多样性方面。
•FairRec引入了一个偏心感知介绍框架,该框架驳回合成反抗学习和正交正则化。它旨在减轻与敏感用户属性相关的成见,从而在不侵害全体性能的状况下促成介绍的偏心性。
•RankGPT钻研了LLMs在消息检索中的排序义务中的运行,驳回了一种陈腐的指令陈列生成方法和滑动窗口战略。该模型以其对准确性的关注而著称。须要留意的是,作为零样本LLM基线,原始论文中的陈列蒸馏方法并未成功。
•GoT提出了一种思想图方法,经过将生成的内容结构化为图来加弱小型言语模型(LLMs)的提醒成果。这种方法促成了协同效应、思想提炼和反应回路的整合,使LLM的推理更严密地与人类的认知环节相分歧。与LLM4Rerank不同,GoT遵照预约的节点到节点推理门路,不思索历史数据。经过运行固定的门路,“准确性-多样性-偏心性-中止”,GoT作为本论文中关注准确性、多样性和偏心性联合的零样本LLM基准。
成功细节在评价准确性方面,论文驳回了宽泛认可的目的:命中率(HR)和归一化折损累积增益(NDCG)。关于评价多样性方面,论文运行了罕用的目的o-NDCG。为了评价偏心性,论文经常使用了平均相对差异(MAD)。MAD的计算公式为:
关于多样性,而“视频时长”——分为小于60,000毫秒和大于60,000毫秒——用于偏心性评价。为了微调基于深度学习的模型以到达最佳性能,论文将学习率设为0.001,并经过网格搜查确定最佳超参数。关于零样本LLM基线和LLM4Rerank,选用Llama-2-13B作为自动的LLM骨干。
2.3.2总体性能(RQ1)
这里提供了LCM4Rerank与各种基线在表2中详细形容的片面性能比拟。比拟剖析显示:
•DLCM和PRM在准确性方面体现出可接受的性能,如IR和NDCG目的所示。PRM应用变换器架构评价用户-东西相关性,在准确性上逾越了DLCM。
•MMR和FastDPP在增强多样性方面体现有效,如o-NDCG目的量化所示。这些模型经过强调东西相似性和列表范畴的多样性,长于多样化用户重陈列表。
•FairRec 在促成偏心性方面体现出弱小的性能,经过 MAD 目的启动权衡。经过合成反抗学习和正交正则化技术的整合,FairRec 确保了不同用户个体间的介绍愈加偏心。
•RankGPT 展现了出色的性能,突显了零样本大型言语模型在重排序义务中的才干。相反,GoT 驳回链式思想方法,经过促成对多个方面的顺序剖析,取得了更优的结果。
•LLM4Rerank 经过共性化“目的”设置和智能重排序环节,清楚逾越了基线,验证了其片面的有效性。CLM4Rerank 奇妙地联合了重排序的各种方面要求,展现了其多性能性。只管 LLM4Rerank-ADF 在繁多方面或者不上游,但其在一切维度的总体平衡性能证明了将大型言语模型与智能重排序框架集成的优势。这种方法经过语义了解有效地协调了不同的方面需求,提供了在准确性、多样性和偏心性方面的优化结果。
2.3.3 方面组合剖析 (RQ2)
表 4:LLM4Rerank 的消融钻研
在本节中,论文深化讨论了旨在评价 LLM4Rerank 能否能依据不同的用户定义“目的”智能调整其重排序战略以联合特定方面要求的试验。论文对 ML-1M 数据集上的 LLM4Rerank 启动了测试,这些测试在多样性和偏心性方面反映了不同的优先级:
•DF:对多样性和偏心性方面赋予等同关键性。
•D-F:优先思索多样性,随后强调偏心性。
•F-D:优先思索偏心性,随后强调多样性。
在本试验中,最小节点计数 MC 设定为 5。如表 3 所示,结果标明 LLM4Rerank 能够依据不同的“目的”熟练调整其重排门路,促成了对方面需求的灵活加权整合。这一才干清楚增强了重排环节的共性化。
值得留意的是,“准确性”节点在一切重排结果中一直存在,强调了每一次性重排序列都以准确性节点开局。这一初始步骤确保了用户-东西婚配的基础准确性得以坚持。
此外,观察到在针对不同“目的”的 LLM 偏好门路中,优先思索的方面占主导位置,这标明 LLM4Rerank 框架能够驱动 LLM 思索并捕捉“目的”中方面的关键性相关,并影响 LLM 的推理焦点。
另外,可以留意到,很少有推理门路由于推理节点到达其最大值而完结。这标明在设置下,经常使用 3 个不同的方面节点,3-4 个思索步骤足以让 LLM 人造地给出结果。
2.3.4 消融钻研 (RQ3)
论文在 ML-1M 数据集上启动消融钻研,以说明 LLM4Rerank 各组件对全体性能的影响。试验旨在经过系统地移除某些特色来剖析模型的架构,从而突出它们各自的奉献。论文以“准确性”方面为例启动钻研,并将论文的考查与特定的“目的”对齐:关注准确性方面。以下是用于比拟的 LLM4Rerank 的变体:
•LLM4Rerank-A:如表 2 所示,包括一切子结构并专一于准确性方面。
•无历史重排池 (-H):扫除历史重排池,移除了参考先前重排结果的才干。
•无智能重排序(-AR):驳回静态重排序门路 '准确性-准确性-中止'。
•无其余方面节点(-N):省略除“准确性”和“中止”节点外的一切节点。
依据表4的发现,论文得出以下论断:
•不足历史重排序池(LLM4Rerank-IH)造成性能清楚降低,强调了在序列决策中全体视角的关键性。此性能使LLM4Rerank能够回想和评价先前的选用,增强了模型的战略深度。
•移除智能重排序环节(LLM4Rerank-AR)造成性能大幅降低,证明了顺应性门路在应答多样性方面需求的适用性。智能重排序机制准许LLM4Rerank依据一切消息灵活确定后续步骤,从而优化重排序序列。
•消弭其余方面和性能节点(LLM4Rerank-N)雷同造成性能清楚降低。这突显了片面审查机制的价值,如“前进”节点所促成的,模拟人类决策环节。同时,与-AR相比,LLM仍能选择在完结重排序环节前可以访问此节点的次数。性能优化验证了即使LLM4Rerank只要一个方面节点,灵活节点访问次数仍能带来优势。
这些结果说明了LLM4Rerank子结构在增强重排序性能中的关键作用,特意是在针对特定方面焦点定制环节方面。钻研强调了模型复杂架构的设计,旨在灵敏整合敌对衡各种重排序规范。
2.3.5 案例钻研
经过详细案例钻研进一步说明LLM4Rerank框架的上班原理及其能否能真正平衡重排序的不同方面,如图7所示。在此图中,论文报告了LLM4Rerank在不同“目的”下的两种最经常出现门路:第一种(A-D-F)同时思索准确性、多样性和偏心性;第二种(A-A-B-D)更并重于准确性方面,随后是多样性方面。
评价基于特定门路的平均结果。从第一种门路来看,依据“目的”的指点,LLM4Rerank依次经过“准确性”、“多样性”和“偏心性”节点,而后完结重排序。在多样性重排序步骤后,不只“-NDCG”目的提高,“fIR”和“NDCG”目的也有所优化。这或者是由于在试验中,LLM不只思索以前方面,还思索历史重排序结果来综合重排序。
此外,“o-NDCG”与“NDCG”目的之间的正相关相关在同时思索两者时也或者影响方面结果。从第二种门路可以看出,性能节点如“前进”的参与协助LLM更系统地思索。当它感知到在延续访问“准确性”节点后多样性方面简直没有变动时,它思索前往到前一步并将下一步设置为多样性节点。
图7:LLM4Rerank在ML-1M数据集上的案例钻研。该图展现了LLM4Rerank在两个“目的”下的最经常出现门路。评价基于特定门路上的平均结果
图8:在ML-1M数据集上经常使用LCM4Rerank-ADF对“候选项数量”超参数的剖析
2.3.6 超参数剖析
近期钻研提醒了大型言语模型(LLMs)在片面处置蕴含密集消息的长高低文时所面临的应战。随着排名序列中候选项数量的参与,语义消息的量也随之参与,或者会使LLMs不堪重负。这或者解释了当零射击LLMs间接运行于蕴含数百万项的介绍系统时观察到的效劳降低。鉴于此,本节讨论了超参数“候选项数量”(最后固定为20)对ML-1M数据集内重排性能的影响,如图8所示,经常使用LLM4Rerank-ADF启动演示。
钻研结果标明,随着“候选项数量”的参与,LLM4Rerank在各个方面的性能都有所降低。这一结果不只突显了LLMs在解析长高低文方面的局限性,而且强化了它们在须要更繁复高低文消息的义务中的才干,如重排,而不是间接运行于宽泛的介绍或排名框架。经过限度项的数量并专一于繁多恳求内的丰盛语义内容,LLM4Rerank有效地增加了不同方面需求之间的语义鸿沟,从而提供了更连接的重排结果,增强了全体介绍品质。
本文转载自,作者: