LLM是目前学术界钻研的热点,同时工业界也在极速探求LLM在业务中的落地。本篇文章给大家引见来自WWW24的一篇文章,引见了淘宝电商将LLM用在了搜查场景中的query改写上,精心构建的畛域特定数据集对LLM启动finetue,定义三种不同的优化目的并经常使用Preference Rank Optimization损失学习候选之间的偏序相关,极大的处置了长尾query中的“few-recall”疑问。
论文题目 :Large Language Model based Long-tail Query Rewriting in Taobao Search
下载地址:
背景引见
淘宝电商搜查引擎框架如下图所示。用户输入搜查词之后,平台先启动语义了解,对用户query启动改写,之后对原始词 + 改写后的词召回商品,再通过多层排序后对用户展现头部商品。
query改写的目的是,在坚持相关性的同时,对原始query启动语义裁减,可以召回更多相关商品。例如,有两个搜查词,"DIY blind box"和"Self_building blind box"。这里前者和后者语义相反,然而前者是干流搜查词,召回结果有多个。然后者属于长尾搜查词,难以召回多个结果。假设将后者改写为前者,语义坚持相反的状况下,召回更多的商品,则在后续的排序流程中更有概率介绍转化率高的商品,从而提高订单量 && GMV。
已有的query改写上班集中在两个方向:
判断模型 :从候选词汇合中预估最优的词。这种方法依赖于精心结构的词典作为重写的候选汇合,否则query改写后语义有或者出现偏移。
生成模型 :经常使用transformer系的模型,依据原始query间接生成改写词,有些方法会参增强化学习和对比学习的思绪。然而这种方法受限于模型的参数量,参数优化会优化模型的表白才干。目前LLM在query改写上有一些上班,但因为对没有经常使用query改写特定义务对大模型启动fine-tune,还存在必定的局限性。
成功方法
本文提出了BEQUE框架(a comprehensive framework that Bridges the sEmantic gap for long-tail QUEries),框架蕴含三个阶段,如下图所示:
第一阶段 Multi-instruction Supervised Fine Tuning: 经常使用多畛域数据集对LLM启动finetune,重要包括Query Rewriting> Query Rewriting>
辅佐数据集: 为增强LLM对长尾query的了解才干,经常使用quality classification,product title prediction,Chainof-thought,三个辅佐数据集对LLM启动finetune
第二阶段 offline feedback: 设计多个函数多角度评价改写query品质,包括relevance、increment、hitrate等3个评价方法。
:即使原始query和改写query 语义上具备相关性,然而召回的商品汇合未必相关。因此定义相关性目的来权衡改写前后召回商品的相关性。淘宝离线评价方法用来评价query和召回商品题目的相关性,因此定义改写query召回商品和原始query的相关性如下:
:query改写可以参与商品召回的数量,处置“few-recall”的疑问。因此定义增量目的来权衡query改写后能否参与了召回商品的数量:
: 定义命中率目的,假设搜查场景之外成交过的某件商品和原始query相关性大于必定阈值,那query改写后应尽量召回该商品:
第三阶段object alignment :强迫模型学习改写query之间pairwise的偏序
经常使用PRO Loss来pair wise地学习改写query之间的顺序:
模型的最终Loss为监视微调的loss + PRO loss
试验结果
模型离线成果如下表所示。从上图可以看到,与多种基线相比,BEQUE与多种基线相比,在多个测试集上的rele目的略为逊色,在incr/hitrate目的上有极大幅度的优化。
在线运行方面,因为LLM难以满足在线serving的时效性需求,不可间接在线经常使用。因此对torso query,离线inference改写后的query,将改写前后的query以key-value graph的方式存储,确保在线及时照应,笼罩淘宝主搜27%的PV。原始query和改写query召回的商品取并集进入后续的排序过程。14天在线AB试验中,在GMV && 订单量 && UV上都取得了正向成果。
本文转载自,作者: