在CTR预估中,干流都驳回特色embedding+MLP的模式,其中特色十分关键。但是关于相反的特色,在不同的样本中,表征是相反的,这种模式输入到下游模型,会限度模型的表白才干。
为了处置这个疑问,CTR预估畛域提出了一系列关系上班,被称为特色增强模块。特色增强模块依据不同的样本,对embedding层的输入结果启动一次性改过,以顺应不雷同本的特色示意,优化模型的表白才干。
最近,复旦大学和微软亚研院联结颁布了一篇特色增强上班的总结,对比了不同特色增强模块成功方法的成果。上方给大家引见一下几种特色增强模块的成功方法,以及本文启动的关系对比试验。
论文题目 :A Comprehensive Summarization and Evaluation of Feature Refinement Modules for CTR Prediction
下载地址 :
特色增强建模思绪
特色增强模块,旨在优化CTR预估模型中Embedding层的表白才干,成功相反特色在不雷同本下的表征差异化。特色增强模块可以用上方这个一致公式表白,输入原始的Embedding,经过一个函数后,生成这个样本共性化的Embedding。
这类方法的大抵思绪为,在获取初始的每个特色的embedding后,经常使用样本自身的表征,对特色embedding做一个变换,获取样本的共性化embedding。上方给大家引见一些经典的特色增强模块建模方法。
特色增强经典方法
An Input-aware Factorization Machine for Sparse Prediction(IJCAI 2019) 这篇文章在embedding层之后参与了一个reweight层,将样本初始embedding输入到一个MLP中获取一个表征样本的向量,经常使用softmax启动归一化。Softmax后的每个元素对应一个特色,代表这个特色的关键水平,经常使用这个softmax结果和每个对应特色的初始embedding相乘,成功样本粒度的特色embedding加权。
FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction(RecSys 2019) 也是相似的思绪,为每个样本学习一个特色的共性化权重。整个环节分为squeeze、extraction、reweight三个步骤。在squeeze中,将每个特色embedding经过pooling获取一个其对应的统计标量。在extraction中,将这些标量输入到MLP中,获取每个特色的权重。最后,经常使用这个权重和每个特色embedding向量相乘,获取加权后的embedding结果,相当于在样本粒度做一个特色关键性挑选。
A Dual Input-aware Factorization Machine for CTR Prediction(IJCAI 2020) 和文章相似,也是应用self-attention对特色启动一层增强。全体分为vector-wise和bit-wise两个模块。Vector-wise将每个特色的embedding当成序列中的一个元素,输入到Transformer中获取融合后的特色示意;bit-wise局部经常使用多层MLP对原始特色启动映射。两局部的输入结果相加后,获取每个特色元素的权重,乘到对应的原始特色的每一位上,获取增强后的特色。
GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction(2020) 应用每个特色的初始embedding过一个MLP和sigmoid函数生成其独立的特色权重分,同时也经常使用MLP对一切特色启动映射生成bit-wise的权重分,两者融合对输入特色启动加权。除了特色层外,在MLP的隐层,也应用相似的方法,对每个隐层的输入启动加权。
Interpretable Click-Through Rate Prediction through Hierarchical Attention(WSDM 2020) 也是应用self-attention成功特色的转换,但是参与了高阶特色的生成。这外面经常使用档次self-attention,每一层的self-attention以上一层sefl-attention的输入作为输入,每一层参与了一阶高阶特色组合,成功档次多阶特色提取。详细来说,每一层启动self-attention后,将生成的新特色矩阵经过softmax获取每个特色的权重,依据权重对原始特色加权新的特色,再和原始特色启动一次性点积,成功参与一阶的特色交叉。
ContextNet: A Click-Through Rate Prediction Framework Using Contextual information to Refine Feature Embedding(2021) 也是相似的做法,经常使用一个MLP将一切特色映射成一个每个特色embedding尺寸的维度,对原始特色做一个缩放,文中针对每个特色经常使用了共性化的MLP参数。经过这种模式,应用样本中的其余特色作为高低位增强每个特色。
Enhancing CTR Prediction with Context-Aware Feature Representation Learning(SIGIR 2022) 驳回了self-attention启动特色增强,关于一组输入特色,每个特色关于其余特色的影响水平是不同的,经过self-attention,对每个特色的embedding启动一次性self-attention,成功样本内特色间的消息交互。除了特色间的交互,文中也应用MLP启动bit级别的消息交互。上述生成的新embedding,会经过一个gate网络,和原始的embedding启动融合,获取最终refine后的特色示意。
试验成果
文中启动了各类特色增强方法的成果对比,全体论断为,在泛滥特色增强模块中,GFRL、FRNet-V、FRNetB 体现的最好,并且成果要优于其余的特色增强方法。
本文转载自,作者: