企业宣传,产品推广,广告招商,广告投放联系seowdb

应用数据剖析量化协同过滤算法的两大经常出现难题

【.com原创稿件】介绍系统自从问世以来处置了许多不同的商业产品疑问,深受广阔互联网从业者的喜欢。传统的互联网电商公司像阿里巴巴和京东曾经把介绍系统当成了自己的**技术资产之一,而新兴的互联网产品像今天头条和抖音,也早已把介绍系统作为了自己的技术立足之本。但是随同着介绍系统的蓬勃开展,一些介绍系统在技术上的应战和艰巨却总是挥之不去。

在优化算法的环节中,工程师总是强调剖析数据进一步提高算法性能。但是关于一些老大难疑问怎样剖析数据,业内目前还没有一些较为片面和体系化的方法论。2018年在成都举办的 ICCCBDA 2018 会议刊登了一篇题为 Quantitative Analysis of Matthew Effect and Sparsity Problem in Recommender Systems 的论文,尝试着精准量化协同过滤算法中的两个经常出现难题:马太效应和稠密性疑问。

协同过滤是介绍系统最基本的方法。虽然如今介绍系统曾经是深度学习的各种算法像 DeepFM 等的天下,但是一些基本的介绍系统的方法依然是被用作 baseline 的工具。并且在一些并不具有深度学习才干的企业,协同过滤依然是盛行的算法。

协同过滤面临的两个关键应战,一个是马太效应,另一个是数据稠密性疑问。马太效应是指在协同过滤的相似性计算中与某个东西相似的东西数量极大,造成这个东西对一切的东西都有影响。另外马太效应会造成数据散布不平衡,间接形成在 MapReduce 计算的环节中效率低下。而数据稠密性疑问指的是有的用户对应的东西过少或许有的东西对应的用户过少,造成算法的计算结果笼罩率很低。钻研界和工业界针对这两个疑问提出了很多不同的算法用意处置相应疑问。但是在 ICCCBDA 2018 的论文之前,并没有人明白的用数学公式对这两个疑问启动量化,以繁难数据剖析和算法的进一步优化。

作者用相似度的希冀值来权衡协同过滤中的马太效应,而用相似度计算中关联的用户/东西数来权衡协同过滤中的稠密性疑问。由于介绍系统的运行场景大局部是长尾东西,作者假定了东西的散布听从 Zipf’s Law,也就是热度排名第 i 位的东西的散布占比是 1/i。应用组合数学的方法,咱们可以获取一系列的公式。推导环节论文中有详细的记录。最终的推导结果如下:

针关于基于用户的协同过滤的马太效应,咱们有用户 A 和用户 B 的平均希冀为:

针对基于东西的协同过滤的马太效应,咱们有用户 A 和用户 B 的平均希冀为:

针对基于用户的协同过滤的稠密性疑问,介入相似性计算的东西数量希冀为:

针对基于东西的协同过滤的稠密性疑问,介入相似度计算的东西数量希冀为:

作者随后启动了试验,关于推导的公式启动了验证:

上图显示的是基于东西的协同过滤的稠密性在实在数据汇合 LastFM 中的散布,与公式中的马太效应基本吻合。

本文的数学公式推导环节以及整个的数据剖析思绪并不复杂。关键奉献在于***提出了量化介绍系统马太效应和数据稠密性的方法,使得系统化的处置这两个疑问成为或许。

汪昊 ,区块链公司迷信家,前恒昌利通大数据部担任人,美国犹他大学本科/硕士,在百度,新浪,网易,豆瓣等公司有多年的研发和技术治理阅历,长于机器学习,大数据,介绍系统,社交网络剖析等技术。在 TVCG 和 ASONAM 等国内会议和期刊宣布论文 10 篇。本科毕业论文获国内会议 IEEE SMI 2008 ***论文奖。

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender