|
|
FCS | 文章解读 | 通过逻辑约束量化顺序推荐的可预测性 |
|
论文标题:Quantifying predictability of sequential recommendation via logical constraints(通过逻辑约束量化顺序推荐的可预测性)
期刊:Frontiers of Computer Science
作者:En XU, Zhiwen YU, Nuo LI, Helei CUI, Lina YAO, Bin GUO
发表时间:15 Oct 2023
DOI:10.1007/s11704-022-2223-1
微信链接:点击此处阅读微信文章
原文信息
标 题:
Quantifying predictability of sequential recommendation via logical constraints
发表年份:
2023年
原文链接:
https://journal.hep.com.cn/fcs/EN/10.1007/s11704-022-2223-1
引用格式:
En XU, Zhiwen YU, Nuo LI, Helei CUI, Lina YAO, Bin GUO. Quantifying predictability of sequential recommendation via logical constraints. Front. Comput. Sci., 2023, 17(5): 175612
01 简介
顺序推荐可通过用户的历史行为来预测用户的下一次交互。以前的研究提出了各种方法来优化不同数据集上的推荐准确性,但尚未探索顺序推荐的内在可预测性。为此,本文考虑将流行的人类运动行为的可预测性理论应用于此推荐环境。 尽管如此,它仍然会在下一时刻测量候选集大小时产生严重偏差,导致预测不准确。 因此,确定候选集的大小是量化顺序推荐可预测性的关键。在这里,与利用拓扑约束的传统方法不同,首先提出一种从历史行为中学习项间关联的方法,以通过逻辑约束来限制大小。然后,通过10种优秀的推荐算法对其进行扩展,以了解用户行为之间更深层的关联。在处理少量重复行为和大量行为的场景中,本文的方法与现有的方法对比有显着改进。最后,通过在推荐系统的三个领域的五个经典数据集上进行测试,获得了64%到80%之间的预测率。
本文的贡献如下:
提出了一种方法来更好地估计顺序推荐的可预测性,以更好地了解当前推荐系统的发展水平,并提供有关准确性的提高空间。
我们挖掘项目之间的逻辑关系,发现用户行为会在逻辑空间中聚合。然后,我们利用用户的下一步行为和历史行为之间的逻辑约束来实现候选集筛选。
我们定义了顺序推荐中量化N的问题,并将其转化为两个任务。一是如何利用历史数据来预测N,二是在给定历史数据的情况下,N有多大才能确定用户行为。我们提出了两种计算N的方法,一种更容易实现,另一种更准确。
02 方法
方法细节
需要使用历史数据来预测N,因此挖掘历史行为与立即发生的行为的关联来限定N。移动行为数据是用户历史行为的不断重复。因此直接来自历史数据的指标可以很好地反映N。顺序推荐需要挖掘项目之间更深层的关联,以找到前后动作之间的关系。使用图学习方法来获取项目之间的联系,然后统计发现用户历史项目之间的相似度显着高于一般项目之间的相似度。基于这个结论,本文想办法将候选项限制在下一时刻。
由于人类运动行为的拓扑限制,轨迹将聚集在一个区域周围,覆盖有限数量的位置。虽然顺序推荐场景中不存在拓扑约束,但本文的研究发现用户行为之间存在逻辑约束。首先,本文学习获取全局项目的关联关系并获取项目之间的相似度。然后进一步发现,用户历史行为之间的相似度明显高于全局项目之间的一般相似度。这说明用户的行为并不是随机的,从逻辑关联层面来看是高度规律性的。用户历史行为之间的相似度随着行为之间距离的增加而减少。这也符合我们的直觉。本文基于历史数据和下一次交互之间的紧密相关性,从而实现对N的过滤。
物品关联关系挖掘:有了用户行为序列数据后,我们首先需要学会获取物品之间的关联关系。 为了进一步探索用户行为的规律,我们可以直接用物品之间共同出现的次数来表示物品之间的相似度。 常见事件越多,两个项目之间的相似度就越高。 但这种方法效果不佳,不能准确反映项目之间的相关性。 同时,如果采用这种方法,我们需要为该项目存储一个大表,以获取一个项目与其他项目之间的相似度。 在这里,我们借用了自然语言处理工作中的word2vec。我们将用户的历史行为序列视为语言样本,并使用Skip-Gram算法学习嵌入,这将最大化获得的序列中两个节点同时出现的概率。
学习物品之间的关系,并通过物品之间的相似度来选择用户最近的行为来完成筛选。因此,在处理长序列时我们不会得到太大的值。当处理短序列时,它不会得到太小的值。我们可以处理非重复项的问题,当序列太长时,这会导致估计偏差过大的问题。 然而传统的方法在处理这一场景时会表现出明显的变异。会得到太大的N。计算出的N是1,得到的值会太小。
方法细节
本文的任务是根据历史记录预测用户下一次交互的大小。该任务也可以理解为在给定历史数据的情况下,候选集有多大可以确定用户的下一次交互。当Top-N准确率很高时,本文需要找到N的值。随着N的增加,Top-N的准确率会不断增加,因此我们没有找到使Top-N取最大值的N。当N无穷大时,Top-N准确率最大,等于1。用户的行为分为规律性和不规律性,本文尝试统计规律性部分的N。如果我们计算移动行为的不规则部分,本文将不得不依赖世界上所有的地方,因为用户有可能突然去了一个新的位置。但本文认为这不合适。因此,需要找到对精度提升确实有显着影响的N,随机添加一些随机行为也会让准确率慢慢提升。本文的目标是找到Top-N准确率不随着N的增加而显着提高的时刻。
本文的方法是一个简单的推荐模型,可以找到它与一般推荐模型的一一对应关系。顺序推荐的一般过程如下。首先,拦截最后的行为并将其输入到推荐模型中进行学习。其次,模型预测待预测用户的全局物品概率,并计算用户接下来交互的物品的概率。最后,模型将概率最高的Top-N项目推荐给用户,观察用户是否与其进行交互。
是的进一步发展。使用 10 种方法来寻找最佳模型,以最准确地区分正负样本。因此,可以大致了解推荐算法在这些数据集上的准确性方面的最佳性能。显然,Top-N推荐的准确率会随着N的增加而不断提高。即使模型只添加一些随机样本,准确率也会提高。因此,当最优准确率增长率减慢时,对应的横坐标为N。有足够的时间来实现方法,我们可以获得更准确的N。如果我们想快速得到N,我们可以使用方法,它已经有很好的性能。
在这些场景下,和会有较大偏差。和具有不同的特征。更快,更准确。
03 结果
本文选择了5个公开数据集来验证模型的有效性,分别是:NOWPLAYING、RetailRocket、RSC15、CLEF 和Tmall。首先选择了几种时间序列的规则挖掘算法,例如简单关联规则(AR)、马尔可夫链(MC)和顺序规则(SR)。统计学习作为基于贝叶斯理论的数据挖掘的必备工具在推荐中得到了广泛的应用,因此也选择了贝叶斯个性化排名(BPR)。尽管该方法很简单,但基于邻居的方法通常具有令人难以置信的性能,因此本文决定使用基于项目的 KNN (IKNN)。矩阵分解是一类重要的推荐方法。本文选择了因子化个性化马尔可夫链 (FPMC)、因子化项目相似性模型 (FISM)、因子化序列预测与项目相似性模型 (FOSSIL) 和基于会话的矩阵因子分解 (SMF)。Gru4Rec 也作为处理深度学习中序列预测的代表性算法添加到对比算法的集合中。随着N值的不断增加,最优精度的增加会明显减慢。在数据集上,拐点会略有不同。在 NOWPLAYIING 数据集上,当 N=100 时出现拐点。由此可知,当N小于100时,N的增大对于预测精度显然是有用的。这正好说明这个N正是候选项集的大小。
04 结论
为了探索顺序推荐的可预测性,本文借鉴了人类运动行为的可预测性理论。 可预测性的计算涉及两个关键参数,一是熵,代表序列混乱程度,二是候选集大小(N)。将人类运动行为的可预测性理论应用到顺序推荐中,现有方法可以得到准确的S,但在计算N时会出现较大偏差,不准确的 N 会导致错误的可预测性。由于用户行为序列长度范围广泛,并且以前从未出现过的项目数量不断增加,我们提出了两种方法来获得合理的N。结果表明,当前推荐算法的准确性与可预测性。同时,本文介绍的方法存在一些局限性,应在未来的工作中解决。本文只考虑单个纯序列的可预测性,今后还应该考虑用户特征对可预测性的影响。
解读:王艺源 东北师范大学
审核:张 琨 合肥工业大学
Frontiers of Computer Science
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;入选“中国科技期刊卓越行动计划项目”。
《前沿》系列英文学术期刊
由教育部主管、高等教育出版社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、生命科学、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中12种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。
中国学术前沿期刊网
http://journal.hep.com.cn
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。