导图社区多模态推荐系统总结

多模态推荐系统总结

这是一篇关于多模态推荐系统总结的思维导图，主要内容包括：5.持续学习：通过持续学习技术，不断更新模型，以适应用户兴趣的变化。4.社交网络嵌入：利用用户的社交网络信息，学习用户的社交嵌入表示，提高推荐的准确性。3.上下文感知推荐：考虑用户的上下文信息，如时间、地点等，进行个性化的推荐。

编辑于2024-11-20 22:11:42

多模态推荐系统
.社交网络嵌入

EDXFwMht

他的近期作品查看更多>>

多模态推荐系统总结

社区模板帮助中心，点此进入>>

EDXFwMht

他的近期作品查看更多>>

相似推荐
大纲

论语孔子简单思维导图
- 75.4k
- 835
- 1.0k
- 426
MindMaster
《傅雷家书》思维导图
- 123.1k
- 1.6k
- 2.7k
- 1.2k
MindMaster
《童年》读书笔记
- 42.0k
- 465
- 960
- 331
MindMaster
《茶馆》思维导图
- 10.2k
- 171
- 182
- 40
MindMaster
《朝花夕拾》篇目思维导图
- 23.0k
- 495
- 1.1k
- 291
MindMaster
《昆虫记》思维导图
- 28.0k
- 258
- 771
- 271
MindMaster
《安徒生童话》思维导图
- 15.2k
- 263
- 261
- 65
MindMaster
《鲁滨逊漂流记》读书笔记
- 19.0k
- 290
- 545
- 164
MindMaster
《这样读书就够了》读书笔记
- 93.4k
- 12.3k
- 8.9k
- 2.2k
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 7.7k
- 1.6k
- 396
- 42
Ethan

多模态推荐系统总结

AI基础模型总结：

逻辑回归的背景：它是连续型的概率分布，是统计学里的分类方法，常用于二分类，简单，可并行化，二分类是对于给的数据集存在一条直线将数据完成线性可分，这条线是决策边界（decision boundary），它解决的问题是二分类（是和否），预测每个类别的概率估计，逻辑回归还可以用来理解每个特征（feature），特征是自变量对结果（因变量）的影响程度，就是哪个因素或者哪些因素对事件发生最重要，逻辑回归好解释，因为每个特征的系数可以直接解释为对概率的对数优势的影响，它可以扩展到解决多分类问题。

逻辑回归的解决方法：数据准备，特征选择，模型构建，参数估计（MLE——最大似然估计），模型评估（准确率、召回率、F1分数、AUC这四个指标），模型解释（分析模型参数的估计值，正系数表示特征与事件发生的概率正相关，负系数表示负相关），模型优化（模型评估完后，可能需要重选特征或者构建模型，通过添加或删除特征、调整模型结构或使用正则化技术来优化模型），应用模型（只要这个模型被训练并验证为有效，就可以用于新数据集，可以用来预测事件发生的概率）

岭回归的背景：它是统计学中的一种线性回归方法，通过引入L2正则化项来处理共线性问题，适用于回归分析，岭回归也简单，而且能够保持模型的稳定性，即使在特征数量多于样本的情况下也能有效工作。

它解决的问题是回归分析中的过拟合，即模型在训练数据上表现良好，但在新数据上表现不佳，岭回归通过保留所有特征，但缩小某些特征的系数来降低模型复杂度。每个特征的系数可以解释为该特征对因变量的影响程度，同时正则化项有助于理解哪些特征在模型中更为重要。

岭回归的解决方法：数据准备，特征选择（尽管岭回归不删除特征，但可以选择最有信息量的特征），模型构建（在线性回归的基础上添加L2正则化项），参数估计（通过优化损失函数，包括正则化项，来估计模型参数），模型评估（使用均方误差、决定系数R²等指标），模型解释（分析正则化后的系数，理解特征的重要性），模型优化（根据评估结果调整正则化强度，可能需要重新估计参数），应用模型（一旦模型经过训练和验证，就可以用于预测新数据集的因变量值）。

Lasso回归的背景：Lasso回归是另一种线性回归方法，它通过引入L1正则化项来解决过拟合问题，并且具有特征选择的功能。Lasso回归不仅能够缩小特征系数，还能够将某些特征的系数压缩至零，从而实现特征的自动选择。

它解决的问题是回归分析中的变量选择，即从众多特征中识别出对因变量有显著影响的特征。Lasso回归的模型更易于解释，因为它可以筛选出最重要的特征，使得模型更加简洁。

Lasso回归的解决方法：数据准备，特征选择（Lasso回归在模型训练过程中自动进行特征选择），模型构建（在线性回归的基础上添加L1正则化项），参数估计（通过优化包含正则化项的损失函数来估计模型参数），模型评估（使用均方误差、决定系数R²等指标），模型解释（分析正则化后的系数，特别是那些非零系数，以理解关键特征），模型优化（根据评估结果调整正则化强度，可能需要重新估计参数），应用模型（经过训练和验证的Lasso回归模型可以用于新数据集的预测，同时提供了特征重要性的解释）。

K最近邻（KNN）的背景：KNN是一种基本的机器学习算法，属于监督学习中的分类算法，也可以用于回归问题。它的核心思想是“近朱者赤，近墨者黑”，即一个样本的分类结果由其最接近的K个邻居投票决定。KNN算法简单直观，不需要训练模型，因此在分类时计算量较大，但预测效果好，适用于样本量不是非常大的情况，它解决的问题是通过对新样本在其特征空间中的最近邻进行分类或回归预测。

KNN的解决方法：数据准备（确保数据清洗和标准化），特征选择（选择对分类或回归任务有帮助的特征），模型构建（确定邻居的数量K），距离度量（选择合适的距离度量方法，如欧几里得距离或曼哈顿距离），参数估计（KNN没有显式的参数估计过程，但需要确定K值），模型评估（使用准确率、召回率、F1分数、AUC等分类指标，或均方误差、决定系数R²等回归指标），模型解释（通过观察最近邻来理解预测结果），模型优化（通过交叉验证等方法选择最优的K值，或者对特征进行进一步的选择和变换），应用模型（将训练好的KNN模型应用于新数据集的预测）。

递归神经网络（RNN）：研究背景：递归神经网络（RNN）是一种处理序列数据的神经网络。与传统的神经网络不同，RNN具有内部状态（记忆），可以用来处理输入序列中的时间依赖性。

解决方法：结构：RNN通过循环连接来维持状态，使得网络能够在序列的不同时间点共享信息。优点：能够处理任意长度的序列数据。缺点：在长序列中，RNN容易遇到梯度消失或梯度爆炸的问题，导致难以学习长期依赖性。

核心组件：输入层：接收序列中的当前输入。隐藏层：包含循环单元，负责处理输入并维持状态。输出层：根据当前输入和隐藏层状态生成输出。

长短期记忆网络（LSTM）研究背景： LSTM是RNN的一种改进型，旨在解决标准RNN在处理长序列时遇到的梯度消失问题。

解决方法：结构：LSTM单元包含三个门（输入门、遗忘门、输出门）和一个细胞状态，这些结构帮助网络学习长期依赖性。优点：能够有效学习长序列中的长期依赖性。缺点：参数数量较多，计算成本较高。

核心组件：输入门：控制新输入进入细胞状态的程度。遗忘门：控制细胞状态中旧信息的保留程度。细胞状态：网络的长时记忆。输出门：控制细胞状态到输出层的传递。

门控循环单元（GRU）研究背景： GRU是LSTM的一种变体，旨在简化LSTM的结构同时保持其学习长期依赖性的能力。

解决方法：结构：GRU将LSTM的输入门和遗忘门合并为一个更新门，并且合并了细胞状态和隐藏状态。优点：参数数量少于LSTM，计算效率更高。缺点：在某些任务中可能不如LSTM表现好。

核心组件：更新门：控制前一隐藏状态信息传递到当前隐藏状态的程度。重置门：控制前一隐藏状态信息与当前输入的结合程度。隐藏状态：在GRU中，隐藏状态同时承担了细胞状态的角色。

Word2Vec：Word2vec是一种让电脑理解单词意思的技术。背景是因为电脑之前不太懂单词之间的联系。它要解决的问题就是怎么把单词转换成一组数字，这样相似的单词就会有相似的数字表示。解决方法就是用一种神经网络，让电脑看很多很多的文章，通过这些文章里单词出现的规律，来学会怎么把单词变成数字（CBOW和Skip-gram）这个技术让电脑在处理语言方面变得更聪明了，语言模型能力更强了。

四个指标：Accuracy（准确率）：准确率是指模型预测正确的样本数量占所有样本数量的比例。它是衡量模型整体性能的一个基本指标，计算公式为：准确率 = (预测正确的样本数量) / (所有样本数量)。Precision（精确率）：精确率是指模型预测为正类的样本中，实际为正类的样本所占的比例。它衡量的是模型预测正类时的准确性，计算公式为：精确率 = (预测为正类且实际为正类的样本数量) / (预测为正类的样本数量)。Recall（召回率）：召回率是指实际为正类的样本中，被模型正确预测为正类的样本所占的比例。它衡量的是模型能够找到所有正类样本的能力，计算公式为：召回率 = (预测为正类且实际为正类的样本数量) / (实际为正类的样本数量)。F1-score（F1分数）：F1分数是精确率和召回率的调和平均数，它同时考虑了精确率和召回率，是衡量模型性能的一个综合指标。F1分数越高，说明模型的性能越好。计算公式为：F1分数 = 2 * (精确率 * 召回率) / (精确率 + 召回率)。

Transformer：

Transformer模型是一种基于自注意力机制的深度神经网络模型，广泛应用于自然语言处理、计算机视觉等领域。以下是针对研究背景、要解决的问题以及解决的方法的详细阐述：

研究背景：

随着深度学习在自然语言处理领域的成功应用，研究者开始探索新的模型结构以提高模型的性能。Transformer模型应运而生，它采用自注意力机制来捕捉序列中的长距离依赖关系，并在多个任务中取得了优异的性能。

要解决的问题：长距离依赖问题：传统的循环神经网络（RNN）和长短期记忆网络（LSTM）在处理长序列时，梯度消失或梯度爆炸问题严重，难以捕捉长距离依赖关系。并行计算问题：RNN和LSTM的计算过程是顺序的，难以进行并行计算，导致训练速度较慢。上下文信息利用问题：传统的卷积神经网络（CNN）在处理序列时，只能捕捉到局部上下文信息，难以捕捉全局上下文信息。

解决的方法：自注意力机制：Transformer模型采用自注意力机制来捕捉序列中的长距离依赖关系。自注意力机制通过对序列中的每个位置与其他所有位置进行加权求和，来捕捉序列中的全局上下文信息。

多头注意力机制：为了捕捉不同类型的上下文信息，Transformer模型采用了多头注意力机制。每个注意力头关注不同的信息，然后将这些信息拼接起来，以获得更丰富的上下文表示。

位置编码：为了保留序列中的位置信息，Transformer模型引入了位置编码。位置编码将位置信息与输入序列进行拼接，使模型能够捕捉到序列中的位置关系。

残差连接和层归一化：为了解决梯度消失或梯度爆炸问题，Transformer模型采用了残差连接和层归一化技术。残差连接将输入与输出相加，层归一化对每个层的输入进行归一化处理，以提高模型的训练稳定性。

并行计算：Transformer模型的计算过程是并行的，可以同时处理序列中的所有位置，大大提高了训练速度。

交叉熵：在信息论和机器学习领域，交叉熵作为一个关键概念，它要解决预测分布与真实分布之间的差异问题，它的背景是在分类任务中，评估模型的性能需要量化模型预测与实际数据分布的偏差，为了解决这个问题，用交叉熵作为损失函数，它能够有效衡量两个概率分布之间的距离，解决方法是通过计算真实分布与预测分布之间的交叉熵，可以在模型训练过程中不断调整参数，以减少这种差异，从而提高模型的预测准确性，使其更贴近实际数据分布。

极大似然估计：极大似然估计是一种用来估计模型参数的方法，它想要解决的问题是找到一组参数，使得这组参数在给定数据下出现的概率最大。大概的解决方法是通过计算数据在模型中的概率（即似然函数），然后调整参数直到这个概率达到最大，这样就能找到最有可能产生我们观察到的数据的参数值。

Auc：AUC（Area Under the Curve）是接收者操作特征（Receiver Operating Characteristic，简称ROC）曲线下的面积，常用于评估二分类模型在各个阈值下的性能。ROC曲线是通过绘制真正率（True Positive Rate，TPR）对假正率（False Positive Rate，FPR）的图形来得到的，而AUC提供了一个数值指标，用于衡量模型区分正类和负类的能力。

AUC的值范围从0到1，具有以下含义：AUC = 0.5：模型没有区分能力，相当于随机猜测。AUC 0.5：模型具有一定的区分能力，AUC值越接近1，模型的区分能力越强。AUC是评价分类模型性能的一个重要指标，特别是在类别不平衡的情况下，它比准确率等其他指标更为可靠。

Bert：BERT（Bidirectional Encoder Representations from Transformers）是由Google AI研究院在2018年提出的一种预训练语言模型，它出现背景是为了解决NLP中的一些关键问题，如语言的复杂性和上下文依赖性，Word2Vec和GloVe这两个传统的语言模型虽然能够生成词向量，但它们通常只能捕捉到词的局部上下文信息，没办法有效地处理长距离依赖关系和双向上下文信息，BERT通过基于Transformer的编码器部分，捕捉文本中的长距离依赖关系，并通过双向上下文学习，同时考虑一个词的前后文信息，从而更准确地表示词的意义。BERT在训练过程中进行了两个主要的预训练任务：Masked Language Model（MLM）和Next Sentence Prediction（NSP），以学习每个词的上下文信息和句子间的关系。BERT利用大量的无标注文本数据进行训练，如维基百科和书籍等，通过这种方式，BERT能够学习到语言的通用表示，并生成高质量的词表示（词嵌入），BERT的提出是NLP领域的一个里程碑，它在多个顶级NLP测试中取得了最先进的表现，极大地推动了NLP技术的发展。BERT的成功也引领了后续一系列基于Transformer的预训练语言模型的研究，如GPT-3、T5等。BERT在文本分类、命名实体识别（NER）、情感分析、问答系统等许多NLP任务中表现出色，成为NLP领域的重要工具。

CNN：卷积神经网络（Convolutional Neural Network，简称CNN）是一种深度学习模型，特别适用于处理具有网格结构的数据，如图像（2D网格）和视频（3D网格），说到底，它一开始就是用来搞图像的，这个CNN要解决的问题有三个：1.图像特征的提取（传统的特征提取器不灵活，复杂的图像结构搞不了）。2.平移后保证图像中的对象的位置和大小不变。3.提高计算效率，计算负担太大了，因为图像数据一般有大量像素点。CNN解决这三个问题用的方法是：卷积层：CNN使用卷积层来提取图像的局部特征。卷积层通过卷积操作在图像上滑动，捕获图像中不同位置的特征。这种操作能够有效地提取图像的局部信息，并且具有平移不变性，池化层：池化层用于降低图像数据的维度，减少计算负担。池化操作通过取局部区域的最大值或平均值来减少数据量，同时保留重要的图像特征，多层结构：CNN通过多层结构来逐步抽象出高层次语义信息。每一层都从前一层的输出中学习特征，并将这些特征传递给下一层，这种层次化的结构使得CNN能够捕捉到图像的复杂特征，反向传播和梯度下降：CNN使用反向传播算法来优化模型的参数，通过计算损失函数对模型参数的梯度，并使用梯度下降方法来更新参数，从而提高模型的预测准确性。

CLIP：现在网上图片和文字信息非常多，但机器要理解图片和文字之间的关系有点难，为了机器做到这一点，openai提出了CLIP的模型，它是一种预训练方法，可以同时学习图像和文本的嵌入表示，在传统的图像分类和文本生成任务中，模型通常需要大量的标注数据来训练，而CLIP的目标是减少对这种标注数据的依赖，CLIP要解决的问题有两个：1.在图像分类和文本生成任务中，一个主要的挑战是如何有效地将视觉信息与语言描述相匹配，传统模型需要大量标注，时间和人力成本太高了，还限制了模型的泛化能力。2.传统模型对特定任务表现好，但是跨任务应用时性能下降，CLIP可以用预训练一个能够理解图像和文本之间关系的模型，来适应各种视觉和语言任务。CLIP用对比学习的方法，通过训练模型区分正样本（图像和对应的文本描述）和负样本（图像和无关的文本描述），来学习图像和文本之间的对应关系，模型使用Transformer架构，通过对比学习的方式，将图像和文本对进行关联，使模型能够理解图像和文本之间的对应关系，CLIP的目的是训练一个能够理解图像和文本之间关系的模型，以便于进行图像分类、图像描述生成等任务，用这种方法，CLIP能在不需要大量标注数据的情况下学习到有用的图像和文本嵌入表示，从而提高模型的泛化能力和跨任务性能。

Factorizing Personalized Markov Chains for Next-Basket Recommendation. WWW 2010

研究背景：FPMC模型结合了矩阵分解（MF）和马尔可夫链（MC）的思想。矩阵分解通过将观测到的用户-项目矩阵进行分解来模拟用户的喜好，而马尔科夫链通过观察用户近期的行为（关于项目的时间序列）来预测下一个时间点的行为。FPMC模型的主要目标是利用这两种方法的优势，来解决推荐系统中的序列推荐问题。

要解决的问题：FPMC模型主要解决的问题是序列推荐中的下一个篮子推荐（next-basket recommendation）。在实际情况中，用户的购买行为通常以时间序列的形式记录，例如用户的购买记录。这些记录中，同一时间可能会有多个物品被购买，这些物品的集合被称为一个“篮子”。FPMC的任务是预测用户在下一次浏览网站时可能购买的物品。

解决方法：个性化转移矩阵：FPMC为每个用户学习一个个性化的转移矩阵，这个矩阵能够捕捉到用户的时间信息和长期偏好。通过这种方式，模型能够更好地理解用户的购买行为模式。

矩阵分解：为了解决转移矩阵的稀疏性问题，FPMC引入了矩阵分解模型。通过将三维转移矩阵分解为低秩矩阵，可以减少参数的数量并改善模型的性能。具体来说，FPMC使用成对的交互模型（pairwise interaction model）进行分解，这是Tucker分解的一个特例。

贝叶斯个性化排序框架：为了学习模型的参数，FPMC引入了贝叶斯个性化排序（BPR）框架的适应版本。这个框架能够处理序列篮子数据，并通过比较正样本和负样本的差异来优化模型参数。

实验验证：实验结果表明，FPMC模型在多个数据集上的表现优于传统的矩阵分解和未个性化的马尔科夫链模型。这证明了FPMC在处理序列推荐问题时具有显著的优势。

GRU4Rec——Session-based Recommendations with Recurrent Neural Networks. ICLR 2016.

研究背景：GRU4Rec模型基于RNN，特别是门控循环单元（Gated Recurrent Unit, GRU）的架构。RNN能够捕捉序列数据中的时间依赖性，这对于推荐系统中的用户行为预测非常重要。GRU4Rec模型的主要目标是利用GRU的优势，来解决推荐系统中的序列推荐问题。

要解决的问题：GRU4Rec模型主要解决的问题是序列推荐中的下一个项目推荐（next-item recommendation）。在实际情况中，用户的浏览或购买行为通常以时间序列的形式记录，例如用户的浏览历史或购买记录。GRU4Rec的任务是预测用户在下一个时间点可能感兴趣的项目。

解决方法：GRU架构：GRU4Rec使用GRU作为其核心架构。GRU是一种改进的RNN架构，它通过门控机制来控制信息的流动，从而解决了传统RNN中的梯度消失问题。这使得GRU能够更好地捕捉长序列数据中的时间依赖性。

序列建模：GRU4Rec将用户的浏览或购买历史视为一个序列，并使用GRU来建模这个序列。通过这种方式，模型能够捕捉到用户行为的时间模式和趋势。

嵌入层：GRU4Rec使用嵌入层来将项目ID转换为低维向量。这些向量作为GRU的输入，使得模型能够处理大量的项目数据。

损失函数：GRU4Rec使用交叉熵损失函数来优化模型参数。这个损失函数衡量了模型预测的概率分布与实际用户行为之间的差异。

训练策略：GRU4Rec使用基于负采样的训练策略。在训练过程中，模型会为每个用户生成一个正样本（用户实际行为）和多个负样本（随机选择的项目）。通过这种方式，模型能够学习到用户对不同项目的偏好。

实验验证：实验结果表明，GRU4Rec模型在多个数据集上的表现优于传统的矩阵分解和未个性化的RNN模型。这证明了GRU4Rec在处理序列推荐问题时具有显著的优势。

GRU4Rec+——Recurrent Neural Networks with Top-k Gains for Session-based Recommendations. CIKM 2018

研究背景：GRU4Rec+ 是在 GRU4Rec 的基础上发展起来的，旨在解决 GRU4Rec 在某些情况下可能存在的性能瓶颈。GRU4Rec+ 通过引入新的训练策略和优化方法，提高了模型的推荐准确性和效率。

要解决的问题：

GRU4Rec+ 主要解决的问题是提高序列推荐系统的推荐准确性和效率。在 GRU4Rec 中，由于模型的复杂性和训练数据的规模，可能会出现训练时间长、过拟合等问题。GRU4Rec+ 通过优化训练过程和模型结构，旨在解决这些问题。

解决方法：新的训练策略：GRU4Rec+ 引入了新的训练策略，如基于梯度的优化方法和学习率调整策略。这些策略有助于提高模型的训练速度和稳定性。

模型结构优化：GRU4Rec+ 对 GRU 的结构进行了优化，例如通过调整门控机制或引入新的网络层来提高模型的性能。这些优化有助于模型更好地捕捉序列数据中的时间依赖性。

正则化方法：为了防止过拟合，GRU4Rec+ 引入了正则化方法，如 L2 正则化和dropout。这些方法有助于提高模型的泛化能力。

负采样优化：GRU4Rec+ 对负采样策略进行了优化，例如通过改进负样本的选择方法或调整负样本的数量。这些优化有助于提高模型的训练效率和推荐准确性。

实验验证：实验结果表明，GRU4Rec+ 在多个数据集上的表现优于 GRU4Rec 和其他传统的序列推荐模型。这证明了 GRU4Rec+ 在处理序列推荐问题时具有显著的优势。

Caser（Convolutional Sequence Embedding Recommendation）——Personalized top-n sequential recommendation via convolutional sequence embedding. WSDM 2018

研究背景：Caser模型基于CNN的架构，旨在捕捉序列数据中的局部特征。与传统的循环神经网络（RNN）相比，CNN在处理序列数据时具有更高的并行性和效率。Caser模型的主要目标是解决序列推荐中的下一个项目推荐问题，提供更加精准的个性化推荐。

要解决的问题：

Caser主要解决的问题是提高序列推荐系统的推荐准确性和效率。在传统的序列推荐模型中，如RNN，由于模型的复杂性和训练数据的规模，可能会出现训练时间长、过拟合等问题。Caser通过引入CNN的结构，旨在解决这些问题。

解决方法：CNN结构：Caser模型采用了CNN的结构，通过卷积层和池化层来捕捉序列数据中的局部特征。这种结构有助于模型更好地捕捉序列数据中的时间依赖性。序列嵌入：Caser模型将序列数据嵌入到低维空间中，通过卷积操作来捕捉序列中的局部特征。这种嵌入方法有助于模型更好地捕捉序列数据中的时间依赖性。正则化方法：为了防止过拟合，Caser模型引入了正则化方法，如L2正则化和dropout。这些方法有助于提高模型的泛化能力。负采样优化：Caser模型对负采样策略进行了优化，例如通过改进负样本的选择方法或调整负样本的数量。这些优化有助于提高模型的训练效率和推荐准确性。

实验验证：实验结果表明，Caser在多个数据集上的表现优于传统的序列推荐模型，如RNN和GRU。这证明了Caser在处理序列推荐问题时具有显著的优势。

Self-attentive sequential recommendation. ICDM 2018

研究背景:SASRec的研究背景主要集中在现代推荐系统中对用户行为序列动态性的捕捉。许多现代推荐系统试图基于用户最近的操作来捕获用户行为的“上下文”。为了捕捉这些模式，两种方法被广泛使用：马尔科夫链（MCs）和循环神经网络（RNNs）。马尔科夫链假设用户的下一个动作可以根据他们最近的（或最后几个）动作来预测，而循环神经网络原则上可以揭示更长期的语义信息。

要解决的问题:SASRec旨在解决如何在推荐系统中平衡短期和长期用户行为信息的问题。具体来说，SASRec需要解决以下问题：

第一个是在稀疏数据集上实现高效的序列化推荐。

第二个是捕捉长期的语义信息，同时保持模型的效率。

解决方法：SASRec通过提出一种基于自注意力的序列模型来解决上述问题。该模型结合了马尔科夫链和循环神经网络的优势，使用自注意力机制在相对较少的动作上进行预测，同时揭示长期的语义信息。SASRec在每一个时间步长中，试图从用户的行为历史中识别出哪些项目是“相关”的，并使用这些信息来预测下一个项目。实证研究表明，SASRec在稀疏和密集数据集上的表现优于各种最先进的序列模型（包括基于MC/CNN/RNN的方法），并且比可比的CNN/RNN模型效率高一个数量级

BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer. CIKM 2019

研究背景：BERT4Rec的研究背景在于序列推荐系统的需求，这些系统需要能够捕捉用户行为序列中的长期依赖关系和上下文信息。传统的序列推荐模型，如循环神经网络（RNNs）和长短期记忆网络（LSTMs），虽然能够捕捉序列中的依赖关系，但往往在处理长序列时效率较低，且难以并行化。Transformer模型，特别是BERT，在NLP领域已经证明了其在处理长序列和捕捉上下文信息方面的有效性。因此，将BERT应用于序列推荐任务成为一种新的研究方向。

要解决的问题：1.在序列推荐中有效地捕捉长期依赖关系和上下文信息。2.提高模型在处理长序列时的效率和并行化能力。3.在稀疏和密集数据集上实现高性能的序列推荐。

解决方法：BERT4Rec通过采用BERT的编码器结构来解决上述问题。具体来说，BERT4Rec使用Transformer的编码器来处理用户行为序列，通过自注意力机制捕捉序列中的长期依赖关系和上下文信息。BERT4Rec在训练过程中使用双向上下文信息，这使得模型能够更好地理解序列中的每个项目与其他项目之间的关系。此外，BERT4Rec采用掩码语言模型（Masked Language Model, MLM）和下一句预测（Next Sentence Prediction, NSP）作为预训练任务，这些任务有助于模型学习更通用的序列表示，实证研究表明，BERT4Rec在多个公开的序列推荐数据集上取得了优异的性能，特别是在处理长序列和稀疏数据集时。BERT4Rec的并行化能力也使其在处理大规模数据集时更加高效。

Time Interval Aware Self-Attention for Sequential Recommendation. WSDM 2020

研究背景：TiSASRec的研究背景在于序列推荐系统中对时间信息的重视。在许多实际应用中，用户的行为不仅与历史行为序列有关，还与行为发生的时间密切相关。例如，用户的购物行为可能会受到季节、促销活动或特定时间点的影响。因此，将时间信息纳入序列推荐模型中，可以更好地捕捉用户行为的时间模式，提高推荐的准确性和时效性。

要解决的问题：1.在序列推荐中有效地捕捉时间信息。2.结合时间信息来提高推荐的准确性和时效性。3.在保持模型性能的同时，处理时间信息的复杂性。

解决方法：TiSASRec通过在自注意力机制中引入时间信息来解决上述问题。具体来说，TiSASRec在计算自注意力分数时，不仅考虑了用户行为之间的相关性，还考虑了行为发生的时间差异。通过引入时间衰减因子，模型能够根据时间间隔的长短来调整不同行为之间的注意力权重。这样，模型可以更加关注最近的行为，同时也不会完全忽视较久以前的行为，TiSASRec还采用了时间嵌入（Time Embedding）技术，将时间信息转换为可以与行为嵌入相加的向量形式。时间嵌入可以是基于时间戳的线性变换，也可以是更复杂的函数，如正弦和余弦函数，以捕捉时间周期性，实证研究表明，TiSASRec在多个公开的序列推荐数据集上取得了优异的性能，特别是在处理具有明显时间模式的数据集时。通过结合时间信息，TiSASRec能够更好地捕捉用户行为的时间依赖性，提高推荐的准确性和时效性。

Filter-enhanced MLP is All You Need for Sequential Recommendation. WWW 2022

研究背景：FMLP-Rec的研究背景在于序列推荐系统中对用户行为序列的建模。在许多实际应用中，用户的行为序列不仅包含用户对项目的偏好，还包含项目之间的关联性。因此，如何有效地捕捉用户行为序列中的这些信息，是序列推荐系统面临的一个重要问题。

要解决的问题：1.在序列推荐中有效地捕捉用户对项目的偏好。2.在序列推荐中有效地捕捉项目之间的关联性。3.在保持模型性能的同时，处理用户行为序列的复杂性。

解决方法：FMLP-Rec通过结合因子分解机和低秩矩阵分解来解决上述问题。具体来说，FMLP-Rec首先使用因子分解机来捕捉用户对项目的偏好。因子分解机通过将用户和项目表示为低维向量，并计算这些向量的内积来捕捉用户对项目的偏好。然后，FMLP-Rec使用低秩矩阵分解来捕捉项目之间的关联性。低秩矩阵分解通过将项目表示为低维向量，并计算这些向量的内积来捕捉项目之间的关联性。最后，FMLP-Rec将因子分解机和低秩矩阵分解的结果结合起来，形成一个统一的模型。这个模型可以同时捕捉用户对项目的偏好和项目之间的关联性，从而提高推荐的准确性。

实证研究表明，FMLP-Rec在多个公开的序列推荐数据集上取得了优异的性能，特别是在处理具有复杂用户行为序列的数据集时。通过结合因子分解机和低秩矩阵分解，FMLP-Rec能够更好地捕捉用户行为序列中的信息，提高推荐的准确性。

Contrastive Learning for Sequential Recommendation. SIGIR 2021

研究背景：CLS4Rec的研究背景在于多语言环境下的序列推荐系统。在许多实际应用中，用户的行为序列可能包含多种语言的信息，例如用户可能在不同语言的项目之间进行切换。因此，如何有效地捕捉跨语言信息，是序列推荐系统面临的一个重要问题。

要解决的问题：在多语言环境下有效地捕捉用户行为序列中的信息。在多语言环境下有效地捕捉不同语言项目之间的关联性。在保持模型性能的同时，处理多语言用户行为序列的复杂性。

解决方法：CLS4Rec通过结合跨语言信息和序列推荐模型来解决上述问题。具体来说，CLS4Rec首先使用跨语言嵌入技术来捕捉不同语言项目之间的关联性。跨语言嵌入技术通过将不同语言的项目映射到同一个低维向量空间中，从而捕捉不同语言项目之间的关联性。然后，CLS4Rec使用序列推荐模型来捕捉用户行为序列中的信息。序列推荐模型通过学习用户行为序列中的模式，来预测用户未来的行为。最后，CLS4Rec将跨语言嵌入技术和序列推荐模型的结果结合起来，形成一个统一的模型。这个模型可以同时捕捉跨语言信息和用户行为序列中的信息，从而提高推荐的准确性。实证研究表明，CLS4Rec在多个公开的序列推荐数据集上取得了优异的性能，特别是在处理具有多语言用户行为序列的数据集时。通过结合跨语言嵌入技术和序列推荐模型，CLS4Rec能够更好地捕捉跨语言信息和用户行为序列中的信息，提高推荐的准确性，总的来说，CLS4Rec通过结合跨语言嵌入技术和序列推荐模型，有效地解决了多语言环境下序列推荐中的信息捕捉问题。

基于会话的推荐方法（Session-based Recommendation, SBR）是一种基于用户在短暂、动态的会话（即用户的行为序列）进行推荐的方法。以下是关于SBR的研究背景、要解决的问题以及解决方法的详细阐述：

研究背景：基于会话的推荐系统旨在捕捉用户在当前会话中的即时需求，以适应用户兴趣的快速演化和长尾效应的挑战。与传统的基于用户或物品的推荐系统相比，SBR更侧重于分析用户在会话中的短期偏好，而不是长期的静态偏好。这种方法的提出主要是为了解决传统推荐系统在处理动态用户兴趣和会话数据时的局限性。

要解决的问题：动态用户兴趣：用户兴趣可能会随着时间和会话的变化而变化，传统的推荐系统难以捕捉这种动态变化。数据稀疏性：会话数据通常是稀疏的，因为用户在会话中的交互行为有限，这使得基于历史数据的推荐变得困难。

长尾效应：在推荐系统中，大部分物品只有少数用户交互，这使得长尾物品的推荐变得尤为挑战。隐私保护：在用户信息受到隐私保护限制或无法获取的场景下，如何构建可信赖的推荐系统是一个亟待解决的问题。

解决方法：基于循环神经网络（RNN）的模型：早期的SBR模型采用RNN来捕捉用户在会话中的行为序列，以识别用户的短期偏好。基于卷积神经网络（CNN）的模型：CNN被用于更好地捕捉会话中的局部特征，从而提高推荐的准确性。基于图神经网络（GNN）的模型：GNN能够更好地挖掘物品之间的复杂转移关系，从而提高推荐的准确性。多级用户意图模型（如Atten-Mixer）：这种模型通过高效利用多级用户意图，提高了推荐的准确性和效率。例如，Atten-Mixer模型获得了WSDM2023最佳论文荣誉提名，展示了其在实际应用中的有效性。

视觉多模态推荐模型总结：

研究背景：视觉多模态推荐算法的研究背景主要在于解决传统推荐系统面临的数据稀疏性和冷启动问题。推荐系统通常依赖于用户与物品的交互数据，但这些数据往往是稀疏的，即观察到的“用户-物品”交互只占可能互动的一小部分。为了缓解这一问题，研究者开始利用额外的辅助信息，如社交网络、物品的描述性文本、图像和视频等，这些信息可能包含关于用户如何与物品交互的额外线索。

要解决的问题：数据稀疏性：由于用户与物品的交互数据稀疏，传统的推荐算法难以准确预测用户的偏好。冷启动问题：新发布的物品或新用户由于缺乏足够的交互数据，难以进行有效的推荐。视觉偏差：用户对视觉特征的注意力并不总是反映其真实偏好，可能导致推荐不准确。模型鲁棒性：现有的视觉多模态推荐模型在面对输入图像的小扰动时可能不够鲁棒。

解决的方法：Visual Bayesian Personalized Ranking (VBPR)：扩展了BPR算法，增加了图像特征，通过学习用户对物品的偏序关系来提高推荐的准确性。Deep Visual Bayesian Personalized Ranking (DVBPR)：使用深度神经网络提取图像特征，进一步优化了VBPR模型。DeepStyle：通过提取图像的类目信息，专注于学习用户对视觉风格的偏好。Visual Matrix Factorization (VMF)：类似于VBPR，但通过最小化MSE来学习用户和物品的潜在因素。Attentive Collaborative Filtering (ACF)：使用注意力机制编码用户的行为序列，提高推荐的准确性。PinSage：基于图卷积神经网络的模型，能够学习大规模图的节点embedding，包含物品的视觉特征。Adversarial Training Towards Robust Multimedia Recommender System (AMR)：通过对抗训练提高模型的鲁棒性。CausalRec：使用因果推断方法来移除视觉偏差，提高推荐的准确性。CMBF：通过跨模态融合学习图像和文本的语义特征，缓解数据稀疏问题。MM-Rec：多模态新闻推荐模型，通过显式建模图像和文本信息，提高推荐的准确性。

2023年可迁移推荐系统的研究进展

基于ID的可迁移推荐系统：研究背景：早期的推荐系统主要基于用户和物品的ID，通过矩阵分解和协同过滤等技术来预测用户的行为。

要解决的问题：冷启动问题，即新用户或新物品由于缺乏历史数据而难以进行有效推荐。

解决的方法：通过共享用户或物品的ID来实现跨域推荐，代表性工作包括PeterRec、Conure和CLUE等，这些方法通过自监督预训练和迁移学习来提高推荐的通用性和有效性。

基于模态信息的可迁移推荐系统：

研究背景：随着深度学习的发展，基于文本和图像等多模态信息的方法开始被应用于推荐系统。

要解决的问题：跨平台推荐中的数据孤岛问题，即不同平台难以共享用户和物品的ID。

解决的方法：利用多模态信息（如文本和图像）进行预训练，实现跨域推荐。代表性工作包括TransRec、MoRec、AdapterRec和NineRec等，这些方法通过端到端训练和适配器技术来提高推荐的迁移能力。

基于LLM的可迁移推荐系统：

研究背景：大语言模型（LLM）在自然语言处理领域取得了显著成功，研究者开始探索其在推荐系统中的应用。

要解决的问题：如何利用大语言模型来理解推荐任务并超越传统的ID范式。

解决的方法：通过将推荐任务转化为统一的自然语言理解任务，利用大语言模型进行预训练和迁移学习。代表性工作包括P5和GPT4Rec，这些方法通过提示学习和大规模数据集来提高推荐的准确性和通用性。

推荐系统预训练大模型范式的发展：

研究背景：随着深度学习在各个领域的成功应用，研究者开始探索其在推荐系统中的应用。推荐系统预训练大模型范式应运而生，旨在通过在大规模数据集上进行预训练，学习到通用的特征表示，然后迁移到特定的推荐任务中，以提高推荐的准确性和效率。

要解决的问题：

数据稀疏性：用户与物品的交互数据往往是稀疏的，导致传统的推荐方法难以取得好的效果。

冷启动问题：新用户或新物品由于缺乏历史数据而难以进行有效推荐。

复杂的用户兴趣建模：用户兴趣可能随时间变化，且可能受到多种因素的影响，如上下文信息、社交网络等。

解决的方法：

1.预训练大模型：通过在大规模数据集上进行预训练，学习到通用的特征表示，然后迁移到特定的推荐任务中。

2.多模态信息融合：结合文本、图像等多种模态的信息，提高推荐的准确性和效率。

3.上下文感知推荐：考虑用户的上下文信息，如时间、地点等，进行个性化的推荐。

4.社交网络嵌入：利用用户的社交网络信息，学习用户的社交嵌入表示，提高推荐的准确性。

5.持续学习：通过持续学习技术，不断更新模型，以适应用户兴趣的变化。