理论教育 出版学研究进展:分层贝叶斯网络融合内容与协作过滤推荐技术

出版学研究进展:分层贝叶斯网络融合内容与协作过滤推荐技术

时间:2023-08-08 理论教育 版权反馈
【摘要】:基于这种思想,学者们提出一个分层贝叶斯网络来融合内容和协作过滤两种推荐技术。

出版学研究进展:分层贝叶斯网络融合内容与协作过滤推荐技术

早期的推荐技术起源于认知科学、近似理论、信息恢复、预测理论、管理科学和客户选择模型等领域的相关理论,最初是为了解决各领域信息恢复和信息过滤的问题。但自20世纪90年代中,学者开始系统解决比例结构中的推荐问题,使得推荐问题成为一个独立的研究领域。在大多数对推荐系统的形式化描述中,推荐问题被看成估算还未被用户关注的条目的估计比例问题。直观来看,这种估计很多时候依赖于用户给定的已知条目的信息与其他信息间的比率。因此,推荐问题可被描述成如下:假定C为用户集,S为可能被推荐的条目集。设定一个效用函数u用来测量条目s到用户c之间的无用性:u:C∗S→R。在这里,R表示总的有订阅的集合。显然,对于每个属于集合C的用户c,推荐系统企图选择属于集合S的最大效用条目,即:∨c∈C,argmaxu(c,s)。在推荐系统中,条目的效用通常用表示用户特殊爱好的条目率来表示,而效用可以是包括利润函数的任意函数。这类函数依赖于具体应用,即能被特定用户定义。用户空间C中每一个元素被定义为轮廓,包括各种用户特性,如年龄、性别、收入、社会地位等。当然,轮廓也可以仅包括一个简单元素,如用户ID。类似的,条目空间的每个元素也可以被定义为特性集合。例如,在电影推荐应用,S是电影集合,每一个电影能被其ID代表,但也可以被其名字、类型、导演、发布年份和主要演员来表示。其核心问题在于效用函数u不能定义在整个空间C∗S中,而仅仅在其子集中,这意味着u需要扩展到整个空间C∗S中。此外,在推荐系统中,效用通常用比率表示。当然,这种比率最初由用户定义,而将已知比率推广到未知,需要规范效用函数并根据经验评估其效用,同时要利用某一标准如最小均方误差来优化效用函数。一旦获得未知比率,可利用∨c∈C,argmaxu(c,s)计算出最高比率值作为用户推荐的条目。当然,也可以为用户推荐若干个最高比率值的条目。根据其采用的方法不同,推荐系统可被划分成多种类型,本文简要介绍其中较为常见的六种。

2.1.1 基于内容的推荐[6]

基于内容的推荐技术通常根据特定用户之前对产品的偏好,推荐相似的产品给该用户。其基本原则在于:(1)针对特定用户分析其偏好(一般存储在用户的profile中),以此来决定偏好特性与其他属性间的区别。(2)将每个条目的属性与用户profile中的属性进行对比,选择具有最高相似度的用户条目来推荐。

在基于内容推荐系统中,通常采用两类技术来产生推荐。第一类技术通常利用传统信息恢复技术中的启发式技术来实现推荐。另一类技术利用统计学习和机器学习方法来产生推荐条目,即通过构建模型来从历史数据中获得用户的兴趣点,并加以推荐。

2.1.2 协作过滤推荐技术

协作过滤推荐技术有助于用户在与之具有相似兴趣点的基础上做出合适的选择[4]。通常,协作过滤技术又可被划分成基于用户的协作过滤[4]和基于条目的协作过滤两类[5]。在基于用户的协作过滤技术中,用户会被推荐与之相似的用户偏好的条目。在基于条目的协同过滤技术中,系统会根据其过去偏爱的信息向其推荐相应的产品。用户与条目的这些相似性能根据用户相似度、受约束的个人相似度、cosine相似度以及自校正的cosine相似度等方式来计算。在使用这些方式计算条目间的相似度时,只有与这些条目相关的用户才能被考虑进去。显然,这种方式会因为仅有少量条目获得用户明确的偏好而影响到相似度的准确性。为了提高相似度的准确性,学者们提出在权重框架下,综合利用自校正cosine相似性和jaccard准则,设计出一种增强型的基于条目的协同过滤技术[16]

2.1.3 基于知识的推荐技术

基于知识的推荐技术能向用户提供基于用户以往偏好的产品推荐。通常情况下,基于知识的推荐系统包含一个知识功能库来描述每一个条目如何与特定用户需求相匹配。这种知识功能库能有效将用户需求与可能的推荐在基于用户偏好的情况下进行形式化。基于事实推断技术是基于知识推荐系统最常见的技术,它将条目看做是一个案例,并通过查询的方式找到与该案例最相近的所有案例,以此结果作为推荐。此外,作为知识表述的形式化方式,本体能有效地表述领域概念和不同概念间的关系[6]。因此,可以利用本体来表述推荐系统中的领域知识,然后在基于领域本体中利用语义相似性来推荐合适的商品[7]

2.1.4 混合推荐技术

为了克服上述推荐技术的缺点,获得高性能的推荐技术,学者提出混合推荐技术,这种技术融合了上述三类技术中的两种或两种以上技术的优点。Burke对各类混合推荐技术进行了系统总结,将所有混合推荐技术划分为七类基本原型,分别是基于权重、混合、转换、特性融合、特性扩展、级联和元层级联的混合推荐技术[8][9]。虽然学术界提出上述七类混合策略,但在绝大多数现实情况下,推荐系统采用协同过滤技术与其他技术相融合的方式进行设计,以避免冷启动、稀疏性和扩展性等问题[17]。(www.daowen.com)

2.1.5 基于智能计算的推荐技术

智能计算技术包括贝叶斯技术[15]人工神经网络技术[18]、聚类技术[86]、基因算法和模糊技术。在推荐系统中,这些智能计算技术被广泛应用到构建各类推荐模型中。贝叶斯分类器利用似然方法来解决分类的问题,常被用来推导基于内容的推荐系统模型。利用贝叶斯网来构建推荐系统时,每一个节点对应于一个条目,其状态对应于每一个可能的投票值。在网络中,对于每一个条目而言,存在一个母条目集来作为它的指示器。基于这种思想,学者们提出一个分层贝叶斯网络来融合内容和协作过滤两种推荐技术。人工神经网络受大脑神经网络的启发,利用互联的节点以及带权重的边来构造推荐系统模型。Hsu等人利用ANN来构造TV推荐系统,利用后向传播神经网络方法来训练三层神经网络[18]。Christakou等人提出一种融合内容和协作过滤两种方法的混推荐模型来为电影产生精准推荐。在该模型中,内容过滤部分是基于受训练的人工智能神经网络,用来获取用户个人偏好[19]。聚类方法将条目分配到特定组群中,这样保证每个群组的条目具有较大的相似性,而不同组群的条目间的相似性较小。聚类能以较小的计算成本来发现最近的邻居,做出较为合理的推荐。例如,Xue等人将聚类应用到推荐系统中,他们利用聚类方法将每个没有被标记的条目划分到与之相近的组群中,然后将相应的没有被推荐的条目推荐给用户[20]。基于聚类方法自身的特性,这种方法还被经常应用到推荐系统的冷启动过程中[21][22]。而基因算法是一类随机搜索技术,适合那些目标函数带有硬软约束的参数优化问题[23]。它通常被应用于推荐系统中解决如下两个问题[24]:聚类和混合用户模型[25]。例如,学者将基于基因的K-means聚类技术应用到真实世界的在线购物的个性化推荐系统,以提高推荐性能[23]。另一些学者提出一种基因算法来获得最优相似函数,为用户提供快速准确的推荐信息[24]。模糊理论为具有非随机的不确定性事物的管理问题提供了广阔的空间,被广泛用于非准确信息、非稳定状态或偏好没有明确分界用户类的问题处理[26]。利用该理论,推荐系统的条目被形式化为模糊集,其属性或特性值也被设定为与这些属性或特性相关的数值集。用户内部偏好则通过一个基础的偏好模型加以形式化。用户外部偏好则通过一个与该用户好友度相关的行为条目组成的模糊集来表示[27]。基于上述表示方式,曹和李等人利用语义学术语来评估电器产品的用户特性,并允许用户利用语言学的术语来表达其对不同特性的需求[28]。另外一些学者则将用户偏好表示为用户与条目间正面或负面的模糊关系,然后利用基于内容的相似度来计算条目间的相似性,最后通过比较上述模糊关系来产生条目的正面或负面推荐[29]。Procel等人设计了一款基于模糊语言的推荐系统,该系统综合利用了基于内容的过滤技术和善于处理不同量化概念的多规则模糊语言模型技术。张等人则利用模糊集技术来处理语言率问题和模糊协同过滤技术,为不确定性的电信产品和服务提供推荐解决方案[30]

2.1.6 基于社会网络的推荐技术

近年来,随着社会网络工具的快速发展,社会网络分析被广泛应用到基于Web应用的推荐系统中。为了提升用户体验,推荐系统在为用户提供社会交互活动方面做了大量贡献,对形如在线交友、社交评论和社会标签等社会网络应用有明显的推动作用[88]。在社会网络研究中,信任是一个热点问题。例如在现实生活中,我们进行交易的时候,来自朋友的建议会比广告更有影响力。显然,社会网络中的增加推荐系统,会比简单网络中的推荐系统更有效率。类似的,在简单网络中,标准协同过滤方法无法从稀疏数据集中发现足够的邻居,而用户社会关系的出现则有利于增加推荐系统的准确性和解决数据稀疏问题。研究表明,在线社区的用户相似性与其信任间是呈正相关的[31]。为此,学者们提出一些基于信任的推荐框架,通过在信任网络中离源用户越近的用户的信任值越高这一假设来对那些未被定义的信任参数进行预估。为此,Golbeck等人提出了一种综合算法TidalTrust来解决基于信任率的预测问题,并通过多种网络来验证该算法的有效性[32]。Ben-Shimon等人通过利用宽度优先搜索算法来为主动用户构建了个人社会关系树,并用该树来计算主动用户与其他用户间的距离,以反映用户间的信任关系[10]。Hwang等人详细分析了推荐系统的本地信任矩阵和全局信任矩阵,结果表明,增加本地信任认知和全局信任认知都能有助于提高推荐系统的覆盖面和准确度[33]。因此,基于信任的方法被认为能在维持推荐系统准确度的前提下,增强推荐系统的信任覆盖范围。

除了信任关系之外,社会关系的其他类型也被广泛应用于推荐系统的产生。例如社会标签、身份识别和协同合作关系等被用于替代信任和相似矩阵,以便于过滤数据和预测用户偏好。Shiratsuchi等人在基于在线书签的交叉引用网络基础上,开发出一种推荐系统。在这种方法中,交叉书签应用的数量被看做是社会关系的权值[34]。Woerndl和Groh抽取完整的与社会关系相关的内容作为矢量,并将该矢量融入到数据中来产生多维用户条目内容矩阵,并用该矩阵来产生个性化推荐[35]。Ma等人尝试将概率矩阵和社会信任信息进行融合来进行推荐。而在工作中,作者关注学术活动中的推荐问题,提出一种基于合作作者的社会关系[36]

除此外,研究者还提出几类基于用户条目矩阵的社会网络推荐系统。Palau等人构建社会网络来描述协作关系,并提出几种衡量指标来解释在推荐框架下是如何实现合作的[37]。O'Donovan则声称用户相似性的作用可能被过估了。他们基于信任的推荐系统从推荐数据中提出一种信任计算模型,在不降低预测准确度的前提下使系统更简单明了[38]

2.1.7 基于内容认知的推荐技术

通常,内容被定义为任何能描述实体状态特征的信息。在这里,实体可以是与用户或应用相关的人、地点或对象。事实上,形如时间、地理位置和一些人(如朋友、家人、同事)的内容信息近年来被迅速应用到推荐系统中[83][87]。例如,通过移动设备能获取为推荐系统提供了众多额外信息的内容信息。而这些额外信息,能有效地为用户推荐准确产品提供必要补充。同时,这些内容信息还有利于在特定环境下为用户推荐其所需产品。例如,利用内容信息,旅行推荐系统可以针对夏天和冬天为用户提供截然不同的推荐。Adomavicius和Tuzhilin通过调研发现,推荐系统领域的内容在不同原则下,具有多种含义,并且每种原则适用特点的视角,给内容赋予的含义也各不相同。为了合理处理推荐系统中的内容信息,Adomavicius和Tuzhilin提出一种三步处理的推荐系统方法,使得内容信息计算更为有效和可行,即内容过滤、内容预过滤和内容建模。通过这三步,系统能发现有利于产生信息推荐的内容信息,从而达到提高信息推荐的性能的目的[39]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈