理论教育 使用用户行为数据获取隐式评分,生成评分矩阵的模块

使用用户行为数据获取隐式评分,生成评分矩阵的模块

时间:2023-05-27 理论教育 版权反馈
【摘要】:隐式用户评分获取模块利用预处理后的用户行为数据,通过计算得到“用户-项目”评分矩阵,作为协同过滤的输入数据。系统执行流程如图41所示:图41系统隐式评分流程隐式评分的获取所用到的模型被统称为隐语义模型,它的核心思想是通过数据的隐含特征来联系用户兴趣与项目。其次,由于推荐的实现依赖于计算机平台,因此隐式评分的获取模型必须保证可编程计算实现。对于用户重复观看的行为,将所有评分进行加权平均。

使用用户行为数据获取隐式评分,生成评分矩阵的模块

隐式用户评分获取模块利用预处理后的用户行为数据,通过计算得到“用户-项目”评分矩阵,作为协同过滤的输入数据。系统执行流程如图41所示:

图41 系统隐式评分流程

隐式评分的获取所用到的模型被统称为隐语义模型,它的核心思想是通过数据的隐含特征来联系用户兴趣与项目。在协同过滤算法中,“用户-项目”的评分矩阵是推荐算法的基础,对推荐结果起着至关重要的作用。因此,隐式评分的获取模型有以下几个要求:首先,要保证用户模型必须能够准确地描述用户的兴趣,这样才能保证推荐结果的质量。其次,由于推荐的实现依赖于计算机平台,因此隐式评分的获取模型必须保证可编程计算实现。

隐式评分模型的研究有很多经典的方法,这些方法模型在本质上是相通的,都是利用足够的用户训练集进行数据挖掘,以获得用户的偏好模型,如隐式类别模型(Latent Class Model)、隐式主题模型(Latent Topic Model)和矩阵分解(Matrix Factorization)等。

然而在实际应用中,隐式评分经常面临的一个问题是数据集中只有正样本(用户喜欢什么项目),而没有负样本(用户对什么项目不感兴趣)。

对于这个问题,Rong Pan在文章中进行了深入探讨,他对比了如下几种方法:

a:对于一个用户,用他所有未选择过的项目作为负样本。

b:对于一个用户,从他未选择过的项目中均匀采样出一些项目作为负样本。

c:对于一个用户,从他未选择过的项目中采样出一些项目作为负样本,但采样时,保证每个用户的正负样本数目相当。

d:对于一个用户,从他未选择过的项目中采样出一些项目作为负样本,但采样时,对不热门的项目采样点权重设置更大。

Rong Pan在文章中表示,方法c能产生更优的样本;方法b次之;方法d的模型过于复杂;而方法a得到的负样本太多,正负样本数目相差悬殊,最终结果的精度也很差。因此,对负样本采样时应该遵循一个基本原则,即对每个用户要保证正负样本的数目相似。

基于智能大屏的隐式模型建立的基本假设条件为:用户在一个视频节目上投入时间的多少反映了用户的满意度。类似在商品推荐领域,用户花钱购买了商品代表付出了金钱;在视频推荐领域,金钱被时间成本所取代。用户收看视频的时长越长,付出的时间成本就越高,也就说明用户对该视频的兴趣越大。

这里引入满意度来衡量用户对某一视频的感兴趣程度。用户的观看时长与对视频的满意度评分成正比关系,对该视频越感兴趣,满意度越高,相应的分值也就越高。(www.daowen.com)

基础的隐式评分公式如下:

其中,p表示该观看行为为用户带来的评分,是用户对该视频的收看时长,L表示该视频的总时长。

对于智能大屏,有时会出现用户多次收看一个项目的情况,如一个电视剧有很多集,在行为记录中就会显示为用户多次收看该剧。此时的评分p为每次收看所得到的单次评分的加权平均,因此,改进后的隐式用户评分公式如下:

其中,n为该视频节目的观看总次数,为第n次观看该节目的时长,为第n次观看行为所对应的视频节目的总时长。

基于这个假设,智能大屏用户的样本描述可以将正负样本看作满意度的大小。用户选择该视频节目且看完则为一个正样本,表示用户喜爱该视频;而用户选择了该视频节目但观看时间很短便退出则为一个负样本,表示用户不喜爱该视频。

一个好的隐式评分模型要在保证可行性的同时,根据平台的具体特征而制定,既能发现相似用户,又能区分兴趣差别较大用户的全面的隐式评分策略。根据推测,用户对视频的满意度并不一定与其观看时长成线性关系。在这里引入置信度的概念。根据收视习惯,用户满意度分布在0和1周围时,满意度的置信度最高。按照常理分析来看,用户看到不喜欢的视频节目会快速判断不感兴趣并退出;而用户非常喜欢一个视频节目,则会完整地观看。但中途退出的原因难以一概而论,因此置信度较低。引入置信度函数公式如下:

图42 置信度函数的图形表示

如图42所示,该函数表示用户满意度越趋于两端,收看质量所代表的喜好程度越可信。由此可得到评分公式如下:

不仅如此,视频节目的总时长也会对用户收看行为造成一定的影响。片花、宣传片和短新闻的时长一般在3分钟左右,而电影的时长有时长达3小时。视频时长不同也会影响观看的满意度得分。短视频观看耗时较短,用户很容易看完,因此用户发现不感兴趣时可能该视频已经播放结束;如果视频本身时长过长,用户更容易因其他琐事而打断收视,从而产生中途退出的行为。因此,现有的评分方式对于视频总时长相差较多的情况显得不够完善。因此引入视频长度标量概念。评分公式为:

其中,30为视频的长度标量,为设定值。此公式设定了视频的总时长对隐式评分的影响。当视频本身的时长大于视频长度标量时,公式对用户的隐式评分起正向调整作用,即评分值加强;当视频本身的时长小于视频长度标量时,公式对用户的隐式评分起负向调节作用,即评分值减弱。由此,用户的隐式评分公式为:

在系统中,考虑到用户会有重复观看行为,因此对数据的处理按用户进行。对于用户重复观看的行为,将所有评分进行加权平均。最终得到评分公式为:

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈