理论教育 数据预处理模块在OTT平台家庭收视数据集中的应用

数据预处理模块在OTT平台家庭收视数据集中的应用

时间:2023-05-27 理论教育 版权反馈
【摘要】:研究所用到的具体数据集分为两部分:第一部分为企业数据,数据集为勾正数据提供的在全国范围随机抽取到的10万户家庭,在2019年6月于OTT平台上的全部收视行为。用户在OTT平台的收视行为数据包含为每个家庭创建的唯一ID、所收视节目的ID、所收视节目名称、用户观看该节目的起止时间等,对于直播节目,数据还记录了该节目实际播放的起止时间。

数据预处理模块在OTT平台家庭收视数据集中的应用

数据预处理模块的主要任务是将大屏平台收集到的用户行为数据和视频节目详情数据进行清洗、提取,从众多数据属性中抽取算法需要的维度,以进行后续的计算。

本研究的数据基础是用户在智能大屏上的行为数据。在大屏中,用户对视频资源的行为主要有浏览、搜索与收看。其中,收看行为还包括收看点播和收看直播两种行为。

研究所用到的具体数据集分为两部分:第一部分为企业数据,数据集为勾正数据提供的在全国范围随机抽取到的10万户家庭,在2019年6月于OTT平台上的全部收视行为。用户在OTT平台的收视行为数据包含为每个家庭创建的唯一ID、所收视节目的ID、所收视节目名称、用户观看该节目的起止时间等,对于直播节目,数据还记录了该节目实际播放的起止时间。该数据是本研究的基础性数据。第二部分为网络爬虫数据。网络爬虫数据根据用户在OTT上的点播行为,获取点播的视频节目名称,在网络上爬取了该视频的总时长。爬虫数据的属性有视频名称和视频总时长两项。这部分数据是第一部分数据的补充,补充原因是在获取隐式评分时需要视频的视频总时长作为基础,而第一部分数据中并未包含这些数据。

在数据清洗过程中,我们去除了数据中因格式错误无法计算的数据以及在网络爬取时点播视频节目总时长为0的错误数据。之后,将所有数据进行整理,建立用户行为数据表如表39所示:(www.daowen.com)

表39 用户行为数据说明

其中,UserID是用户的标识码,具有唯一性,使用加密后的标识码来代表用户,避免用户信息泄露等问题;Behave是用户的收视行为分类,1表示用户该行为发生在直播观看情境下,2表示该行为发生在点播观看情境下;User-time是用户的收视时长,由于基础数据的精确度为分钟级,因此数据格式统一以分钟为单位表示;Item为用户收看到的视频节目资源的名称,名称不包括集数,只有视频标题;Item-time是用户观看这一视频节目的总时长,与用户收看行为统一以分钟为单位。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈