(一)大样本:十万智能大屏OTT家庭
在勾正数据所监测到的OTT终端中,我们随机抽取了十万个匿名收视终端(家庭)作为样本数据,数据真实地记录了每个匿名家庭在2018年7月1日~2019年6月30日在直播端和点播端的所有收视行为。数据使用计算机按照随机原则进行抽样,每一个对象都有已知的、非零的概率被选入作为研究的对象,减少了人为的干扰,保证了样本的代表性。对比传统的日记卡法、测量仪法等数据采集方法,使用OTT终端采集的数据不易被污染,更加真实可信,而且理论上可以做到全量采集,进行总体分析。以此数据为基础,我们分析了以下内容:
终端分布与收视情况按地区统计看,广东、山东、江苏三个省份样本数量最多,东部地区分布密集。
受众人群可以按特征划分。在性别占比方面,女性观众多于男性观众。年龄分布方面,65岁以上占比27%,是收视的最大人群;25~34岁以及45~54岁分别只占6%左右,是收视观众分布最少的年龄段。学历占比方面,本科及以上学历的电视观众占比约为22%,约七成电视观众学历为中学及以下。收入方面,电视观众呈现两极分化趋势,收视三大群体为收入3000元以下、3000~6000元和12000元及以上的人群。
图14 收视人群画像性别分布图
图15 抽样收视人群画像学历分布
图16 抽样收视人群画像年龄分布
图17 抽样收视人群画像收入分布
在此将数据分为直播端收视行为、点播端收视行为以及观众属性三部分。直播端收视行为描述了用户每次开机之后收看哪个频道的什么节目,这个节目的具体播放信息和标签是什么,之后又跳转到其他频道等信息。点播端收视行为数据描述用户点播某一节目的时间、此节目的信息和标签等信息。为了保证数据安全,在提取操作中对所有数据进行了匿名处理,保证数据只做描述性统计及内容竞争分析使用。
(二)细粒度:智能分析方法
1.提取“流入-流出对”
基于10万个终端样本的直播、点播记录,我们可以根据开始观看时间还原每个终端所有观看行为的视频序列,打通直播与点播双渠道,获知终端在视频中的跳转情况。用户使用OTT大屏在直播、点播两渠道中任意选择想要观看的视频,每次从当前视频跳转至下一个观看的视频,都可生成一个“流入-流出对”,流入视频与流出视频既为竞品,又为互补。因此,我们首先过滤每一终端的无效观看记录,将有效记录按照开始观看时间排序后,提取每一终端观看行为中的“流入-流出对”,汇总10万终端后得到所有的“流入-流出对”及其频率统计。
将终端直播、点播记录转化为“流入-流出对”及其频率后,我们以此为基础研究不同视频内容之间的竞争和排名情况。(www.daowen.com)
2.Node2Vector计算视频相似度
Node2Vector是一种综合考虑深度优先搜索(DFS)和广度优先搜索(BFS)的图嵌入(Graph Embedding)方法。其主要思想是在由节点组成的网络图结构上进行随机游走,兼顾游走深度与游走宽度,产生大量节点序列,而后将这些序列作为训练样本输入嵌入模型进行训练,输出节点的多维向量。将网络中的节点转化成量化的多维向量后,即可使用向量计算方法进行后续分析。
我们根据所有媒体视频构成的“流入-流出对”及其频率搭建视频竞争网络,并使用Node2Vec方法,将网络中的节点转化为64维的嵌入向量。
图18 视频“流入-流出对”构建网络
基于所有视频的嵌入向量,我们通过为每个视频A计算其余弦相似度,得到每个视频A与其他视频B的相似度,进行后续分析。
余弦相似度计算公式:
3.PageRank计算视频排行
终端用户在不同视频之间的跳转代表其在所有直播、点播渠道提供的内容中进行的选择。如果有许多终端都从上一视频跳转指向某一个视频,即视频获得“流出”的频数就越大,可以推断其热度更高、竞争力更强。在任意时刻,每个视频都可能“被流入”或者“被流出”,当最终达到稳定时,将每个视频获得的流量存量由大到小排序,就得到了视频重要性的排序。排在前列的是流出较多的视频,而且经常流向的重要视频也会得到靠前的排位。
因此,我们参考搜索引擎排序网页的PageRank算法,以媒体视频类比搜索结果页,通过计算每个视频的PageRank值,计算视频的热度并进行排序,从而进行后续分析。
图19 视频“流入-流出对”构建PageRank网络
PageRank计算公式:
其中,为衰减因子,一般取值0.8或0.85,是视频q指向视频p的出度,N为视频的数量,初始化R的值均为1/N,通过迭代计算后得到最终数值结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。