智能分析助力破局：大样本、细粒度的应用

更新时间：2026-01-12 理论教育 版权反馈

【摘要】：在性别占比方面，女性观众多于男性观众。（二）细粒度：智能分析方法1.提取“流入-流出对”基于10万个终端样本的直播、点播记录，我们可以根据开始观看时间还原每个终端所有观看行为的视频序列，打通直播与点播双渠道，获知终端在视频中的跳转情况。图18视频“流入-流出对”构建网络基于所有视频的嵌入向量，我们通过为每个视频A计算其余弦相似度，得到每个视频A与其他视频B的相似度，进行后续分析。

（一）大样本：十万智能大屏OTT家庭

在勾正数据所监测到的OTT终端中，我们随机抽取了十万个匿名收视终端（家庭）作为样本数据，数据真实地记录了每个匿名家庭在2018年7月1日～2019年6月30日在直播端和点播端的所有收视行为。数据使用计算机按照随机原则进行抽样，每一个对象都有已知的、非零的概率被选入作为研究的对象，减少了人为的干扰，保证了样本的代表性。对比传统的日记卡法、测量仪法等数据采集方法，使用OTT终端采集的数据不易被污染，更加真实可信，而且理论上可以做到全量采集，进行总体分析。以此数据为基础，我们分析了以下内容：

终端分布与收视情况按地区统计看，广东、山东、江苏三个省份样本数量最多，东部地区分布密集。

受众人群可以按特征划分。在性别占比方面，女性观众多于男性观众。年龄分布方面，65岁以上占比27%，是收视的最大人群；25～34岁以及45～54岁分别只占6%左右，是收视观众分布最少的年龄段。学历占比方面，本科及以上学历的电视观众占比约为22%，约七成电视观众学历为中学及以下。收入方面，电视观众呈现两极分化趋势，收视三大群体为收入3000元以下、3000～6000元和12000元及以上的人群。

图14　收视人群画像性别分布图　

图15　抽样收视人群画像学历分布

图16　抽样收视人群画像年龄分布　

图17　抽样收视人群画像收入分布

在此将数据分为直播端收视行为、点播端收视行为以及观众属性三部分。直播端收视行为描述了用户每次开机之后收看哪个频道的什么节目，这个节目的具体播放信息和标签是什么，之后又跳转到其他频道等信息。点播端收视行为数据描述用户点播某一节目的时间、此节目的信息和标签等信息。为了保证数据安全，在提取操作中对所有数据进行了匿名处理，保证数据只做描述性统计及内容竞争分析使用。

（二）细粒度：智能分析方法

1.提取“流入-流出对”

基于10万个终端样本的直播、点播记录，我们可以根据开始观看时间还原每个终端所有观看行为的视频序列，打通直播与点播双渠道，获知终端在视频中的跳转情况。用户使用OTT大屏在直播、点播两渠道中任意选择想要观看的视频，每次从当前视频跳转至下一个观看的视频，都可生成一个“流入-流出对”，流入视频与流出视频既为竞品，又为互补。因此，我们首先过滤每一终端的无效观看记录，将有效记录按照开始观看时间排序后，提取每一终端观看行为中的“流入-流出对”，汇总10万终端后得到所有的“流入-流出对”及其频率统计。

将终端直播、点播记录转化为“流入-流出对”及其频率后，我们以此为基础研究不同视频内容之间的竞争和排名情况。(https://www.daowen.com)

2.Node2Vector计算视频相似度

Node2Vector是一种综合考虑深度优先搜索（DFS）和广度优先搜索（BFS）的图嵌入（Graph Embedding）方法。其主要思想是在由节点组成的网络图结构上进行随机游走，兼顾游走深度与游走宽度，产生大量节点序列，而后将这些序列作为训练样本输入嵌入模型进行训练，输出节点的多维向量。将网络中的节点转化成量化的多维向量后，即可使用向量计算方法进行后续分析。

我们根据所有媒体视频构成的“流入-流出对”及其频率搭建视频竞争网络，并使用Node2Vec方法，将网络中的节点转化为64维的嵌入向量。

图18　视频“流入-流出对”构建网络

基于所有视频的嵌入向量，我们通过为每个视频A计算其余弦相似度，得到每个视频A与其他视频B的相似度，进行后续分析。

余弦相似度计算公式：

3.PageRank计算视频排行

终端用户在不同视频之间的跳转代表其在所有直播、点播渠道提供的内容中进行的选择。如果有许多终端都从上一视频跳转指向某一个视频，即视频获得“流出”的频数就越大，可以推断其热度更高、竞争力更强。在任意时刻，每个视频都可能“被流入”或者“被流出”，当最终达到稳定时，将每个视频获得的流量存量由大到小排序，就得到了视频重要性的排序。排在前列的是流出较多的视频，而且经常流向的重要视频也会得到靠前的排位。

因此，我们参考搜索引擎排序网页的PageRank算法，以媒体视频类比搜索结果页，通过计算每个视频的PageRank值，计算视频的热度并进行排序，从而进行后续分析。

图19　视频“流入-流出对”构建PageRank网络

PageRank计算公式：

其中，为衰减因子，一般取值0.8或0.85，是视频q指向视频p的出度，N为视频的数量，初始化R的值均为1/N，通过迭代计算后得到最终数值结果。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

智能分析助力破局：大样本、细粒度的应用

公司员工素养冻结，如何破局？

如何破局基层党建责任落实难点？

处于发展保护的两难期：如何破局？

应用样本统计研究分析总体情况

破局变革：奥康走向国际化的管理创新之路

TO B企业的内容营销破局法则：持续投入优质

晋国霸主的挑战与机遇：违逆命运，谁能破局？

揭密智能移动终端前沿应用：未来手机功能大揭秘

相关推荐