给定一组每日数据点集,其中表示家庭i在一天24小时内在智能大屏上观看视频所花费时间的变化,通过对每日数据点的聚类分析,挖掘典型的日模式。
我们采用K-Means算法对每日数据点集进行聚类,并将每个聚类中心视为典型的每日模式。由于K-Means算法需要输入簇的个数,首先需要确定数据中存在的聚类数。由于集群定义中固有的模糊性,很难确定哪个值会导致更有意义的集群。在一定程度上聚类数的确定,需要专业的领域知识和丰富的实践经验,还需满足用户需求和应用需求。一种常用的方法是尝试不同的数字,并检查畸变曲线目标值相对于簇数的变化,进而确定聚类个数。我们在范围内尝试了不同的k值,然后从可辨别性和可解释性的角度分析了聚类后得到的日模式。最后,我们决定将k设置为8,它位于失真曲线的肘部附近。
图28 收视日模式
显然,图28所描绘的日模式是可以辨别的。除图28g、图28h外,大多数模式都有一个峰值,但峰值出现在一天的不同时段。一个共同点是,从凌晨2:00~6:00,它们都保持在接近零的低值,因为大多数人在这段时间都在睡觉。媒体时段分布很常见,我国的媒体时段分布如表30所示。这些日模式很容易通过时段来解释,不同日模式的峰值时间与某些时段很吻合。为了更好地解释用户收视的日模式,将模式根据其峰值时间位于时段命名。通过观察,模式(a)用户观看时间主要分布在9:00~11:00,根据媒体时段分布,命名为“上午模式”;模式(b)用户观看时间主要分布在11:00~13:00,根据媒体时段分布,命名为“中午模式”;模式(c)用户观看时间主要分布在14:00~16:00,根据媒体时段分布,命名为“下午模式”;模式(d)用户观看时间主要分布在18:00~19:00,根据媒体时段分布,命名为“傍晚模式”;模式(e)用户观看时间主要分布在19:00~21:00,根据媒体时段分布,命名为“黄金模式Ⅰ”;模式(f)用户观看时间主要分布在21:00~23:00,根据媒体时段分布,命名为“黄金模式Ⅱ”;模式(g)用户观看时间主要分布在8:00~24:00,用户观看行为有两个峰值,分别在12:00和20:00,用户观看电视时长跨度大,基本除睡觉时间用户均有观看行为,是大屏平台的活跃用户,命名为“冲浪模式”;模式(h)用户整天基本无任何电视观看行为,是不活跃用户行为,命名为“潜水模式”。八种日模式命名如表31所示。
表30 媒体时段分布(www.daowen.com)
表31 收视日模式命名
续表
虽然不同用户在个体层面观看行为模式是有差异的,但对大体量用户群体来说会存在一些相似的行为模式。从算法上讲,一个簇的质心是属于它的数据点的平均值,每个数据点都被分配给其质心最接近它的簇。因此,在同一个集群中,数据点之间的细微差异是平均的,而共性是突出的。在实际生活中,用户在一定程度上行为受自身客观条件的制约,无论是地域、职业还是用户自身的喜好等原因都有可能影响用户的行为习惯,这些习惯会影响用户在不同时间段看电视。而大部分用户受客观条件所限,都有一个固定但不同的日常生活,用户有规律的行为方式加上大体量用户就能找出用户的行为模式。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。