理论教育 社交问答用户行为数据来源与方法

社交问答用户行为数据来源与方法

时间:2023-11-24 理论教育 版权反馈
【摘要】:目前,国内社交问答平台上活跃用户与“僵尸”用户数量比例严重失衡。为了了解用户的行为动机差异,提升社交问答平台信息质量,对以知乎为代表的社交问答平台用户群体进行细分、特征识别与行为分析尤为必要。图4.1知乎的界面与采集数据来源示意图数据清洗与编码将从6个话题下采集到的全部数据进行数据清洗。

社交问答用户行为数据来源与方法

火车头采集器是一款目前最受欢迎的网页数据采集软件,可以灵活地抓取网页中散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需的数据[7]。目前,已有学者运用火车头采集器采集数据进行舆情评估[8]、微博热点主题识别[9]等研究。

知乎作为目前国内最热门的社交问答平台之一,截至2015年3月,已拥有1 700万注册用户,月独立用户约8 000万,全站累计产生十多万个话题领域,包含350万个问题[10]。目前,国内社交问答平台上活跃用户与“僵尸”用户数量比例严重失衡。以知乎为例,在注册用户中,83.76%的用户从未回答过问题,写过答案的用户仅占16.24%。一半左右的答案从来没得到过赞同,1/3左右的答案从未得到关注[11]。李翔宇等认为,回答者的复杂动机,会导致主观性信息传播,也会增加虚假、冗余、失真信息的成分,影响答案质量[12]。为了了解用户的行为动机差异,提升社交问答平台信息质量,对以知乎为代表的社交问答平台用户群体进行细分、特征识别与行为分析尤为必要。研究结论对于服务提供商锁定目标用户,并有针对性地进行功能调整、服务改善,增加用户的可持续使用和用户忠诚度也具有重要意义。

本书通过运用火车头采集器对知乎中的数据进行抓取,通过设置网址采集规则、内容采集规则(包括循环和关联多页的采集规则)、内容发布规则,采集知乎多级网址和列表上下页的分页网址中的用户个人信息与行为数据。然后在此基础上进行数据清洗,并构建两个回归模型进行统计分析

(1)数据采集思路

由于知乎囊括的话题多、模块多,所涉及的问题及回答数量庞大,为了实现数据采集效率与分析过程客观性之间的平衡,在采集时我们进行了相应的数据筛选。具体思路如下:

①采集话题的确定。知乎下设33个话题,为了选出有代表性的话题进行分析,本书设定5个规则对话题进行排名,最终选定依据各规则进行排名后出现的第一名与最后一名,具体情况见表4.2。

表4.2 排名规则与话题排名首尾结果

由于文化足球在几次排名中重复出现,删除重复值后,最终确定的拟抓取数据的话题数量从10个减少为6个,即电影艺术、文化、足球、摄影化学

②采集区域的确定。知乎在每个话题下面设置了动态、精华问题区和等待回答问题区三个版块。每个话题下的精华问题区会固定展示50页。等待回答问题区分为热门问题和全部问题两类进行展示,其中,热门问题会占据2 000页左右页面,大多数问题获得的回答数在2~9个;全部问题大致占5 000页左右,且许多问题没有得到回答。考虑到热门问题和全部问题下用户的个人信息数量过于庞大并且有效信息少,因此本书决定只对精华区的数据进行采集。(www.daowen.com)

(2)数据基本信息

根据上述思路,对6大话题下设精华区的问题,采用采集奇数页(即25页)的方案进行数据抓取。数据主要包括两个部分:①用户个人信息。数据项包含用户ID、性别、受教育程度;②用户行为信息,包括用户提问数、回答数、撰写文章数、收藏数、公共编辑数、获赞数、获感谢数、关注用户数、粉丝数、关注话题数、关注专栏数、提问数和回答数等多个标签信息。具体如图4.1所示。

图4.1 知乎的界面与采集数据来源示意图

(3)数据清洗与编码

将从6个话题下采集到的全部数据进行数据清洗。根据采集到的信息,对用户的受教育程度以1~6进行编码,分别对应博士、硕士、大专/本科、高中/中专/职高、初中和小学,在数据处理时,均转化为0、1变量,以小学为参照组进行回归分析。采集到的用户性别信息为男和女,在编码时将男性设为1,女性设为2,数据处理时以女性为参照组。

剔除数据中包含空白数据、无效信息较多的数据,共得到有效样本33 974个,乘以每个样本的有效数据项14个(13个直接采集到的数据项和一个计算得到的数据项“回答质量”),总数据项共计475 636个。删除与本书研究无关的数据项,最终提取如下变量,如表4.3所示。

表4.3 研究定义的变量与含义

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈