理论教育 社交问答平台用户知识贡献

社交问答平台用户知识贡献

时间:2023-11-24 理论教育 版权反馈
【摘要】:数据收集时间为2015年4月13日,数据预处理和整理时间为2015年4月20日至27日。表7.1列出了该数据集的基本信息。表7.1数据集基本信息概况①知乎.为什么感觉雾霾是近几年突然爆发了?本书将不同层次关注度的问题与其是否有相应的答案获得赞同进行比较,利用卡方检验进行分析,如表7.5所示。

社交问答平台用户知识贡献

本研究中的数据样本来源于知乎,而知乎中包含大量的各类话题的问题和答案。本书选取“雾霾”话题作为研究对象,利用Python语言编写的网页爬取程序对该话题下的问题和答案进行内容抓取,将原始数据集保存在数据库软件MySQL中。在数据预处理过程中,本书将问题和答案分开保存,例如针对问题方面的数据,本书主要记录了问题名称(Name)和具体的问题描述内容、问题的网络链接地址(Question_URL)、问题的关注者数量(Followers)、问题对应的最佳回答的链接地址(Best_Answer_ID);而针对答案方面的数据,主要记录了答案的回答者名称(Answerer)、答案的链接地址(Answer_URL)、答案所在的问题地址(Question_ID)、答案获得的评论数量(Comment_NO.)以及具体的答案内容信息。数据收集时间为2015年4月13日,数据预处理和整理时间为2015年4月20日至27日。

整个数据集包含了1 540个问题和2 863个答案,本书根据每个问题和答案的链接地址赋予了相应的ID号。在知乎中,每个问题或答案的链接地址都包含有相应的数字,为了方便回溯和检索,我们将这些数字作为该问题或答案的ID号。例如问题“雾霾与风力发电有关吗?”的链接地址为https://www.zhihu.com/question/21756915,它的ID号即为21756915。在这1 540个问题中,有636个问题是没有人回答的,同时还有44个问题没有任何关注,它们分别占整个数据集问题数量的41.3%和28.6%。表7.1列出了该数据集的基本信息。

表7.1 数据集基本信息概况

①知乎.为什么感觉雾霾是近几年突然爆发了?[EB/OL].[2016-01-23].http://www.zhihu.com/question/22211349.
②知乎.如何看待教委叫停北大附中初中部雾霾停课?[EB/OL].[2016-01-23].http://www.zhihu.com/question/22854438.

本书根据每个问题下答案数量的分布绘制了问题数量与答案数量的关系图,如图7.2所示。从图中可以看出,拥有较多答案的问题只占整个问题集的极小部分,而绝大部分问题得到的回答很少甚至没有人回答,答案和问题之间的分布很不均匀,呈现典型的“马太效应”。这种现象说明,在知乎中仍然存在大量的问题未被处理和解决,而绝大部分高质量的答案只分布在少数几个问题中。

通过对没有人回答的问题的信息描述进行进一步分析(636个),本书发现这些未获得回答的问题有如下几点特征,分别是:①问题描述模糊不清;②问题描述过于复杂;③问题包含了若干个子问题;④缺乏必要的背景信息。这一结论与芬兰学者Savolainen对Yahoo!Answer进行研究得到的结论很相似,他认为,社会化问答社区中得不到反馈和响应的问题存在着信息表达不清,或者问题过于复杂,缺乏必要信息描述等劣势[7]。因此,在社会化问答社区中提问,如果想让自己的问题获得关注或回答,需要针对上述四点对问题进行相应的改善和提高。

从问题的角度来看,用户在问答社区提出的具体问题可以代表用户想要搜寻的信息,而从问题的关注数来说,获得关注数越高的问题可以反映该问答社区用户群体的信息搜寻偏好。本书将“雾霾”话题下问题的关注度分为四个层次,分别是:高关注度(关注人数≥1 000)、中高关注度(100<关注人数<1 000)、中等关注度(10<关注人数<100)和低关注度(关注人数≤10)。表7.2列出了关注度在100以上的问题(共34个),即处于中高或高关注度的问题,从中我们可以看出社会化问答社区用户对于雾霾问题信息搜寻的偏好。根据表中的信息可知,知乎上的雾霾话题主要分为两类,一类是相关的理论知识普及和介绍,比如针对当前雾霾的形成原因、雾霾的危害、我国雾霾问题严重化的根源、解决措施、普通民众如何自我防护等;另一类是由雾霾引发的话题的讨论和辩论,如“APEC蓝”带来的讨论和辩论等。

图7.2 数据集中问题与答案的数量分布

表7.2 中高、高关注度问题信息概况

续表

续表

(www.daowen.com)

从答案的角度来看,用户对某答案表示赞同可以看做是用户对该答案的采纳和认可,因此那些获得高赞同数的答案可以反映出答案的高质量和高采纳率。本书将获得赞同数量超过100人(含100)定义为“最佳答案”(best_answer),将其他答案定义为“一般答案”(ordinary_anwser)。在本数据集中,最佳答案的数量为63个(2.2%,n=2 863),一共获得赞同数为27 655人次,而这些答案又分布在25个问题中(1.6%,n=1 540)。如表7.3所示。

表7.3 高赞同数答案基本信息概况

续表

续表

注:N.A.表示回答者匿名。

本书将最佳答案与一般答案获得的评论数量进行比较分析发现,通过比较平均评论数量,发现不同类型的答案获得的评论数呈现显著的差异(卡方检验χ2=4.318,P<0.001),如表7.4所示。为了进一步验证评论数量与答案质量的关系,本书对答案评论数量和答案赞同数量进行了相关性分析(r=0.645),结果显示这两者之间有一定程度的正相关关系,这表明,用户对答案的评论数量的多少可以在一定程度上反映出答案质量的高低,高质量的答案相对于低质量的答案容易获得更多的评论。

表7.4 最佳答案与一般答案之间的评论数量差异比较

对答案的赞同可以在一定程度上说明用户对答案的采纳,那么用户对问题的关注度反映出问答社区用户搜寻信息的偏好。本书将不同层次关注度的问题与其是否有相应的答案获得赞同进行比较,利用卡方检验进行分析,如表7.5所示。结果发现,不同层次关注度的问题在获得赞同的答案数量方面呈现明显差异。具体来说,关注度越高的问题越容易获得其他用户的响应和回答,同时高关注度的问题获得高质量答案的几率要高。

表7.5 答案获得赞同的数量与其问题关注度的关系

为了验证问题关注度与答案质量的关系,本书首先对关注度排名前50的问题和赞同数排名前50的答案所属的问题进行了Cohen's Kappa[8]一致性的检验。结果显示这两者一致性系数为0.78,大于0.7的推荐阈值[9],这进一步说明关注度高的问题与高质量的答案有相当大的一致性,因此可以得出结论,知乎中的高质量答案来自于用户群体经常搜寻的问题的所属答案。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈