理论教育 社交问答用户行为数据分析及结果

社交问答用户行为数据分析及结果

时间:2023-11-24 理论教育 版权反馈
【摘要】:据此,我们构建了基于用户提问数和回答数之间的散点图,以便对知乎平台上用户整体行为情况有个基本的了解与判断。表4.4三组样本在提问数上的Kruskal_Walls检验结果注:***表示P<0.001。就问题回答数量来看,Answer_lover组所回答问题最多,平均数量达1 161.32,是Majority组的26.32倍,是Answer_lover组的5.53倍。②就样本性别构成来看,男性是社交问答平台知乎上的主要用户,在各组均占据绝对优势。表4.6三组用户的回归分析结果续表注:*表示P<0.05;**表示P<0.01;***表示P<0.001。

社交问答用户行为数据分析及结果

(1)样本分组

在知乎问答平台上,用户提问与回答是最基本的互动行为,在此基础上,吸引更多用户参与对某些问题的讨论,进而进行编辑,才会产生后续的收藏、关注等行为。所以,用户的提问数和回答数可以大致反映一个用户在知乎平台上的活跃程度和参与互动的程度。据此,我们构建了基于用户提问数和回答数之间的散点图,以便对知乎平台上用户整体行为情况有个基本的了解与判断。

以提问数为X轴,回答数为Y轴,所有观察样本在图中的坐落位置如图4.2所示。散点图表明,大部分的点集中在左下方靠近0点的位置,也有少部分点分别靠近横坐标和纵坐标两个方向。根据散点图内的点群分布,我们大致可以将所有用户分成三个组:第一组为靠近横坐标的点群,特点为提问数量很多,回答问题数量很少,代表着喜欢提问却很少回答甚至不回答问题的用户群体,标记为Question_lovers。第二组为靠近纵坐标的点群,特点为回答问题数量很多,提问数量很少,代表喜欢回答但很少提问甚至不提问题的用户群体,标记为Answer_lovers。第三组为中间部分点群,回答问题数量和提问数量相对较多,这部分人群也较多,标记为Majority。

图4.2 提问数与回答数的散点图

运用大数据分析工具R语言将三个组的样本分离,最终得到Question_lovers组内样本282份,Answer_lovers组内样本279份,Majority组内样本33 413份。为了进一步检验三组分组样本具有显著差异,我们对三组分组样本的关键指标(回答数与提问数)分别进行了两两比对的ANOVA分析,Kruskal-Walls检验结果表明,三组样本的提问数的平均秩差异、回答数的平均秩差异是显著的,总体分布存在显著差异,结果详见表4.4。

表4.4 三组样本在提问数上的Kruskal_Walls检验结果

注:***表示P<0.001。

(2)社交问答用户的特征描述

为了方便对三组样本进行特征描述,我们对三组样本进行了描述性统计分析,计算了各样本的部分指标的百分比分配及指标均值,并根据关键指标值绘制了三组样本的特征示意图,如表4.5和图4.3所示。

表4.5 三组用户的特征描述

续表

注:*表示P<0.05;**表示P<0.01;***表示P<0.001。

(www.daowen.com)

图4.3 三组样本的特征示意图

从表4.5的结果可以看出:

①就提问数量来看,Question_lover组所提问题数最多,平均数量达106.36个,是Majority组的32.32倍,是Answer_lover组的8.12倍。就问题回答数量来看,Answer_lover组所回答问题最多,平均数量达1 161.32,是Majority组的26.32倍,是Answer_lover组的5.53倍。

②就样本性别构成来看,男性是社交问答平台知乎上的主要用户,在各组均占据绝对优势。在Question_lover组,男性用户占90.8%;在Answer_lover组,男性用户占93.9%;在Majority组,男性也占到了73.2%。由于我们在数据采集时采集的都是精华区的数据,对问题区其他没有得到回应的问题进行了筛选,因此,有可能这次筛选导致了性别在样本中的本身的不均衡。但是,这也从侧面反映出来,男性用户在社交问答平台上的参与程度会更高一些。

③从学历上看,高中生用户在各个组所占据的比例很大,均在93%以上。Qustion_lover组与Answer_lover组的博士用户所占比例相等,高于Majority组;而硕士用户正好与之相反,他们在Majority组所占比例远高于Question_lover组和Answer_lover组。Answer_lover组的大学生用户所占比例最高,Qustion_lover组次之,Majority组中所占比例最低。由于Majority组在提问数与回答数两项指标上都远低于大样本均值,因此,我们可以初步认为,博士、大学(包括本科、专科)用户比硕士用户更愿意参与回答和提问。由于具有初中学历的用户在Answer_lover组最多,可以推测,与提问相比,初中生用户更愿意回答问题。

(3)社交问答用户行为分析

为了进一步揭示三组用户在提问、回答行为上的差异,我们分别以提问数/回答数为因变量,以回答数/提问数、文章数、收藏数、公共编辑数、获赞数、获感谢数、关注用户数、粉丝数、关注话题、关注栏目、回答质量等为自变量,以性别和学历为控制变量,进行回归分析。回归结果详见表4.6。

表4.6 三组用户的回归分析结果

续表

注:*表示P<0.05;**表示P<0.01;***表示P<0.001。

表4.6中的结果表明:

①对于Majority组而言,回答数、文章数、收藏数、公共编辑数、获赞数、关注用户数、粉丝数、关注话题、关注栏目、性别(男性)与影响用户提问数有显著正相关关系;用户学历(博士、硕士)、获感谢数与提问数有显著负相关关系。其中,公共编辑数与回答数对该组用户的提问数影响最大,回归系数分别为0.360和0.269。显著影响该组用户回答数的因素包括:提问数、文章数、获赞数、获感谢数、关注用户数、粉丝数、关注话题、关注栏目、回答质量、性别(男性)。其中,提问数(0.289)、关注用户数(0.127)与回答质量(0.120)与回答数间的正相关系数最大。

②对于Answer_lover组而言,粉丝数、关注用户数对该组用户的提问数有显著影响,回归系数分别为0.202和0.172;显著影响该组用户回答数的因素包括获赞数和回答质量,且获赞数、回答质量与回答数之间的系数达到0.643,和-0.239。数据表明,回答问题质量越高的用户,其获赞数越多,回答数量反而偏低,说明该组用户具有很强的责任担当,回答问题时态度认真、严谨。

③对于Question_lover组而言,显著影响该组用户提问数的因素包括回答数、公共编辑数、关注用户数、粉丝数,回归系数分别为0.228、0.254、0.344、0.211;显著影响该组用户回答数的因素包括提问数、文章数,回归系数为0.280和0.222。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈