理论教育 用户社交问答需求的实证分析

用户社交问答需求的实证分析

时间:2023-11-24 理论教育 版权反馈
【摘要】:越来越多的网络用户在社交问答平台中产生和分享健康信息,但是对用户在社交问答平台中讨论和共享什么样的健康信息的研究较少。通过对这些问题的研究可以了解网络用户健康信息需求,为健康类社区的建设提供参考。同时,还可以根据不同用户及其社会情感需求,为疾病患者提供更有针对性的建议。Answers中糖尿病相关的提问记录作为研究对象,根据糖尿病信息的类目体系及分类策略进行文本处理,获得表征糖尿病健康信息需求的中心词。

用户社交问答需求的实证分析

社会经济的高速发展以及人们生活水平的不断提升,使得人们对健康信息的需求越来越大。而随着生活方式的改变,人们已经由传统的向专业人员咨询转变为主动地通过各种渠道来获取健康信息,互联网由于其传播范围广和用户群体大等特点,成为人们获取健康信息的重要平台,并可能影响用户的医疗决策。2015年利用互联网寻求医疗信息的用户占中国网民总数的22.1%,用户规模达到15 211万人[5]

越来越多的网络用户在社交问答平台中产生和分享健康信息,但是对用户在社交问答平台中讨论和共享什么样的健康信息的研究较少。过去有对社交问答平台中信息行为的研究,但所采用的研究方法有限,大部分研究采用问卷调查或访谈的方式进行实证研究;或是选取社交问答平台热点主题中极少数量的提问和回答,采用人工统计标注的方法进行内容分析,不仅处理效率不高,且科学性有待考证。本书拟运用文本挖掘,基于传统文本分析方法,从百度知道平台中抽取大量有关“高血压”的提问和回答,并对这些提问进行研究。

本书的主要研究问题为:①问答社区中用户对哪些疾病信息提问较多(如预防手段、治疗措施、患病原因等);②用户的个人经验、专业知识等背景对用户健康信息行为的影响;③问答社区中用户的哪些健康信息行为与日常生活信息行为有关;④通过在社区中搜寻健康信息,用户希望得到哪些社会情感支持。通过对这些问题的研究可以了解网络用户健康信息需求,为健康类社区的建设提供参考。同时,还可以根据不同用户及其社会情感需求,为疾病患者提供更有针对性的建议。

(1)国内外研究现状

学术界针对不同类别的虚拟社区、疾病、研究方法,开展了一系列研究。

①网络社区健康信息行为的方法研究。网络社区用户健康信息行为的分析方法上,之前的研究大多采用问卷调查的方法。如Kim等[6]通过对部分韩国居民的网络调查发现,社会资本对健康信息的有效性和健康信息的寻找有积极作用,个人健康信息素养也会影响健康信息的寻求意图。张星等[7]信息系统成功和社会支持的角度建立结构方程模型,研究在线健康社区用户行为,发现系统质量、信息质量对用户满意度有显著影响。学者常用的研究方法还包括访谈法,例如Natalie等[8]抽取部分糖尿病患者进行访谈,访谈涉及其对网络健康社区所持的态度和看法,了解其更倾向于在健康社区中参与讨论的话题种类等。还有一部分研究采用实验的方法,如张敏[9]选取在校大学生为实验对象,采用情景模拟实验和问卷调查相结合的方法,探索用户的健康知识素养和搜索经验对网络用户健康信息搜索行为的影响。

基于问卷调查的方法从用户主观感知进行研究,往往受到样本和问卷设计等因素的影响而具有很大局限性,因此很多研究从信息内容的角度以实际发布在社交问答中的文本为研究对象。如Zhang Jin等[10]分析了Yahoo!Answers中的关于糖尿病的提问与答案记录,通过可视化方法揭露了糖尿病主体聚焦的十二大类健康主题。Velupillai等[11]对社区中用户生成文本内容进行挖掘和自动化信息分析,对医疗保健的改进提出建议。目前,国内有针对社交问答平台的研究,但是对社交问答平台中的健康信息行为的研究仍较少,主要是以美国的Yahoo!Answers及其用户为研究对象。如金碧漪[12]选取Yahoo!Answers中糖尿病相关的提问记录作为研究对象,根据糖尿病信息的类目体系及分类策略进行文本处理,获得表征糖尿病健康信息需求的中心词。黄梦婷等[13]抽取知乎“健康”子话题下若干问题、回答和评论,对数据进行定性的内容分析,探讨社交问答平台中不同问题和不同用户之间的协作方式是否存在差异,对提升问答平台答案的完整性和信息量提出建议。

②基于网络社区的文本挖掘应用研究。近年来随着文本挖掘技术的兴起和广泛运用,诸多学者将以文本挖掘技术为代表的智能化处理手段应用于虚拟社区的文本处理当中。

第一,网络社区主题识别研究。

探索网络社区中的热点研究主题一直是很多研究者的关注焦点。早期对医学领域的研究主要是通过相关文献和医疗档案,以人工标注的方式统计医学热点主题,但是当面对海量的医疗文本记录时,学者很难在海量数据中快速捕获所需信息,解决此类问题显得十分迫切。Aronson等[14]通过构建标准化的主题分类系统来对某个特殊领域的文献进行分类。有研究基于文本挖掘技术探索网络健康社区中的热点主题词,如夏立新等[15]通过对网络社区中与就业有关的文本进行挖掘,对获取到的数据进行中文分词和词性标注,构建就业知识需求关系,为高校就业率的提升提供建议。

第二,网络社区情感分析研究。

用户在网络社区中不仅可以交流和分享个人知识经验,还可以在该平台上进行情感交流,寻求归属感。过去的研究表明,用户在社区中发表的一些主观性内容大多是为了获得情感支持,如糖尿病等慢性疾病患者,因其治病周期长且难以治愈,会希望在社区中得到别人的理解和支持。通常对网络文本进行情感分析,需要先剔除掉不带任何感情色彩的客观性陈述,对用户的主观评价进行分析。如夏南强等[16]借助微博平台,利用主观倾向性分析技术对群体主观信息进行主观倾向性判定,概括出微博用户的主观情感倾向。Hatzivassiloglou等[17]通过计算诸如“丑陋”“美丽”等主观形容词在句中出现的频率来推断用户的情感指向。在情感倾向性方面,较多相关研究使用积极和消极这两类情感来区分文本中的情感倾向[18]

(2)研究设计

①数据来源与采集。百度知道是一个有代表性的全球最大的中文问答平台,每天有3.8亿人次使用百度知道寻求知识和信息,其中有8%~10%的问题是有关医疗的问题,大部分来自医疗条件落后、教育水平不高的地区。为了借助互联网平台为广大用户解决健康方面的问题,百度知道于2003年推出了“拇指医生”这一产品,由具有广泛经验和专业知识的医生在线解决疑问,普通用户也可以在这一平台上提出或回答医学、健康相关的问题。百度知道上与健康相关的主题是非常全面的,用户可以提问和回答13个健康主题相关的问题,包括医疗、健康、妇产科、皮肤科、五官科、儿科、内分泌科、内科、肿瘤科、传染科、人体常识、男性泌尿科、外科、精神心理科。已有研究表明,人们更倾向于讨论对人类健康威胁大的疾病[19]。高血压是最常见的慢性病,也是心脑血管病最主要的危险因素,其发病人群广,且发病率高,是网络社区用户比较关注的疾病。本书在百度知道平台下,选取内科板块下的“高血压”为主题来分析社会化问答社区用户的健康信息行为,用户提出与高血压相关的问题可能是想寻求该疾病的预防、治疗等帮助。

由于百度知道没有提供应用程序接口(API),因此,本书采用Java语言编写网页抓取程序,对网页中的内容进行抓取从而采集数据。首先获取百度知道HTML文件的内容,其次借助正则表达式匹配提取出相应的问答信息,最后获取正则表达式匹配出来的信息。百度知道的提问界面如图2.1所示。

提问界面包含有提问问题、提问者、问题类别、浏览次数、提问时间、回答答案、回答者、点赞数等信息。截至2016年4月20日,从百度知道抓取了以“高血压”为关键词的共9 823个问题,考虑到应该关注用户浏览和访问量大的问答,因此,首先保留提问中浏览次数超过5次的网页内容,在保留的内容中删除没有任何回答的提问记录,最后的研究样本共有6 888个问题,回答数共20 010个,平均每个提问有3个答案。

图2.1 百度知道的提问界面

②文本处理。本书利用ROST CM分词软件进行分词及标准化处理,ROST CM是一款免费的内容挖掘软件,主要功能是完成文本分析和内容分析,能从大量数据材料中归纳出普遍性结论,目前支持中文分词、字频统计、词频统计、聚类、简单和复杂的情感分析等分析方法[20]。本书的研究首先利用ROST CM6将从百度知道中抓取到的高血压提问的文本进行分词,并将这些特征词按词频大小排列,这些分析揭示了用户在社会化问答社区中关注的高血压健康信息以及用户的信息行为。为了从文本中提取有意义的术语和概念,采用医学主题词表作为主要词典,利用ROST CM6基于文本挖掘进行数据分析。如表2.1所示,将这些关键特征词按信息类型分类并进一步分析,表2.1中的信息框架来源于Sanghee Oh等[21]对社会化问答中健康问题内容分析的研究。本书结合国内社交问答社区的实际情况改进该框架,利用这个框架对关键特征词的关系进行定义和比较。此外,对百度知道中信息类型的子类型所包含的词汇和概念加以统计,归入表2.1中所示信息框架的类别中。

表2.1 社会问答中健康问题分析的信息框架

(3)结果分析

①用户对高血压热点主题的关注行为。从6 888个以高血压为主题词的提问中,通过ROST CM软件的分词功能和中文词频分析两个模块,过滤掉与高血压健康信息无关的词语,进行中文词频的分析,最终选取频率最高的154个关键词语作为样本的高频特征词。本书选取频率最高的20个特征词,这些关键词以及它们的词频和词频序号排列如表2.2所示,这些关键词反映了社交网络用户讨论高血压疾病时重点关注的内容。如在大部分情况下提问者并不能够指定他们所询问的是哪种类型的高血压疾病,只是笼统地以高血压来说明;有些用户描述他们的症状希望得到他们是否患有高血压的建议(如“血压”“症状”“头晕”);有些用户不是基于自身需要,而是为身边的人提问(如“老人”“母亲”);大部分用户最关心的是高血压的治疗问题,他们询问了高血压治疗的办法、途径等信息(如“治疗”“降压”“医生”“医院”“吃药”“服用”“饮食”);他们还想了解高血压的防治措施(如“注意”“预防”)。

表2.2 前20的高频特征词及词频表

(www.daowen.com)

根据特性将提取的所有关键词分成几个类别,统计用户关于高血压提问的类别和数量。如图2.2所示,高血压疾病是网络社区中人们讨论的最热门话题,其次是治疗方法、个人情绪、预防措施、与患者的关系。同时,许多用户还讨论关于他们已患有或疑似患有高血压的类型(例如原发性高血压、继发性高血压)。有些还提问了高血压的患病原因,如遗传因素、年龄增大因素、生活习惯因素等。当寻求疾病诊断或治疗方式时,人们会描述他们的症状(例如血压高于某个值、头晕、疼痛)。此外,有些用户询问了高血压患者是否可以食用某些食物或药物。

图2.3统计了用户提问中最常见的高血压类型。分类标准不一样,对高血压的说法也不一样,绝大部分用户对高血压的分类并没有明确的概念,只是统一以“高血压”来称呼。在对高血压类型有区分的用户中,更多用户倾向于以临床上的分类方法将高血压分为两个大类,即原发性高血压和继发性高血压。还有用户按病人的血压对高血压分类,即1级高血压(540个提问)、2级高血压(503个提问)、3级高血压(249个提问)。还有用户对高血压的分类更加细化,以继发性高血压具体的临床表征来分类,如老年高血压(590个提问)、肾性高血压(329个提问)、妊娠高血压(103个提问)。

图2.2 提问者提问分类

图2.3 高血压类型

人口统计信息。对样本关键词的分析发现,社会化问答社区中健康信息的提问者不局限于患者自己,还有很大一部分是患者的亲人或朋友,其中提问最多的是针对老人或母亲。选择所有样本中有关老人的449个问题和有关母亲的282个问题,通过社会网络和语义网络分析模块构建矩阵,如图2.4、图2.5所示。通过老人的社会网络结构矩阵发现,关注最密切的是老人年龄大这一特殊性,身体不大好,因此高血压的发病率较高,体现在“身体”“年纪”“血压”这些关键词上。还体现了老年人发病的持续性,发病地点在家中的特点,人们更多地需求老年人高血压的治疗办法、治疗医院的推荐。通过母亲的社会网络结构矩阵发现,用户提问是针对自己母亲,提问更多关注降压和治疗的办法。还有很多对疾病状况的描述,与提问者和患者关系的亲密度有关。

图2.4 以“老人”为关键词的社会语义网络矩阵

③日常生活信息。表2.3显示了高血压提问中与日常生活信息相关的用户讨论最多的前20个关键词,人们会在疑似疾病可能会影响他们的生活时,通过在社交问答社区中与那些有相似的经历的人讨论,寻求意见和建议。关键词“检查”“体检”“控制”“影响”,体现了用户非常重视日常生活中高血压的情况,会随时关注自己的身体状况。同时这些特征词中还有很多关于人口特征的描述,说明发出提问的用户不仅仅有高血压患者、患者家人,还包括关注高血压的用户,他们为了获取管血压的相关信息在社交问答社区中提出问题并获取答案。“平时”“每天”“早上”则体现出了高血压的发病时间和频率。

图2.5 以“母亲”为关键词的社会语义网络矩阵

表2.3 前20的日常生活信息的高频特征词

④社会情感分析。用户在社交问答平台中提问的另一个原因是想获得和分享情感支持,高血压提问中与个人情绪问题相关的用户讨论最多的前20个关键词如表2.4所示。排在前几位的特征词体现了用户对是否患有高血压、高血压的危害、高血压的治疗这些信息的不确定性,想在社交问答平台中寻求帮助,如“哪些”“怎么样”“怎样”“怎么回事”等表示疑问的词汇。还有一部分特征词表示用户或用户家属在确诊高血压后的心情,如“紧张”“难受”“担心”,用户希望在此平台获得情感支持。

表2.4 前20的情绪信息的高频特征词

(4)社交问答平台的健康信息服务

社交问答平台使得人们随时在线交流健康信息成为可能,正因为如此,参与到社交问答平台中的网络用户越来越多,社交问答平台为用户提供健康问题咨询渠道、分享平台的同时,也为患者和关注者提供了一个沟通信息、交流感情的平台。本书以国内最大的社交问答平台百度知道为研究对象,基于文本挖掘的方法研究了用户的健康信息行为特征。根据用户健康信息行为特征,提出改善在线健康信息服务的建议。

①热点健康主题的分类与组织。从平台系统角度出发,通过明确健康主题,有利于改善网站导航及组织健康信息资源,从而使得平台提供的服务更加人性化[22]。研究发现,用户对于疾病的治疗方案、发病原因、预防手段等信息更加关注,这与前人的研究结论一致,因此能够将“病因及病理知识”“疾病管理”“治疗”等抽取出来,即为社区中健康话题下的子话题。对于社交问答平台用户而言,对大话题下的主题的提取和冷热程度的划分有利于用户快速找到感兴趣的话题且参与讨论,因而标签用户的提问可以更好地展现用户需求。对于网络健康信息服务的研究人员来说,本书分析了高血压相关健康主题特征,对网络健康社区的发展和研究具有一定的借鉴作用。

②基于成员不同角色的差异化服务。社交问答平台是用户共享知识的平台,提问者多为无相关知识背景或经验的,回答者则大部分为该领域的专业人员,他们有不同的参与目的和需求,表现为不同的角色特征。对人口统计信息的关键词分类发现,用户不局限于对自己的病情信息在问答社区上提问,有很多是对提问者的父母、爷爷奶奶这类人群的疾病信息提问,但是这类人群极少接触互联网,因此由亲属来代为描述提问。有效识别主体的不同角色能够更有效地了解当前网络健康社区的发展状况,从而为具有个体差异的用户提供健康相关的个性化服务。

③平台用户的社会情感支持。对个人情感词统计中,排名较高的都是带有疑问的词汇,如“哪些”“怎么样”等,这与社会问答社区平台的属性有关,大部分用户是在此平台上寻求帮助。从主体所表达内容的情感方面分析,用户在表达相关病情症状、病因及并发症等主题的提问时更多地透露出负面情感,这表明患者在面对疾病诊断及并发症发现时常常难以接受,因而更倾向于在过程中表现自身沮丧、忧虑甚至恐惧等负面情绪。同时发现在高血压提问中,并发症和后遗症的比例也比较高,可能是由于患高血压这种慢性疾病的病人死亡率虽然远低于癌症等,但因为高血压产生并发症的概率远远高于其他疾病,且高血压为慢性疾病不容易根治,也导致负面情绪较多。因此对这类有负面情感用户提问的回答中,应带有更多积极和鼓励性的词汇,提供更多社会情感支持。

社交问答平台中用户最关注的是日常疾病管理、患病原因和治疗,本书的实证分析有利于直观、全面地了解高血压病人的健康信息需求,了解高血压病人及相关主体对某特定的健康信息需求进行表达时的语言习惯、语义关联等。还能改善和优化社交问答社区、健康门户网站中高血压信息资源导航,使其更加接近用户健康信息需要及使用习惯。基于提高主体高血压相关健康信息的网络检索能力,得出的相关结果要方便用户构建检索表达式。当然该研究还存在一定的局限性,目前只针对百度知道平台下高血压的健康信息行为研究,在未来的研究中,可以将文本挖掘的研究方法运用于其他社交媒体的健康信息研究,如微博、知乎等,同时可以将用户在这些不同类型的社交媒体上的健康信息行为进行对比分析。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈