国内外关于信息聚合的研究偏向的领域不太一致,国外研究的研究对象较为广泛,偏向对多来源信息的聚合,国内研究以学术信息资源为主要研究对象。
(1)信息聚合的定义
聚合一词,《现代汉语词典》对其的解释为“一是聚集到一起;二是指单体合成为分子量较大的化合物(聚合物)”。互联网环境下,聚合指“相关网站将互联网上的海量信息(如论坛、播客、博客、音乐、供求信息等)进行内容挑选、分析、归类,最后为网民提供优秀有用的更具针对性的信息”[129]。图书情报研究领域对“聚合”的理解是将分布在不同载体、不同类型的资源汇集到一起。与之相关的概念还有:融合(将分布的资源基于各种关联有机整合到一起,形成对有关领域更深层次的理解和认识)、整合(通过某种机制,链接不同来源、不同类型、不同载体的数字资源,使彼此间独立的信息实体之间产生关联,实现数字信息资源的全方位整合和一步到位的获取)[130]。
早期研究将信息聚合理解为整合来源不同的信息的过程,或者定义为将大量异质信息进行聚合而形成一种更加易于理解和便于管理的形式的过程。Bostrom等将前人关于信息聚合的定义进行整合而提出了一种单一、通用的定义:“信息聚合是指将来源不同、观点不同的信息自动或者半自动地、及时地转换成能为人机决策提供有效支持的表示的有效方法”[131]。在此定义中,“转换”能够实现任何一种数据整合和数据聚集,数据源有很多,例如数据库、传感器、模拟器或者人类自生成的内容,数据类型也有很多,例如数值型数据、文本型数据、图表型数据或者本体型数据。
(2)信息聚合的应用
大数据环境下,商业领域、政府管理领域、军事领域等的信息聚合常用于两种类型的数据处理:①硬数据,即由电子传感器所产生的数据的聚合。②软数据,即由人类自生成的数据。从根本上讲,两种数据的不同表现在精确度不同,倾向不同,观察层级不同以及每一种数据所提供的推论也不同[132]。例如,如果测算小鸟飞行的速率或者是心跳的速率,传感器优于人类;但是如果要辨识两个实体之间的关系、推断所观察到的现象背后的潜在原因,人类则更擅长。
与使用单一数据源的数据不同,从评论、博客和微博中抽取文本,并将其与所聚合的来源不同的信息进行联合,对人类获取更多信息来说更为有用。例如,更高的权威性中一定程度上减少了模糊性以及更高的可获取性[133]。早期关于信息聚合的研究大部分一直集中在军事领域,这一领域的数据中有很大一部分是由电子传感器产生的,然而近年来,人类生成的数据(也称为软数据)的聚合引起了广泛关注。(www.daowen.com)
Khalegi等人记录了信息聚合应用到军事领域的文本中所体现出的优势并将其推广到其他领域[134]。信息聚合的主要优点是能够增加数据的权威性和可获取性。增加数据的权威性意味着提高了数据被发现率,增强了数据自信和数据的可信赖度并且减少数据的模糊性;增加数据的可获取性意味着更加广阔的空间和时间覆盖范围。
军事领域关于信息聚合的大部分研究一直专注于硬数据而较少关注软数据。然而,人类在软数据的生成这一领域所产生的作用越来越大。随着Web的快速发展,人类正在扮演软传感器的角色,为传统的聚合系统提供输入,并且通过大量的数字化媒介(诸如社交媒体或者评论网站)将硬数据和软数据进行整合,进行离散分析和决策支持过程。例如,用户会在他们享受饭店、酒吧和健康服务等不同种类的服务时描述他们的经历而形成评论。在这种情况下,每一个人都体现出软传感器的作用,他们会记录下对某种服务或某种产品的某一方面的印象,做出可能是关于服务质量、食物味道、产品质量、使用体验或者总体氛围方面的评价。通过聚合或者整合这些用户所发表的观点,商家就能够获得该服务或产品的精确描述。因此,基于方面(aspect)的细粒度信息聚合可以被看作是一种灵活的、高层级的信息聚合方式。
(3)信息聚合的模式与方法
Khalegi等人介绍了Kokar等人的研究成果,并将其作为信息聚合理论形式化的第一步,其所提出的框架囊括了包括数据聚合、特征聚合、决策聚合和相关信息聚合在内的每一种聚合类型[135]。同时,他们也认为这项研究成果最独特之处在于这个框架能够表示数据聚合和运算法则聚合而且这一框架也考虑到了一致的、可测量的和可确证的性能。Wu和Crestani在信息检索的背景下提出了一个关于信息聚合的几何框架。在一个多维空间中,数据聚合能够用几何规则来表示,并且能够用欧几里得距离测试有效性和相似性,而这一框架的目标就是在多维空间中表示信息的每一个部分[136]。
早期的互联网信息整合以RSS技术为代表,通过直接拼贴实现信息整合[137]。维基、百度百科等以概念为对象的聚合与搜索平台实现了更细粒度的信息聚合。近年来国内学术界较为关注的是馆藏资源聚合,邱均平和王菲菲从贡献与耦合的理论原理出发,从文献特征关联、利用过程关联、知识关联、用户需求关联四维角度探讨了典型的八种馆藏文献资源聚合模式,以及构建基于共现与耦合的馆藏数字文献资源聚合四层模型,串联资源与用户之间的整个路径[138]。曾建勋等将信息聚合应用具化为面向资源主题的聚合服务、面向学术社群的聚合服务和面向科研实体的聚合服务[139]。杜晖基于学术资源间的各种关联,构建基于耦合关系的学术信息资源聚合应用系统,实现不同层次的聚合结果及其可视化展示,满足学术信息用户对于特定学科领域的知识网络从“概览”到“细节”的多层次、可视化的知识需求[140]。李劲等基于语义关系,以语义网络节点提供馆藏资源的知识服务体系,连接资源,使用Super-peer技术,从聚合结构层、网格结构层和客户端三个层次设计了馆藏资源深度聚合模型[141]。王雨通过比较分析数字图书馆资源聚合的维度、路径、模式和应用范围,从资源特征间关联和资源利用过程关联的视角出发,根据作者互引关系、作者合作关系、作者-关键词关系等关系图谱论证数字图书馆资源聚合的途径[142]。
曹树金在现有信息聚合相关概念进行阐释的基础上,认为信息聚合正成为信息组织与检索领域的研究热点,提出了以情景、关系和对象作为信息聚合概念点的主要构成,依据聚合的情景、关系和信息粒度大小,概括出情景聚合、语义聚合、引用聚合、社会网络聚合和粒度聚合等五种主要聚合模式,及其十二种具体表现形式[143]。邓胜利认为,社会化信息聚合服务研究的重点应转向基于用户关系的社会化信息聚合服务[144],社会化推荐聚合服务可以有效提高信息推荐的准确度,将成为互联网环境下挖掘有价值信息的有效方式[145]。马翠嫦在回顾多类型网络信息资源聚合、细粒度检索与聚合和用户聚合需求与行为研究的基础上,提出按照学科领域用户认知规律划分聚合单元,通过揭示和利用用户与多类型网络学术文档内聚合单元的关联关系从而实现细粒度聚合的聚合模式,以优化用户网络学术资源获取的效率与效用[146]。司徒俊峰运用语义理论和方法,对特定学科领域的网络资源进行语义化聚合,根据用户的聚合需求,提出学科领域网络资源语义聚合的双控模式,通过构建学科领域本体、识别用户语义需求并将其与资源进行语义匹配,分散的学科领域网络资源聚合成有机联系的知识化聚合体,以聚合网络模式实现资源聚合的可视化呈现,提高网络学术资源的利用效率和效果[147]。马翠嫦等人从跨体裁聚合单元知识体系所蕴含的各类关联关系出发,从信息组织的角度阐述支持情境和语义关联的细粒度聚合理论框架、知识组织系统构建和聚合单元元数据标注等问题,提出聚合机制,并认为构建蕴含聚合单元语义关系、学科领域语义关系、任务和文本关系的本体,采用可反映聚合单元层级与关联关系的聚合单元元数据,是细粒度聚合机制发挥效用的关键[148]。范涛等融合网民所发文本及其附带图片特征来识别网民情感,利用词向量模型对文本进行表示,将提取的文本和图片情感特征进行特征层融合后输入SVM中,实现多模态融合网民情感识别[149]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。