计算机辅助信息分析是一种人机协同处理过程。人与计算机在信息分析中具有可互补性优势。人类在分析开创性、主观性、非结构化、非程序化问题,适应环境、逻辑推理方面的能力高于计算机。计算机在分析重复性、客观性、结构化、程序化问题,在数据运算、信号处理、数据记忆方面的能力高于人类。因此,信息分析中需要充分发挥二者的互补性优势,使人和计算机各自执行自己擅长的工作,取长补短、共同感知、共同学习、共同决策、相互制约和相互监督,共同组成一种“超智能系统”,达到人或计算机都无法独立完成的信息分析效果。
计算机辅助信息分析的典型方法有3种:数据挖掘、联机分析处理和社会网络分析。数据库(Database)和数据仓库(Data Warehouse)是上述三类计算机辅助信息分析中常用的数据管理工具。数据仓库是用于支持组织机构的经营决策分析处理的,面向主题的、集成的、稳定的、随时间不断变化的数据集合。数据仓库的数据处理过程如图6.1所示。数据仓库以抽取、清理和转换的方式从不同数据源(包括数据库)中的数据集成存储,并为联机分析处理(On-line Analytical Processing,OLAP)提供服务。
图6.1 数据仓库系统的数据来源及应用模式
从上述定义和流程可以看出,相对于数据库,数据仓库技术的特殊性体现在:(www.daowen.com)
(1)主题性。数据仓库中采用的是面向主题的数据组织方式,而并不采用数据库中的面向事务的数据组织方式。因此,数据仓库常用于联机在线分析,而不是联机在线事务。
(2)集成性。数据仓库中的数据是根据主题,从不同数据源中抽取、筛选、清理、转换和汇总后集中存放在一起的,数据仓库的数据往往来自多个数据库。数据集成是建设数据仓库的难点。
(3)相对稳定性。数据仓库主要用于查询操作,很少进行修改和删除操作。然而,数据库中则频繁进行查询、修改和删除操作。另外,数据仓库的修改操作并不是直接修改数据内容本身,而是以追加形式进行。因此,数据仓库中存放的往往是数据的历史值(并不实时更新),而数据库中存放的是数据的当前值。
(4)反映历史变化。数据仓库的内容需要定期进行更新和管理。从长远看,数据仓库中的内容可以更好地反映数据内容的历史变化过程。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。