商业智能实质上是数据转化成信息和知识的过程。构建一个完整的商业智能系统需要以下几种核心的技术:数据仓库、数据挖掘和分析、ETL处理技术、联机分析处理(OLAP)技术、可视化分析、大数据技术、商业智能元数据管理,如图7-9所示。
图7-9 商业智能的核心技术
1.数据仓库
数据仓库之父——比尔·恩门在《如何构建数据仓库》一书中将数据仓库定义为:“数据仓库是在企业管理和决策中面向主题的、集成的、时变的、非易失的(不可修改的)数据集合”。实质上,数据仓库是对数据处理技术的集成,它是为了进一步挖掘数据资源,为了决策分析而产生的。数据仓库的目的是为了前端报表查询和决策分析。
数据仓库与传统数据库的区别是:传统数据库主要用于企业日常的事务处理,而数据仓库主要用于商业分析,在不影响日常业务处理的前提下,辅助企业高层进行商业决策。
最终用户对数据仓库的访问方式包括:即席查询、报表、联机分析处理(OLAP)、数据挖掘,如图7-10所示。
图7-10 数据仓库的访问方式
2.数据挖掘和分析
数据挖掘(DataMining)起源于1989年8月,出自在美国底特律举办的第11届国际联合人工智能学术会议中Piatetsky-Shapiro提出的KDD(Knowledge Discovery and DataMining)。数据挖掘是指从海量的数据中抽取出有意义的、重要的和潜在有用的信息和知识的过程。从技术上来说,数据挖掘是一门交叉学科,融合了统计学、人工智能、模式识别、机器学习等内容。
数据挖掘的工作过程可以包括数据的抽取、存储管理、挖掘和展现等几个部分,如图7-11所示。
图7-11 数据挖掘的工作过程
●数据的抽取
所谓抽取就是将数据从外部数据源或者其他联机事物处理系统中导入到数据仓库或者其他数据库中。
●存储管理
存储管理主要针对如何管理海量的数据、优化查询效率和处理各种并发数据等。
●挖掘
挖掘就是利用各种的挖掘算法得到相应知识的过程。
●展现
最后的数据展现就是实现各种的预定义查询、动态报表查询等内容,展示的方式包括各种的直方图、动态模拟和饼图等。简单地说,数据挖掘就是将对数据的简单查询提升到挖掘信息和知识的过程。
数据挖掘和分析主要用于从大量的数据中发现背后隐藏的规律和数据间的关系。采用数据挖掘技术,可以为用户提供自动化和智能的辅助决策分析。特别是在金融行业、零售业和医疗卫生领域,都有大量的应用。
在数据挖掘技术中,常用的模型有:分类模型、关联模型、顺序模型和聚簇模型,如图7-12所示。
(1)分类模型
根据商业数据的属性将数据分配到不同的组中。
(2)关联模型
主要描述一组数据项目的密切度和关系。
(3)顺序模型
主要用于汇总数据中的常见顺序或事件。顺序模型可以看成是一种特殊的关联模型,它在关联模型中增加了时间属性。
图7-12 数据挖掘技术中常用的模型
(4)聚簇模型
按照某种相近程度将数据分成一些组。组中的数据相近,组之间的数据相差较大。
数据挖掘是一个闭环的、反复循环的过程,需要业务分析人员、IT工程师共同完成。一般来说,它有以下几个步骤:
1)对业务范围的定义,在这个阶段需要明确对数据挖掘的目标和定位,制定数据挖掘的计划。
2)选择合适的数据,定义相关的训练数据集和验证数据集等内容。
3)对数据进行探索分析,使数据集尽可能满足建模算法的要求。
4)分析并且确定数据挖掘模型。建模人员需要不断地测试模型性能,从而选择最佳的数据模型。
5)模型实施和评价。通过模型实施的结果帮助相关人员做出战略决策。同时收集结果反馈,判断是否需要改进模型。
我们可以引用商业智能的概念。决策人员以企业级数据仓库为基础,利用联机分析处理工具、数据挖掘工具,加上决策人员的专业知识,从数据中获得有用的信息和知识,帮助企业获取利润,而数据挖掘就是建立在数据仓库基础上的增值技术。
数据仓库和数据挖掘之间的关系如图7-13所示。
数据仓库是为了支持企业决策分析的数据集合。它是面向主题的、集成的、稳定的,并且随时间发生变化。它的关键技术包括数据的抽取、清洗、转换、加载和维护技术。
数据挖掘是从海量的数据中,抽取出有意义的、潜在有用的信息和知识的过程。数据挖掘的数据来源可以是数据仓库或者其他数据库。对于挖掘的数据需要进行选择,挖掘的结果需要进行评估,按照评估结果的不同,一般需要重新分析和计算。
数据挖掘可以对数据仓库中的历史数据进行提炼和挖掘,使得这些数据成为信息和知识。可以借助对历史数据的分析,发现数据内部有价值的规律。
图7-13 数据仓库和数据挖掘之间的关系
数据仓库是数据挖掘的基础。因为数据仓库的数据是完整的、集成的,所以它为数据挖掘提供了扎实的数据基础。数据仓库可以为数据挖掘提供需要的历史数据和全面的数据处理、分析等基础设施。
3.ETL处理技术
ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库系统的关键环节。因为数据仓库主要存储面向主题的、集成的、稳定的并且随时间不断变化的数据集合,所以数据在进入到仓库之前,需要经过清洗、转化的过程,保证数据仓库的数据是准确的。ETL的作用就是解决数据集成化的问题。
ETL过程中包含一些灵活的计算、汇总、字段拆分、字段合并、数据比较、过滤、混合运算等内容,还包括对自定义函数的支持、复杂条件的过滤、数据的批量加载、时间类型的转换、多种数据类型支持、去重复记录等功能。
在数据仓库系统中,ETL占有重要的地位。ETL作为一种数据整合解决方案,已经上升到了一种理论的高度。ETL在数据仓库中具有以下两个特点。
1)数据流动具有周期性。一般来说,商业智能ETL按照某种业务抽取规则周期性运行,每次运行都会加载新的数据到目标库中。(www.daowen.com)
2)因为数据仓库中的数据量巨大,所以一般采用成熟的ETL工具去完成抽取、转换、加载工作,以降低设计开发和维护的复杂度,使设计开发人员有更多的时间专注于业务转化规则。
ETL是数据仓库项目中最艰难且耗时最长的工作之一。ETL系统的设计和开发工作对商业智能项目的成败产生至关重要的影响。如果把数据仓库项目看成一座大厦的话,那么数据模型就像图样,而ETL就是建造这座大厦的过程。而作为从事商业智能的专业人士,需要真正理解ETL理论方面的知识,而不仅仅停留在ETL工具的使用上,因为只有这样,才能更好地发挥它的作用。
4.联机分析处理技术
联机分析处理(OLAP)技术主要通过多维的方式对数据进行分析、查询和报表处理。这种决策分析是基于多维的和历史数据的。
联机分析处理是数据仓库应用的前端工具,同时可以与数据挖掘工具配合使用,以增强决策分析的功能。
OLAP的基本目标就是支持决策分析和多维数据查询。OLAP通过对信息的各种形式的存取,满足企业决策人员和管理人员对复杂查询的处理,并且将结果提供给决策分析人员,使他们对企业的运营状况有更深入的了解,能够制定出正确的决策方针。形象地说,OLAP是引领企业发展的“灯塔”。
OLAP系统的特点包含以下几个方面,如图7-14所示。
1)丰富的报表展示功能:OLAP系统一般有丰富的报表展示功能,如柱形图、折线图、饼形图。
2)数据访问和多维分析的能力:提供给用户数据访问和多维分析的能力,并以用户希望的方式进行展示。
3)快速的数据分析能力:OLAP系统有秒级的数据分析能力。
5.可视化分析
“一图胜千言”,虽然图形可以传达大量信息,但是图形一定要干净、清晰,同时传达出重要的信息。很多企业领导或者分析人员看到复杂的图形时,可能会非常苦恼。
数据可视化分析是指数据用各种图像处理技术,将数据转化成各种图表的方法和手段。例如,数据可以用饼图、散点图、直方图和柱状图等方式进行展示。它们是数据可视化的基础。但是面对复杂的数据集,比如财务报表、用户行为数据,可以用立体、多维或者动态实时的方式进行展示。数据可视化本身可以看做是一门艺术。
数据可视化分析的特点如图7-15所示。
图7-14 OLAP系统的特点
图7-15 数据可视化分析的特点
数据可视化分析的功能如下:
1)通过可视化技术,辅助进行数据关联分析。
2)通过可视化技术,识别和预测活动,帮助高层人员做出及时和准确的决策。
●数据可视化的过程
复杂的数据可视化包括数据的采集、数据分析和挖掘等一系列的过程,然后由技术人员以立体、多维或者实时动态的方式将数据展示出来。
●数据可视化的目的
数据的可视化是为了观察和跟踪各种数据,生成实时的、可读性强的图表;分析数据,生成交互式的图表;发现数据之间的潜在关系,生成多维图表,以及多角度的分析数据,帮助用户深刻地理解数据含义和变化。
数据可视化可以有多种表现形式,如图7-16~图7-18所示。
图7-16 数据可视化的表现形式之一
图7-17 数据可视化的表现形式之二
6.商业智能元数据管理
在商业智能领域中,元数据定义为:在数据仓库系统的建立、维护、管理和使用过程中,用以描述实际数据的信息,是关于数据的数据。在商业智能系统的建设过程中,元数据占有非常重要的地位,它不仅定义了数据仓库的许多对象,例如表结构、所有的字段列等属性,还包括对数据仓库内部数据流动和业务规则的描述。元数据的框架图如图7-19所示。
元数据管理是整个商业智能系统中最重要的环节之一。元数据管理贯穿于商业智能系统数据“流动”的全过程,主要包括数据源元数据、采集元数据、数据仓库元数据、数据集市元数据、应用服务层元数据等。
图7-18 数据可视化的表现形式之三
元数据的分类主要包括业务元数据、技术元数据和管理元数据,如图7-20所示。
图7-19 元数据的框架图
图7-20 元数据的分类
●业务元数据
业务元数据可以分成业务规则、业务指标、业务描述和业务术语等4个部分。这4个部分共同完成对业务信息的表述。
●技术元数据
技术元数据包含关于商业智能系统技术层面的信息,描述了数据源接口、ETL映射关系、数据仓库和数据集市等系统的特征。
●管理元数据
管理元数据主要是指商业智能系统日常建设过程中涉及开发、运维管理各方面的基本信息,在此基础上对系统需求开发和日常运维管理提供支持。
元数据在商业智能项目中占有非常重要的地位,是数据仓库系统的灵魂和核心。数据仓库系统在建设的过程中产生的数据源定义、转换规则的定义、目标库的定义都存储在元数据库中。元数据还支持以下几种功能:
1)描述数据仓库系统存在哪些数据。
2)描述哪些数据是在数据仓库系统中产生的。
3)描述哪些数据将要抽取到数据仓库系统中。
4)评估数据质量的好坏。
5)记录数据抽取工作的执行情况。元数据为企业建设数据仓库系统提供了详细的记录,并且保证了数据的一致性和准确性。因此,元数据对于数据仓库系统的开发和管理是非常重要的,具有决定性的意义。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。