理论教育 数据集市简介:建设有效的数据共享平台

数据集市简介:建设有效的数据共享平台

时间:2023-06-06 理论教育 版权反馈
【摘要】:为了解决这一矛盾,数据仓库中就增加了数据集市。大多数情况下,数据集市的数据来源于数据仓库,它是一种小型的部门级别的数据仓库。3)不同的部门建设各自的数据集市,这些集市之间没有数据的集成,相互独立,因此可能会出现数据不一致的现象。产品类数据集市的对象主要是企业内部人员。图7-24 产品类数据集市●文本分析对非结构化数据中的文本进行分析,以提高业务洞察力。研发类数据集市同样也支持各部门的临时业务需求。

数据集市简介:建设有效的数据共享平台

1.数据集市产生原因

1)数据仓库虽然能够满足所有最终用户的需求,但是各个部门业务不同,需求侧重点不同,且需求也是不断变化的,这就要求数据仓库存储的数据具有充分的灵活性,以适应各类用户的查询和分析。

2)最终用户对信息检索要求是高性能的,即越快越好。

对数据仓库而言,灵活性和性能是一对矛盾体。提高灵活性就要存储各种历史数据,但是一个特定查询就要关联很多表,性能就不能保证。为了解决这一矛盾,数据仓库中就增加了数据集市。数据集市存储为特定用户需求而预先计算好的数据,从而满足用户对性能的要求。

数据集市产生的另外一个原因是数据仓库开发周期较长,投入较大,规模较小的企业无法承担。数据集市能够快速解决某些问题,而且投资规模也比数据仓库小很多。

2.数据集市的定义

比尔·盖茨说过:“如何收集、管理和利用信息将决定您的胜负。”商业智能正是在这种需求下诞生的,而数据集市是满足部分特殊用户群体用来收集、管理他们本部门、本专业信息的数据仓库。

大多数情况下,数据集市的数据来源于数据仓库,它是一种小型的部门级别的数据仓库。数据集市的重点就是它满足了某些用户的特殊业务需求,根据所属部门的需求,对历史数据进行必要的汇总和计算。那么什么是数据集市呢?

数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。数据仓库体系结构中增加了数据集市,数据集市又可以看做部门级的小型数据仓库,如图7-23所示。

978-7-111-50289-0-Chapter07-23.jpg

图7-23 数据集市与各系统之间的关系

3.数据集市的优点和缺点

数据集市的优点:

投资规模小,投资回收期相对较短、灵活,风险性较小,同时可以按照多种方式进行织,如部门、应用等。

数据集市的缺点:

1)建立数据集市的部门是相互隔离的,很多标准、流程和知识经验不能共享,这会导致大量的资源浪费和重复劳动。

2)数据集市在某种程度上会造成成本的增加,例如很多部门会选择不同的工具、软件和硬件,同时需要一定数量的技术人员。

3)不同的部门建设各自的数据集市,这些集市之间没有数据的集成,相互独立,因此可能会出现数据不一致的现象。

4.数据集市分类

数据集市的分类包括:产品类数据集市、管理类数据集市和研发类数据集市。

(1)产品类数据集市

产品类数据集市的定位是通过数据挖掘、建模和其他方法,帮助企业发现重要的趋势和规律,以提高运营效率。产品类数据集市的对象主要是企业内部人员。

产品类数据集市主要包括:文本分析、模拟分析、数据挖掘、预测分析、优化分析和可视化分析,如图7-24所示。

978-7-111-50289-0-Chapter07-24.jpg

图7-24 产品类数据集市

●文本分析

对非结构化数据中的文本进行分析,以提高业务洞察力。

●模拟分析

用先进的技术手段模拟流程、行为和业务,可以帮助企业分析未来业务的发展方向。(www.daowen.com)

●数据挖掘

数据挖掘是由专业人士根据不同的业务场景选择不同的挖掘算法,通过数据挖掘探索数据背后隐藏的规则,从而进行业务预测和归类。

●预测分析

通过历史和当前交易数据去分析和预测未来的业务能力。

●优化分析

利用先进的数学技术,帮助企业提高运营效率,同时提供强大的知识库。

●可视化分析

通过图表、地图、日程表和图片等,利用专业的工具分析业务的趋势等。

(2)管理类集市

管理类集市是指为了运营管理的需要而进行的数据整合分析,从而更好地提高企业的运营水平。管理类集市主要面向企业的内部人员,一般来说,对于数据的实时性要求不高。

管理类集市应用包括管理驾驶舱、固定报表、OLAP分析、关键绩效指标(KPI)和数据质量检查等,如图7-25所示。

978-7-111-50289-0-Chapter07-25.jpg

图7-25 管理类集市应用

●管理驾驶舱

管理驾驶舱对企业领导层所关注的经营活动的关键指标做定制化展示,并以直观的图表形式展示结果。

●固定报表

以固化报表的形式将手工报表自动化。

●OLAP分析

通过灵活的多维分析,帮助企业决策者发现问题,追溯问题根源,预测发展趋势等。同时为制定问题解决方案,改善企业经营状况提供帮助。

●KPI

KPI(Key Performance Indicator)即关键绩效指标。

●数据质量检查

按照业务需求定义数据质量检查规则,按照规则定期得出数据质量分析报告,提供给业务部门敦促报送机构提供数据质量。

(3)研发类数据集市

研发类数据集市主要是支撑企业各部门的业务应用系统,提供业务需要的数据集合,主要用于支持数据研究分析工作。研发类数据集市同样也支持各部门的临时业务需求。研发类数据集市之间是相互独立的。

架构中,数据集市是基于数据仓库进行产品加工的,数据集市的建设方式可以分成两种模式:库内数据集市和库外数据集市。

所谓库内数据集市是部署在企业数据仓库之内的,在数据仓库汇总数据的基础上构建特定应用的数据集市。库内集市可以共享仓库内的汇总数据。

库外数据集市是在数据仓库之外单独部署,具有专门的软硬件设备,数据来源可以是数据仓库的基础层数据,或者是汇总层的数据。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈