理论教育 ETL设计规范的7个要点

ETL设计规范的7个要点

时间:2023-06-06 理论教育 版权反馈
【摘要】:1)在ETL设计之前,需要根据业务的需求确定所要分析的主题和数据结构。根据数据仓库的模型,考虑在ETL设计中是否增加预留字段和属性。4)将增量抽取的方式作为ETL设计的重点,减少数据抽取的压力和抽取的时间。图7-47 ETL的设计原则6)对异常情况的处理。7)对ETL的运行管理和监控措施。

ETL设计规范的7个要点

ETL设计需要遵循业务数据处理的要求,根据问题的多样性和不确定性,在设计过程中需要依照以下原则(见图7-47)。

1)在ETL设计之前,需要根据业务的需求确定所要分析的主题和数据结构

根据数据仓库的模型,考虑在ETL设计中是否增加预留字段和属性。

2)确定数据的粒度。可以通过粗粒度减少数据的总量,也可以根据细粒度追溯到最底层的数据,探寻原因。粒度的大小是业务需求和分析的主题所确定的。

3)确定ETL抽取的周期和时间。根据用户的需求,在设计ETL之前就应该确定抽取的时间、抽取的周期。

4)将增量抽取的方式作为ETL设计的重点,减少数据抽取的压力和抽取的时间。

5)通常数据的抽取和清洗可以分成许多步骤,根据不同的条件采用不同的处理逻辑。(www.daowen.com)

978-7-111-50289-0-Chapter07-50.jpg

图7-47 ETL的设计原则

6)对异常情况的处理。网络的中断、数据流动过程中各种未知的错误,都需要通过相应的措施去解决,以保证数据的正确性。

7)对ETL的运行管理和监控措施。可以使用ETL工具中的管理监控组件对ETL进行设置,当ETL出现异常时可以进行人工干预,或者通过程序自动调度功能,对每一步的错误异常都调用相应的处理程序自动去解决,以保证数据的质量。

总结:按照以上设计原则,可以增加数据仓库系统的灵活性和扩展性,从而保证数据的正确性,降低维护成本。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈