理论教育 大数据处理的基石——数据仓库与数据挖掘

大数据处理的基石——数据仓库与数据挖掘

时间:2023-05-06 理论教育 版权反馈
【摘要】:2国内高校“数据仓库与数据挖掘”课程开设内容现状分析目前,多数高校的信息管理专业在研究生阶段开设“数据仓库与数据挖掘”课程。科研和教学相辅相成,现在已形成了一套完整的数据仓库与数据挖掘案例库,案例覆盖了课程涉及的绝大多数知识

大数据处理的基石——数据仓库与数据挖掘

数据处理的基石——数据仓库与数据挖掘

赵星秋

(对外经济贸易大学信息学院,北京100029)

1 课程设置背景分析

近年来,在云计算技术不断成熟,人们对大数据价值认识进一步深入的推动下,决策(包括企业、政府)逐渐向自动化、信息化和科学化的方向发展,无论企业战略规划,还是企业市场研判都从粗线条的定性分析、主观判断向以数量化为客观依据的科学化决策转变。这反过来又大大促进了人们对大数据分析的渴望,大数据分析的主要手段“数据挖掘技术”和OLAP,大数据的组织管理技术“数据仓库”在各企业和政府决策支持部门受到特别重视,迫切要求当代大学生掌握相关知识,工作后能胜任这方面的需求,正是基于这一背景,很多院校开设了“数据仓库与数据挖掘”课程,我院在教务处支持下,也立项对此课程进行建设。

2 国内高校“数据仓库与数据挖掘”课程开设内容现状分析

目前,多数高校的信息管理专业在研究生阶段开设“数据仓库与数据挖掘”课程。信息管理与信息系统教学指导委员会在信息管理专业2011课程体系指导书中也把“数据仓库与数据挖掘”列为本专业基本方法4大模块之一(商务智能方法与应用),因此,国内211、985大学近年也逐渐在本科阶段开设了该课程,浙江大学录制了视频公开课;中国人民大学还专门邀请国外著名数据仓库与数据挖掘专家韩家伟教授作了系列讲座。然而,对这样一门涉及内容十分广泛的新课程,目前还存在诸多问题,如本科生与研究生教学内容不好区分,教学深度难以把握,教学方法和手段单调陈旧,教学案例十分匮乏,特别是适合财经类院校的经济案例几乎没有,即使找到一些案例也很难找到支撑数据,迫切需要相关高校设计开发符合专业特点并有数据支撑的教学案例。

3 “数据仓库与数据挖掘”内容选取与教学方法

3.1 教学内容的选取

本课程的目的是使学生通过学习掌握根据企业的不同需求来设计、开发数据仓库的知识,具备把企业已有的数据资源整合到数据仓库中来,并利用现有数据仓库管理系统,如Microsoft SQL Server的商务智能模块Business Intelligence Development Studio来对数据进行OLAP以及利用数据挖掘工具,输出用户需要的报表的能力。内容分为两大部分,数据仓库和数据挖掘。

数据仓库的设计涉及主题域的确定,要求学生掌握如何从企业决策需求来抽象出主题域,明确已有数据对于分析、决策有价值的主题领域有哪些,每个主题域的商业维度是什么,每个维度的粒度层次等。数据仓库的核心资源是数据,要求学生具有整合不同来源数据,辨识它们中哪些源数据与所选主题有关,数据格式、质量是否满足要求的能力,在掌握了这些信息后,就可以按照数据仓库的结构模式来确定事实表和维度表,建立多维数据集,对数据源数据进行预处理,使其格式满足数据仓库的要求,然后导入到数据仓库。

在分析方面,掌握常用数据挖掘算法及其适用环境。重点讲述利用Microsoft SQL Server的商务智能模块Business Intelligence Development Studio可以处理的数据挖掘算法,如基于信息论的分类算法ID3和C4.5,基于粗糙集的aproiri算法,关联规则,神经网络算法等。(www.daowen.com)

3.2 教学内容的组织

作为应用性很强的实验课程,本课程的两个部分由4个模块(实验指导书、教学案例、实验数据资料、课程作业)构成。

第一部分数据仓库,介绍数据仓库的基本概念、原理和主题域以及这些知识在基于Microsoft SQL Server 2005数据库管理系统的Business Intelligence Development Studio上的表现形式。这部分的重点是数据仓库的设计和建设,由4个案例组成。其中2个案例附有实验指导,编写的数据仓库实验指导书供学生学习参考。另外有学生实践案例2个,这4个案例有3个提供了相应的分析数据,可以选择两个分别作案例分析和课程作业。

在案例设计上充分考虑了学校背景和学生兴趣,在数据仓库的4个案例中,一个是SQL Server2005提供的从商业销售数据库foodmart建立多维数据仓库;另一个是由本课程建设团队开发的基于宏观经济数据建立数据仓库案例;一个是电信运营商业务数据分析数据仓库设计;另一个是本课程建设团队整理的产业情况分析数据仓库。这四个案例基本覆盖了经管行业的主要业务,我们希望以后再增加一个关于银行方面的案例。

第二部分是数据挖掘,包括6个案例,这些案例都有数据支撑。其中1个决策树的案例附有实验指导书,另外5个分别是本团队整理的优势产业分析案例,搜集的基于Apriori算法的个人信用关联规则挖掘,基于神经网络的水质分类预测,基于决策表的城市综合环境质量评价,国债日收益率分析的聚类案例,选择其中1~2个作为课程作业。

3.3 课堂教学形式

本课程讲授采用案例教学模式,所有概念在案例分析中产生并得以解答。教学分为三种形式,一是教师进行讲授,二是学生上机操作练习,三是小组讨论、作业展示和教师、学生共同点评。

4 总结

课程建设过程中,收集整理了多个数据仓库与数据挖掘案例,在整理这些案例中我们发现,很多案例数据十分规范,缺乏来源出处,虽然结果分析正确,但过程有些简单,有明显的人为处理痕迹,数据与实际情况差别较大。为此,我们结合自己的研究成果开发了2个案例,一个是宏观经济分析系统,数据全部来源于国家统计局发布的经济数据,通过这些数据来建立分析经济形势的数据仓库。另一个来源于学院所承担的国家项目数据分析系统,数据来源于各省市上报的材料。这2个案例来源于实际数据,要解决现实问题,具有较高的实用价值。通过课题研究,丰富了数据仓库与数据挖掘的应用领域和实际案例,从中发现数据挖掘应用的一些环境要求和局限性。也使我们认识到科研对教学的促进作用不可低估,否则就会变成教书匠,整天当别人的传话筒,没有创新

反过来,通过课程建设对科研成果的总结整理,对科研课题的价值认识有了新的突破,打消了原来单纯为了经济利益的思想。科研和教学相辅相成,现在已形成了一套完整的数据仓库与数据挖掘案例库,案例覆盖了课程涉及的绝大多数知识点。这些案例具有完整的、跨学科的实践性,为编写具有跨学科,特别是针对经济管理类专业相关教材提供了充足的素材,为把本课程打造成精品课程奠定了基础。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈