数据挖掘可针对任何类型的数据,只要数据对任务目标有意义即可。对于数据挖掘的日常应用,数据挖掘的对象主要包括数据库中的数据、数据仓库中的数据、事务数据和其他类型的数据。
1.数据库中的数据
数据库系统,也叫数据库管理系统(Database Management System),它由一组内部相关的数据和一组管理和存取数据的软件程序组成。软件程序提供:定义数据库结构和数据存储、说明、管理并发、共享或分布式访问,面对系统瘫痪或未授权的访问,确保存储的信息的一致性和安全性[6]。
关系数据库是建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据,同时也是一个被组织成一组拥有描述性的表格,该形式的表格的作用的实质是装载着数据项的特殊收集体,这些表格中的数据能以许多不同的方式被存取或被重新召集而不需要重新组织数据库表格。关系数据库的定义造成元数据的一张表格或造成表格、列、范围和约束的正式描述。每个表格(有时被称为一个关系)包含用列表示的一个或更多的数据种类。每行包含一个唯一的数据实体,这些数据是被列定义的种类。当创造一个关系数据库的时候,你能定义数据列的可能值的范围和可能应用于那个数据值的进一步约束。而SQL语言是标准用户和应用程序到关系数据库的接口。其优势是容易扩充,且在最初的数据库创造之后,一个新的数据种类能被添加而不需要修改所有的现有应用软件。主流的关系数据库有Oracle、Db2、SqlServer、Sybase、MySQL等。目前,我国司法行政系统业务管理系统后台数据大部分都为关系数据库。关系数据库内容如下:
(1)表。关系数据库中的表采用二维表格来存储数据,是一种按行与列排列的具有相关信息的逻辑组,它类似于Excel工作表。一个数据库可以包含任意多个数据表。在用户看来,一个关系模型的逻辑结构是一张二维表,由行和列组成。这个二维表就叫关系,通俗地说,一个关系对应一张表。
(2)元组(记录)。表中的一行即为一个元组,或称为一条记录。
(3)属性。属性也叫字段。数据表中的每一列称为一个字段,表是由其包含的各种字段定义的,每个字段描述了它所含有的数据的意义,数据表的设计实际上就是对字段的设计。创建数据表时,需要为每个字段分配一个数据类型,定义它们的数据长度和其他属性。字段可以包含各种字符、数字、甚至图形。
(4)属性值。行和列的交叉位置表示某个属性值,如“张三”就是服刑人员姓名的属性值。
(5)主码。主码也称主键或主关键字,是表中用于唯一确定一个元组的数据。关键字用来确保表中记录的唯一性,可以是一个字段或多个字段,常用作一个表的索引字段。每条记录的关键字都是不同的,因而可以唯一地标识一个记录。关键字也被称为主关键字,或简称主键。如服刑人员编号就可以作为特定表的主键。
(6)域。域也叫属性的取值范围,例如服刑人员的年龄域为0-150。
关系数据库是数据挖掘中最常见、最丰富的挖掘对象,因此也是全国司法行政系统进行数据挖掘的主要数据形式,我们监狱、强制隔离戒毒所等司法行政系统原来开发的业务管理系统后台数据库主要以Oracle、SQLserver、MySQL为主。早期,监狱或强制隔离戒毒所的业务信息管理系统只对涉及服刑人员或戒毒人员的一小部分数据进行管理,随着监狱或强制隔离戒毒所开发更多的业务信息管理系统、对业务数据的管理越来越深入以及提出对业务管理系统功能上的更高要求,监狱或强制隔离戒毒所不再仅仅是对服刑人员或戒毒人员的数据进行存储和简单查询,更希望能够利用历史数据进行非常精细化和具体的人员的集群分析、特定人员在某种场景中的数据分析,进而为监狱或强制隔离戒毒所对服刑人员或戒毒人员的监管、教育改造提供智能化决策支持。这个时候,原有的业务管理系统后台数据库的分散存储已经不能满足业务的需要,因此必须实现数据的集中存储,那么数据仓库是实现数据集中存储的方案之一。
2.数据仓库中的数据(www.daowen.com)
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为整个业务单位所有级别的决策制定过程,提供所有类型数据支持的战略集合。数据仓库是面向主题的(服刑人员危险性预测),为需要业务智能的单位,提供对业务流程改进、监视时间、成本、质量以及控制的指导。数据仓库中的数据是在对原有分散的数据库中进行数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个业务单位的一致的全局信息。数据仓库的数据主要从历史的角度提供汇总数据进行预测,可为业务单位决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留。也就是说数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。数据仓库中的数据通常包含历史信息,系统记录了业务单位从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对业务单位的发展历程和未来趋势做出定量分析和预测。数据仓库的特点是:①数据仓库是面向主题的;②数据仓库是集成的;③数据仓库具有时间相关性;④数据仓库的数据是相对稳定的。
由此,我们可以得出:数据库装的原始数据,没经过任何加工,而数据仓库是为了满足分析需要,对源数据进行了Transform过程。数据仓库比较流行的有:AWS Redshift,Greenplum,Hive等。在数据仓库中可以包括若干个数据集市(Data Mart),所谓数据集市是指以某个应用为出发点而减少的局部DW,既可以基于数据仓库建设也可以独立建设。数据仓库和数据集市的区别见表2-1所示。
表2-1 数据仓库和数据集市的区别
续表
一个监狱或强制隔离戒毒所可以将所有的业务管理系统后台数据库中的数据进行汇总后存放到数据仓库里,一个省的监狱管理局或戒毒局也可以将该省的所有业务管理系统后台数据库中的服刑人员数据或戒毒人员数据进行汇总后存放到数据仓库里,可以基于不同的主题(服刑人员犯罪地域趋势、服刑人员犯罪类型变化等)建立数据集市[7]。监狱常见的可以建立的数据仓库主要包括:罪犯信息库、警察职工信息库、监管改造信息库和物联信息库。
3.事务数据
一般来说,事务数据库中的每个记录代表一个事务,例如顾客的一次网上购物、一次火车票或航班订票、一次用户在Web上的网页点击。通常,一个事务包含一个唯一的事务标识符(服刑人员ID)以及一个组成事务的项的列表。事务数据库可能有一些与之相关联的附加表,包含关于事务的其他信息,如服刑人员购买的商品信息描述、服刑人员所在的监区信息等。在监狱或强制隔离戒毒所,服刑人员或戒毒人员的每一次商品购买都属于事务数据,在教育内网进行学习的每一次网页点击也属于事务数据。
4.其他类型的数据
传统关系数据库或数据仓库中数据一般都是结构化数据,监狱或强制隔离戒毒所数据挖掘中的其他数据还包括半结构化和非结构化的数据,例如监狱或强制隔离戒毒所干警和服刑人员或戒毒人员的语音谈话记录、监狱或强制隔离戒毒所会议记录、视频监控数据等,这些数据是监狱或强制隔离戒毒所未来进行数据挖掘的主要源泉,未来可以建设基于大数据的全业务统一数据中心架构进行再犯罪数据挖掘与分析,可以包括数据源层、数据接入层、数据存储层、数据计算层、统一分析服务层、业务应用层等[8]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。