1)信息处理的基本过程
信息加工处理是指对收集到的信息实施的判别、筛选、分类、排序、分析和再造等一系列加工处理环节所组成的完整过程,通过这一过程,将收集到的信息转换成为能够满足信息使用者所需要的信息,即信息加工的目的在于发掘信息的应用价值,方便用户的使用。信息加工处理是信息得以有效利用的基础,也是信息成为有用资源的重要条件。信息的加工处理过程如图8-1所示。
图8-1 信息处理过程
完整的信息加工处理过程由信息的选择、信息的预处理、信息的转换、信息的分析与处理、信息的评价与维护等阶段组成。
在进行信息处理之前,首先需要确定信息处理的目标,明确需要通过信息处理解决什么问题,也就是要进行信息处理的需求分析。信息处理的需求分析需要考虑的问题包括:
①明确领域问题。即针对需要解决的问题,分析存在什么样的领域问题,确定需要什么样的信息,信息的处理要求是什么、通过什么方式来处理信息,采用什么形式来表达信息处理的结果等。
②确定在信息处理过程中的人机分工。即明确在信息处理过程中哪些工作由计算机来处理,哪些工作留给人来做更合适。
③确定信息处理结果的评价标准。即通过设定的标准来帮助衡量和判断信息处理的结果是否可用、简单和精确。
通过这样的准备工作后,即可逐步开始信息处理阶段的各项任务。
2)信息处理各阶段的任务
(1)信息的选择
通过信息收集所获得的信息往往是庞杂的,并非所有信息都是对发现和分析特定问题有用的。因此,在信息加工和处理之前进行准确的信息选择,对于获得简洁的、有效的结果以及提高信息处理的效率都具有重要意义。信息选择的目的就是从采集到的、处于无序状态的信息流中甄别出对分析、解决所面临的问题的有用信息,剔除无关、无用的信息,它是整过信息加工处理过程的第一步。在进行信息选择时需要考虑以下问题:
①属性选择的客观性。属性是对象的性质与对象之间关系的统称。一个具体的事物,总是有许许多多的性质与关系。一个事物的性质与关系,叫作事物的属性。一个事物与另一个事物的相同或相异,也就是一个事物的属性与另一个事物的属性的相同或相异。
由于事物属性的相同或相异,客观世界中就形成了许多不同的事物类别。具有相同属性的事物就形成一类,具有不同属性的事物则分别形成不同的类。
而属性选择的客观性就是要确保所选择的描述问题的属性能够客观、真实地反映对象事物。
②数据的同构性。这是因为所采集的数据有可能来自不同的系统、不同的信息源,这些数据来源不同的数据往往存在异构性,需要统一这些结构各不相同的数据,以方便特定的加工手段对数据实施有效的处理。(www.daowen.com)
③数据的动态性。即需要充分考虑数据在处理的过程可能发生的各种变化。
④数据样本的大小。数据样本规模过大,会影响信息处理的效率;数据样本过小,又会影响数据处理结果的完整性、正确性和有效性。而规模的确定往往与选择的处理方式有直接关系。
此外,为了保障信息处理结果的完整性、准确性和有效性,信息选择还包括从领域专家处获得与处理问题相关的背景知识,并在进行信息处理之前仔细检查这些背景知识与目标数据集的相容性和相关性。领域知识在信息处理中的作用体现在以下几个方面:
①使得信息中蕴含的知识更为明显。例如,目标数据集中的数据可能过于细繁,利用领域知识可以对数据进行泛化,从而使得数据中蕴含的知识得以显现。
②约束信息处理的搜索空间。通过仔细定义数据间的相互依赖关系、语法约束(规范相关属性)、意向性属性,约束信息处理算法的搜索空间,从而有效地提高数据分析处理的效率。
(2)信息的预处理
通过信息收集所获得的信息中可能存在许多不确定内容,其主要表现为3种情况:字段值标记错误、有特殊语义的数据值以及数据空值。这些不确定内容的存在,将会对信息的加工、处理和利用带来困难,需要通过预处理来解决这些存在的问题。
此外,信息预处理还包括数据的完整性与一致性检查、连续属性数据的离散化处理以及数据属性泛化处理等。
(3)数据的简约与变换
数据简约是通过某种方法以降低信息处理算法的搜索空间。数据简约通常分为垂直简约和水平简约两种。所谓垂直简约是指通过降低或减少信息维度的方式或者变换方式来减少变量(或属性)的个数;而水平简约则是通过对对象的分析(包括离散化、泛化等)合并具有相同属性的对象,从而减少对象的个数,达到简化数据的目的。
不同的信息处理对输入的信息有不同的要求,数据变换就是对收集到的数据根据处理要求进行编码或格式转换,使之成为满足处理要求的数据格式。
(4)信息的分析处理
信息分析处理就是应用相关的分析方法,从数据中找寻出对发现问题、分析问题、理解问题,进而解决有用的内容。为了得到满意的分析处理结果,需要考虑以下问题:
①确定信息处理的类型。即确定是为用户产生信息(发现型),还是对用户提出的假设进行验证(验证型)。
②信息处理方法的选择。即根据信息处理任务选择恰当的处理方法。在实际情况中,对于某类任务往往有多种方法可供选择,而且这些选择对于处理结果影响甚大。但是,目前尚没有一套普适性的准则来指导处理方法的选择。
③信息的评估与维护。信息处理的目的是支持科学的决策和有效的控制,因此确定信息处理结果的可信度、精准度,对处理结果进行必要的筛选是信息处理的重要内容。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。