理论教育 全面智能的开端:非结构化信息应用的时代

全面智能的开端:非结构化信息应用的时代

时间:2023-06-09 理论教育 版权反馈
【摘要】:如今,非结构化信息应用的时代刚刚起步。非结构化信息大量增加,源于信息技术设备的多样性与广泛普及。非结构化的信息在对人类有意义的信息中占最大的比重,远远超过结构化数据。而从信息角度来看,信息技术发展到这个阶段后,大量的电子数字化信息,特别是非结构化信息也并不是仅仅为了某个具体特定应用而存在的。

全面智能的开端:非结构化信息应用的时代

进入20世纪90年代之后,在“摩尔定律”的“推动”下,信息技术产业逐步进入一个质变的阶段。这个时期出现了两个相对独立又最终融合在一起的技术进步,推动信息技术应用进入第三个全新的阶段——全面智能化阶段。

第一个技术进步就是随着计算机性价比的持续提高,以PC为代表的个人信息技术设备,逐步获得了产生与处理以语音图像视频为代表的“多媒体”信息。在20世纪90年代初期,“多媒体”PC一时成为一个特有名词,以示与其他PC的差异。随后到了90年代末期,柯达公司率先推出了数码相机。当智能手机在21世纪开始普及后,除了传统的数字化普通文档外,数字化的照片、语音及视频等大量产生,“多媒体”这个词反倒成为了历史遗迹。这些无法用有限字段来完整表达的“非结构化信息”所包含的信息量明显比一般的数值数据或结构化数据大,所以在日常使用的习惯上,人们不再称之为“数据”,而称之为“信息”。当然,虽然学者们给出了不同的定义,但是这两个词在实际使用中并没有严格的区分。

这个时期是互联网开始走向社会逐步普及的时期。它就是前面说的信息技术产业的第二个技术进步的结果。在第3.3节介绍过,互联网诞生于20世纪60年代,长期只为军方与学术界服务。1990年,美国决定将互联网向全社会的公众开放。

这两个技术进步遥相呼应,在商业资本的炒作下,催生了2000年前后的那轮影响深远的互联网“泡沫”。当初,“泡沫”之所以破裂,根本原因在于资本没有客观地评估技术的进步成熟度,资本编织的神话远远超出了当时技术能够提供的支撑。

21世纪初的“泡沫”破裂,没有阻止信息技术进步的脚步。在一轮大浪淘沙之后,信息技术应用开启了新的篇章,信息技术产业呈现出全新的局面,进入自己的青春年华。

当20世纪90年代,互联网从学术界走向社会之后,在互联网上率先出现的是两大类不同的应用。一种是前面介绍过的计算机应用第二阶段的、基于结构化数据的应用通过互联网的延伸或者直接借助互联网来实现的应用;另外一种是全新的、利用互联网进行非特定用户的非结构化信息分享类的应用。电子邮件可以被视为这类应用的初始形态,随后出现的各种新闻门户网站等就是这类应用的典型代表。这种基于互联网的非结构化信息分享成为计算机信息类应用进入第三个阶段初期的主要特征,也成为这个时期信息技术对社会产生革命性影响的新的应用形态。

如今,非结构化信息应用的时代刚刚起步。在这个新的阶段中,核心基于信息分享功能的应用显然不会是信息应用的全部,甚至也不会是这个时期成熟以后的核心应用形态。它只是信息技术应用这个新阶段当前的主要应用形态。下面对这个应用形态作简要的分析,尽管它只是这个新时代的先导应用,不能完全代表未来。

信息(数据):人们利用互联网分享的主要是非结构化信息。所谓“非结构化信息”,就是无法用一个有限维度语义空间来严格定义的信息。这说明信息本身的内涵大大增加,所以不再以“数据”相称。非结构化信息大量增加,源于信息技术设备的多样性与广泛普及。这使得可以利用这些设备直接把各种曾经用传统形式表达的复杂信息,如文档、照片和视频等,方便地进行数值化表达。由原始信息到数值化信息的映射过程由设备自动完成。

非结构化的信息在对人类有意义的信息中占最大的比重,远远超过结构化数据。就像在所有的系统中,非线性系统远远多于线性系统那样。在系统学中,人们对线性系统有着统一完善的处理工具,而对处理非线性系统问题却常常举步维艰。类似的情况也出现在信息领域:人们对结构化数据有完整有效的处理工具,而对非结构化信息的处理常常颇感茫然,缺少有效的理论与工具方法的支撑。

由于一个非结构化信息常常包含了大量丰富的、跨越一定时空的内涵,远非数值数据与“结构化信息”可比,所以把非结构化信息称为“宏观信息(数据)”。

支撑应用的基础理论:互联网上非特定用户信息分享类的应用,并没有特别新的基础理论方面的创新。因为这类应用在本质上是比较简单的。当然,系统实现的技术难度很大,主要是因为数据量大和用户量大,互联网的应用环境也比较复杂。但这与基础理论并无太大关系。这类应用之所以社会影响很大,是由网络的广泛覆盖带来的,不是这些应用背后有多少理论或技术创新。或者说,是网络这个覆盖全球的“效能放大器”极大地放大了这些本质上简单应用的社会影响力与商业价值。展望未来,人们在网络空间内的互动交流可能逐步发展出多种适应于不同场景下的规范模式,以这些模式为基础,可能会形成一些理论上的成果。

应用软件的特点:互联网上非特定用户信息分享类的应用在本质上是建立了信息流通的渠道和适当的展示方式。应用基本只对信息做格式上的变化以适应信息的传递和展示,对信息做适当的分类组织,但不对信息做实质性的复杂处理。这一点与前面两个阶段的应用方式有很大的不同。而与生俱来的网络化,则是这些软件区别于信息应用前面两个阶段的DNA。这使得它们在软件系统的基本架构上与以往有了本质的不同。这类应用自身虽然实现的功能在本质上缺少“深度”,但因为网络的广泛覆盖而获得了空前的广度。

信息(数据)的管理及其与应用软件之间的关系:这类软件应用的本质在于促进信息分享。应用离开了信息固然没有意义,但是应用却并不依赖具体的信息。不像一个投入运行的银行业务系统,必须使用与系统对应的自己实际客户的具体数据才有意义;信息分享应用,并不在乎分享的是哪些具体信息。

而从信息角度来看,信息技术发展到这个阶段后,大量的电子数字化信息,特别是非结构化信息也并不是仅仅为了某个具体特定应用而存在的(至少通常情况下是这样)。比如,日常拍的照片可能会用到不同的地方,不像银行的数据那样与银行具体的应用不可分割。这既与当今信息技术设备的大量普及到工作生活的各个方面有关,也是由非结构化信息自身内涵复杂的特点决定的。内涵复杂的信息,自然有多重可能的用途和价值,而不是仅仅为了某个具体的应用而产生和存在。如何使用这些信息是由应用的各个使用者根据具体情况决定的,而不是在应用设计之初就明确了的。所以,信息的价值并不依赖于具体的应用。因此,这类软件应用与信息之间的关系是松散的,彼此相对独立。信息与应用的松耦合,可能是未来信息技术应用的一个基本特征。这也是今天“大数据”应用的一个常有的特征,即人们可以搜集不同来源的数据,为自己的目的服务。(www.daowen.com)

从信息应用的发展历程上看,数据/信息与应用软件的关系到此走过了一个否定之否定的循环,又回到了最初数值计算的状态,数据/信息与应用软件是相对独立的。

目前,面对信息大量无序涌现的所谓大数据时代,还没有形成主流的信息管理方式。信息杂乱地分散在网络的各个角落,大数据应用强调如何从这些杂乱的数据矿藏中去挖掘价值,却对信息管理没有给予足够的重视。由于信息不是自然生成之物,而是人工有意识的产物,所以不应该对信息的杂乱置之不理,而应该让信息在其形成之初便被置于有效的管理之下,这样信息才能被充分、有效地利用。非结构化时代的信息管理是本书后续着重讨论的核心问题之一。

实际问题到数值问题的映射:这类问题核心的映射就是信息在不同对象之间的分享,通常没有比较复杂的数学结构,设计具有一定的随意性,没有严格的客观逻辑约束。但如前所述,随着应用实践的发展,未来可能会逐步形成一些在网络空间内互动交流的规范化模式,形成一些新的理论与方法。

未来计算机所解决的问题本身的特点:从这类应用本质的简单性,而其涉及的非结构化信息的复杂性来看,这类应用的目前形态只是基于非结构化信息的应用的初级阶段,更为复杂的、多样性的、能够充分利用非结构化信息价值的全新的应用或应用模式正在不断孕育发展。这正是信息技术产业正在经历的转折的核心,这些全新的多样性的应用或应用模式将主导信息技术产业的未来。而且根据历史的规律,正如基于结构化数据的应用不是数值计算的简单外推而是一个全新的应用方式一样,基于非结构化信息的应用也绝不是对基于结构化数据应用的深化与拓展,而是会开辟出前所未有的、更为广阔的计算机信息处理类应用的空间,在更深的程度上影响人类社会的各个方面。如果说基于数值数据的应用是解决“点”的问题,基于结构化数据的应用是解决“线”的问题,那么,未来综合利用数值数据、结构化数据以及非结构化数据的多样性的应用,要解决的将“面”的问题,即为服务对象提供在空间与时间两个维度上的全面融合化的服务。这种“面”的融合化服务与前两个阶段的应用相比,在智能的意义上将有质的提升,这也是人工智能在这个阶段焕发第二春的必然。借助计算机的“暴力计算”能力与丰富的数据,信息技术的信息类应用由此进入全面智能化的阶段。

本书后面的章节将继续沿着这个思路,从分析信息技术应用的最基本要素“信息”开始,对信息应用第三个阶段的核心关键问题逐层展开并作深入的分析讨论,进而探索未来智能化信息应用发展的基本规律与方向。

这个时期的信息技术开始进入青年时代,也是正在经历的激动人心的时代。迄今为止,在这个阶段信息技术在基础理论方面没有大的突破,但在核心技术与产品上正在取得惊人的进展。

进入21世纪后,信息技术的一个重要的发展便是移动互联网的出现。2001年10月1日,日本NTT DoCoMo公司正式推出了第3代移动通信业务(FOMA)。这是3G在世界上首次投入市场,由此拉开了移动互联网时代的序幕,也催生了种类繁多的包括智能手机在内的移动计算设备。

2012年1月,国际电信联盟正式通过了第4代移动通信标准,4G正在向我们走来。

集成电路技术在21世纪也发展到了一个历史性新高度。2005年,AMD公司首先推出双核处理器。Intel公司也在2005年推出“双核”处理器奔腾D,但是该处理器实际上是两个芯片封装在一起构成的。从此,CPU进入了多核时代,也使得各种计算设备的处理能力逐步开始不再成为制约应用发展的瓶颈。如在第1章第1.4节中指出的那样,在2010年前后,集成电路的发展让计算机历史性地获得了“暴力计算”能力。这是推动信息技术产业进入青年时代的最重要的动力来源。

始于20世纪80年代的CPU领域的RISC与CISC大战,在进入21世纪后,形势发生了逆转。在Intel公司对集成电路技术的疯狂投入下,随着集成度的不断提高,CISC体系的缺陷大都不再成为问题,而且它也吸收了RISC的一些特点。Intel公司在其于笔记本与台式机市场上所具有的绝对优势的支撑下经过十几年的努力,在2010年成功地占据了服务器市场的绝大部分。Intel公司给RISC留下的空间主要在移动与嵌入式设备领域。目前在手机市场上,基于RISC的ARM处理器以其低功耗的优势几乎独霸天下,2011年其市场占有率高达95%。高通公司则正在利用其在移动市场上巨大的优势,试图把其基于ARM的CPU推向Intel的传统领地。由于集成电路技术的发展以及CPU设计上的互相借鉴,RISC与CISC的名称已经不再重要,但是这场大战远未结束。

软件工程方面,随着互联网应用的繁荣,面向服务的系统设计方法(SOA)逐步成为主流。高级程序语言的一个新产品是微软公司在2000年推出的面向对象的程序设计语言——C#。

在前文第1章与第2章中对云计算、物联网、人工智能、大数据及量子计算等已经作过介绍,在此就不再赘述。

信息技术应用的这个新阶段刚刚开始,它也正是信息技术基础技术不再成为瓶颈、信息技术应用开始主导产业发展的时期。它将成为信息技术全面创造奇迹的时代。随着基础技术平台不再成为信息技术应用的制约因素,人们将会看到更多的面向不同应用的新技术出现。这些新技术将主要围绕非结构化信息的处理与应用而展开,全面渗透到社会的各个领域,深刻地改变传统的做事方式与产业分工,重塑人类社会的方方面面。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈