交互信息图形研究的先驱阿尔伯特·凯洛说:“多媒体可能成为未来信息交流中最重要的因素。”罗登贝克则认为应该更多地使用动画,把收集到的信息制作成数据快速变化的图表,也可以更加清晰地展示出这些信息的含义。用动画呈现变化,可以是地图上某个轮廓变大变小,可以是条形图的颜色变化,也可以是线条位置的移动。
通过图形化的工具及手段的应用,能够一目了然地揭示包含在数据中的复杂信息。良好的视觉效果不仅可以很好地呈现数据,而且人们也可以通过图形信息有效地实现沟通与交流。人类从外部世界获得的信息约有80%以上来自视觉系统,当错综复杂的信息以直观的可视化的图形形式展示在分析者面前时,分析者往往能够一眼洞悉数据背后隐藏的信息并转化为知识以及智慧。
信息可视化(Information visualization)是一个跨学科领域,旨在研究大规模非数值型信息资源的视觉呈现,通过利用图形图像方面的技术与方法,帮助人们理解和分析数据,达到视物致知的作用。即从看见事物到获取知识。传统的数据统计或数据挖掘方法是对数据的简化和抽象,却往往隐藏了数据的真实结构和细节,信息可视化则可以还原乃至增强数据中的全局结构和具体细节,从而有效地展现、传播与沟通信息中蕴含的知识和思想。从这个意义上讲,信息可视化体现出宽物善知的作用。信息可视化技术把计算机的数据处理技术和图形显示技术有机地结合起来,把原始数据经过处理和分析之后,再用一定的绘图规则,生成图形或图像,以直观的方式把事件的规律或结果表达出来,再通过人机交互的方法,让人们能够对数据进行操作,分析事物变规律、预测结果,是常用的辅助处理和支持决策的手段。
自18世纪后期数据图形学诞生以来,抽象信息的视觉表达手段一直被人们用来揭示数据及其他隐匿模式的奥秘。20世纪90年代问世的图形化界面,则使得人们能够直接与可视化的信息进行交互,从而造就和带动了信息可视化研究。信息可视化试图通过利用人类的视觉能力,来搞清抽象信息内涵的意思,从而加强人类的认知活动。
信息图表设计通过标准化的符号系统,将深奥、繁杂的信息和统计数据转换成创意概念,随之转换成图形描述,并演绎生动的“戏剧”。借此,具有固定知觉能力的人类就能够有效地驾驭日益增多的数据。美国著名图表信息设计家乌尔曼说:“成功的视觉交流信息设计将被定义为被铸造的成功建筑、被凝固的音乐,信息理解是一种能量。”
1)信息可视化的起源
18世纪末,威廉·普莱费尔(William Playfair,1759—1823年)发明了“走势图”,包括线状图(Line graph)、柱状图(Bar Chart)、饼(圆)图(Pie(Circle)Chart)等数据的图形表达方式,丰富了信息可视化呈现的手段,被视作信息图形呈现领域工作的开端。他通过绘制轨迹图直观地展示了英国从进口量大于出口量到出口量大于进口量的时间点。
在1854—1856年的克里米亚战争中,由于医疗条件恶劣,英军伤病员死亡率高达42%。南丁格尔(Florence Nightingale)主动请缨担任战地护士。她分析过堆积如山的军事档案,指出在克里米亚战役中,英军死亡的原因是在战场外感染疾病,以及在战场上受伤后因没有适当的护理而伤重致死,真正死在战场上的人反而不多。出于对资料统计的结果会不受人重视的忧虑,让数据能够更加让人印象深刻。她制作出一种色彩缤纷的图表形式,向不善阅读统计报告的国会议员,报告克里米亚战争的医疗条件。翔实的数据、直观的图表说服了军方人士、国会议员和维多利亚女王,战地医疗改良的提案才得到支持,并成功地将伤员的死亡率降低到2.2%。
图9-6 南丁格尔玫瑰图
南丁格尔被描述为“在统计的图形显示方法上,是一个真正的先驱”,她所制作的极坐标图,被称为南丁格尔玫瑰图。
1983年,信息设计的先驱者爱德华·塔夫特(Edward Tufte)发表了第一部关于数据图形学理论的专著《The Visual Display of Quantitative Information》,奠定了信息可视化研究的基础。后来,斯图尔特·卡德(Stuart K.Card)、约克·麦金利(Jock D.Mackinlay)和乔治·罗伯逊(George G.Robertson)于1989年提出了信息可视化的英文术语(Information Visualization),信息可视化逐渐发展成为一门新兴学科。
2)信息可视化的应用领域
(1)信息可视化应用的分类
美国马里兰大学教授本·施奈德曼(Ben Shneiderman)把数据分成以下7类:一维数据(1-D)、二维数据(2-D)、三维数据(3-D)、多维数据(Multidimensional)、时态数据(TemporaD)、层次数据(Tree)和网络数据(Network)。信息可视化方法根据不同的数据也可划分为以下7类:
①一维信息可视化。一维信息是简单的线性信息,如文本,或者一列数字。最通常的一维信息可能就是文本文献了。在很多情况下,可视化文本文献不是必要的,因为它们可以容易地被完整阅读,或者阅读所需要的特定部分。然而,在某些情况下,我们需要借助可视化技术增加文本信息的有效性。文本信息的可视化的方法主要有:图符标识法、高维空间描述法、群集映射法以及自组织地图算法等。
②二维信息可视化。在信息可视化环境中,二维信息是指包括两个主要属性的信息。宽度和高度可以描述事物的大小,事物在X轴和Y轴的位置表示了它在空间的定位。城市地图和建筑平面图都属于二维信息可视化。
③三维信息可视化。三维信息通过引入体积的概念超越了二维信息。许多科学计算可视化都是三维信息可视化,因为科学计算可视化的主要目的就是表示现实的三维物体。计算机模型可以让科学家模拟试验、操作那些现实世界中代价昂贵、实施困难、非常危险或者是现实世界中不可能进行的事情。
④多维信息可视化。多维信息是指在信息可视化环境中具有超过3个属性的信息,在信息可视化中,这些属性的重要性是相当重要的。多维数据指的是具有多个维度属性的数据变量,广泛存在于基于传统关系数据库以及数据仓库的应用中,例如企业信息系统以及商业智能系统。多维数据分析的目标是探索多维数据项的分布规律和模式,并揭示不同维度属性之间的隐含关系。Keim等人归纳了多维可视化的基本方法,包括基于几何图形、基于图标(Icon-based)、基于像素(Pixel-based)、基于层次结构、基于图结构以及混合方法。其中,基于几何图形的多维可视化方法是近年来主要的研究方向。大数据背景下,除了数据项规模扩张带来的挑战,高维所引起的问题也是研究的重点。
散点图(Scatter Plot)是最为常用的多维可视化方法。二维散点图将多个维度中的两个维度属性值集合映射至两条轴,并在二维轴所确定的平面内,通过图形所标记的不同视觉元素来反映其他维度属性值。例如,可通过不同形状、颜色、尺寸等来代表连续或离散的属性值。
但是,二维散点图能够展示的信息维度十分有限,研究者将其扩展到三维空间,通过可旋转的Scatter plot方块(dice)扩展了可映射信息维度的数目。散点图适合对有限数目的较为重要的维度进行可视化,而通常不适于需要对所有维度进行同时展示的情况。
投影(Projection)是能够同时展示多维信息的可视化方法之一。其能够将各维度属性列集合通过投影函数映射到一个方块形图形标记中,并根据维度之间的关联度对各个小方块进行布局。基于投影的多维可视化方法一方面反映了维度信息属性值的分布规律,同时也直观展示了多维度信息之间的语义关系。
平行坐标(Parallel Coordinates)是研究和应用最为广泛的一种多维可视化技术。它将不同维度的信息与坐标轴建立起映射关系,在多个平行轴线之间以直线或曲线映射表示多维信息,是一种常用的高维数据可视化方法。该方法能够把高维数据直观地在二维平面上显示。利用该技术得到的结果具有易于分析和理解的特性,能更加直观地把握多维大数据集的变化规律,对多维数据进行研究带来了很大的帮助。近年来,研究者将平行坐标与散点图等其他可视化技术进行集成,提出了平行坐标散点图PCP(Parallel Coordinate Plots)。将散点图和柱状图集成在平行坐标中,支持分析者从多个角度同时使用多种可视化技术进行分析。再如Geng等人建立了一种具有角度的柱状图平行坐标,支持用户根据密度和角度进行多维分析。大数据环境下,平行坐标面临的主要问题之一是大规模数据项造成的线条密集与重叠覆盖问题,根据线条聚集特征对平行坐标图进行简化,形成聚簇可视化效果,将为这一问题提供有效的解决方法。
如图9-7所示,在每加仑汽油能行驶的里程(MPG)和汽缸之间,八缸汽车相对于六和四缸的一般有较低的里程;汽缸和汽车动力的相关性更为直接,汽缸越多就意味着更多的马力。当然,也存在一些交叉线,所以更多的汽缸并不总是意味着更多的能量,但总的趋势显然是存在的。在马力和重量之间,情况是相似的:马力越大一般意味着车辆的重量越重;最后,重量和年份之间的线交叉很多,这表明多年来汽车变得更加轻量化了。你也可以很容易地看出,年轴只记录了少量不同的数值,类似于汽缸的情况。虽然这只是一个非常简单的示例,但它显示了大多数数据集中的典型结构。
图9-7 平行坐标图示例
⑤时间序列信息可视化。时间序列信息本身就很自然地适合于信息的可视化。可视化在时间序列分析和预测中起着重要的作用。原始样本数据的可视化图可以提供有价值的诊断来识别可以影响模型选择的时间结构,如趋势、周期和季节性。时间序列信息的首选,也可能是最流行的可视化方法——线图。
图9-8是根据从澳大利亚气象局获取的澳大利亚墨尔本市1981—1990年十年间的日最低气温数据,并通过Python编程而得到的线图,在此图中,时间显示在X轴上,而观察值则沿着Y轴呈现。
图9-8 澳大利亚墨尔本市最低日气温图
⑥层次信息可视化。抽象信息之间的一种最普遍关系就是层次关系,如磁盘目录结构、文档管理、图书分类等。传统的描述层次信息的方法就是将其组织成一个类似于树的节点连接表示。这种表示结构简单直观,但是,对于大型的层次结构而言,树形结构的分支很快就会拥挤交织在一起,变得混乱不堪,这主要是因为层次结构在横向(每层节点的个数)和纵向(层次结构的层数)的扩展不成比例造成的。如何在有限的屏幕空间显示层次结构尽可能多的节点,将部分焦点部分突出显示出来,同时又能够将整个层次结构加以显示,是层次结构信息可视化的难点。根据实现方法的不同,大型层次信息的可视化可以通过节点连线图法(Node Link)和空间填充法(Space Filling)两种方法实现。
节点连线图法采用直线或曲线连接父节点与子节点,由于空间利用率低,对于大规模的层次化信息,需要采用如空间压缩、约束树、Foucs+Context等技术来进行可视化;空间填充法则是将一个空间区域划分为多个子区域,每个子区域还可以细分,结果原空间区域被一系列子区域所填充。其最具代表性的填充算法是Treemaps算法及其衍生算法。
节点连线图法一个较为著名的案例是由John Lamping等人提出的Hyperbolic Tree,这是一个基于双曲几何的可视化和操纵大型层次结构信息的Foucs+Context树。它实现了美国国家科学数字图书馆(NSDL)在其主页上利用可视化技术对具有层次关系的分类学科的导航功能。
⑦网络信息可视化。目前,借助Web发布和传播的信息不计其数,这些信息分布在遍及世界各地的数以万计的网站的网页上,这些信息通过文档之间的超链接彼此交织在一起。不论Web现在的规模有多大,它还将继续迅速膨胀。如何方便地使用网络上的信息,成为一个迫切需要解决的问题。网络信息的可视化主要有两个方面的应用:网络信息组织与检索的可视化以及网络拓扑结构的可视化。自动布局算法是网络信息可视化的核心技术,目前主要有3种应用,一是仿真物理学中力的概念来绘制网状图,即力导向布局(Force Directed Layout);二是分层布局(Hierarchical Layout);三是网格布局(Grid Layout)。
(2)信息可视化的过程
人的创造性不仅取决于人们的逻辑思维,而且取决于人的形象思维。为了了解信息之间的相互关系以及演变、发展趋势,人们求助于可视化技术。所谓“可视化”(Visualization),是指在人通过视觉观察客观事物并在头脑中形成该客观事物的影像的过程,这是一个心智处理过程。可视化提高了人们对事物的观察能力及整体概念的形成能力。
信息的可视化结果便于人的辨识、记忆和理解,同时其对于信息的处理和表达方式有着用其他方法无法取代的优势。信息可视化技术以人们惯于接受的图形、图像并辅之以信息处理技术,将被感知、被认知、被想象、被推理、被综合及被抽象了的对象属性及其变化发展的形式和过程,通过形象化、模拟化、仿真化、现实化的技术手段表现出来。可视化不仅是客观现实的形象再现,也是客观规律、知识和信息的有机融合。
信息可视化的基本过程如图9-9所示。(www.daowen.com)
图9-9 信息可视化的过程
该模型由Robert B.Haber和David A.McNabb提出。这个过程是一个线性流程,将数据的可视化过程分成5个大的阶段,分别要经历4个流程,每个过程的输入是上一个过程的输出。其中:
①数据分析处理。即对所收集到的原始数据的分析处理,包括对数据进行数据清洗、数据规范、数据分析。数据清洗首先把脏数据、敏感数据过滤,其次再剔除和目标无关的冗余数据,最后将数据结构调整为系统能接受的方式;数据规范则涉及在前一章中介绍的数据处理方法,包括数据采样、标准化(归一化)、离散化、降维、聚类等;数据分析中最简单的方法当然是一些基本的统计方法,如求和、中值、方差、期望等;复杂的方法则涉及数据挖掘中的各种算法。
②数据过滤(Filtering)。顾名思义是采用一定的方式将满足过滤条件的记录选出,从而帮助我们有效地缩减数据的范围与数量,从而方便信息可视化的实现。
③可视化图形制作(Mapping)。图形制作的关键变换是通过可视化编码或视觉编码(Visual Encoding)将数据映射到最终可视化结果上的过程,即从基于数学关系的数据表映射为能够被人视觉感知的图形属性结构。通常,数据本身并不能自动映射到几何物理空间,因此需要人为创造可视化表征或隐喻来代表数据的含义,并且根据建立的可视化结构特点设置交互行为来支持任务的完成。可视化结构在空间基中通过标记以及图形符号对数据进行编码。可视化映射需满足两个基本条件:一是真实地表示并保持数据的原貌,并且只有数据表中的数据才能映射至可视化结构;二是可视化映射形成的可视化图形符号的表征或隐喻是易于被用户感知和理解的,同时又能够充分地表达数据中的相似性、趋势性、差别性等特征,即具有丰富的表达能力。
图形符号和信息间的映射关系使我们能迅速获取信息。所以可以把图片看成一组图形符号的组合,这些图形符号中携带了一些信息,我们称它编码了一些信息。而当人们从这些符号中读取信息时,我们称作我们解码了一些信息。
解码由图形符号所呈现的信息,靠的是视觉系统,如果说图形符号是编码信息的工具或通道,那么视觉就是解码信息的通道。因此,通常把这种图形符号→信息→视觉系统的对应称作视觉通道。
用于视觉编码的图形符号有位置变量(一般指二维坐标)、视觉变量(包括:尺寸、数值、纹理、颜色、方向和形状)7个基本符号,将其映射到点、线、面后则有21种编码可用的视觉通道。后来人们又补充了几种其他的视觉通道:长度、面积、体积、透明度、模糊/聚焦、动画等。
④渲染(Rendering)。图像渲染是将三维的视觉场景和实体处理转换为一个二维图像的过程。场景和实体用三维方式表示,更接近于现实世界,便于操纵和变换。图形渲染包括真实感图形渲染和非真实感图形渲染两种类别。
3)信息可视化的发展前景
(1)可视化数据挖掘(Data-mining visualization)
信息可视化不仅用图像来显示多维的非空间数据,使信息接收者和使用者加深对数据含义的理解,而且用形象直观的图像来指引检索过程,能够加快信息检索的速度。在信息可视化中,显示的对象主要是多维的标量数据,目前的研究重点在于,设计和选择什么样的显示方式才便于用户了解庞大的多维数据及它们相互之间的关系,其中更多地涉及心理学、机交互技术等问题。
可视化数据挖掘是一个使用可视化技术在大量的数据中发现潜在有用知识的过程,它可以将许多数据同时显示在屏幕上,并将每一个数据值映射成屏幕的一个像素。像素的颜色对应于每个数据值或是数据值与给定查询值之间的差值。在这种技术中,用户由可视化的视觉反馈指导并且能更快地研究数据库中数据的众多特性。可视化数据挖掘的关键技术主要包括3个方面,即交互性技术、选择查询技术和可视化模型。目前,可视化数据挖掘主要有两种分类系统,一种是Keim提出的分类体系,另外一种是Card提出的分类体系。下面分别介绍这两种分类体系的具体内容。
Keim等人将面向多变量和多维信息的可视化数据挖掘技术分为六大类,包括:一是像素导向(Pixel-based)技术,其基本含义是将每一个数据值映射成一个有色的像素并将数据值按照它的属性显示在分离的窗口中,数据值的范围也根据一个固定的颜色表映射成了像素。像素导向技术可分为查询无关的(Query independent)像素导向技术和查询相关的(Query dependent)像素导向技术。前者是基于简单的数据排列方式——将数据项的值从左到右地逐行排列或从上到下地逐列排列。这种技术主要适用于用户可视化一个大型数据库,对根据某种属性(如时间序列等)具有自然序列的数据是非常有效的;而后者是按照数据项间关联度的高低来进行排列的,关联度高的数据项居于窗口的中央,而关联度低的数据项则以螺旋型排列在窗口的外缘,但这种技术所显示的并不是各数据项本身,而是各数据项与给定查询值之间的差值,它主要适用于用户的目标是数据库的交互浏览。二是几何映射(Geometric projecfion)技术,其目的在于发现多维数据集的相关信息。几何映射技术的种类主要包括主成分分析、因子分析、多维尺度分析等初步统计技术,大部分几何映射都可以归纳到“事务映射”的范畴。三是图标技术(Icon-based)。它的作用是将每一个多维数据映射成一个图标,并使其可视化特征与数据值一致。常用的图标技术主要有Chernoff面法和棍状图法。四是分层技术。分层技术将K维的空间和现存的子空间细分为一个分层的样式。像n-Vison技术、“Worlds wthin Worlds”等方法都属于层次技术。层次技术能将K维的非层次表格数据在二维层次的空间进行显示。还有一些层次技术方法,如TreeMap、ConerMap等,可以表示非表格结构的数据信息。五是图形技术。图形技术的基本原理是利用专用的页面布局算法、查询语言和抽象技术有效地显示一个大的图形。六是混合技术。混合技术集成了上面所述的多种技术,为了清晰表现数据信息,可视化结果可以在一个窗口显示,也可以在多个窗口显示。可视化窗口的关联是一种非常重要的方法,它是目前可视化数据挖掘的研究热点。
Card等人根据信息可视化的类型将可视化数据挖掘技术分为4个层次。最高层的可视化工具可以为用户提供在其运行环境之外(如Internet或在线服务器)进行信息收集的可视化途径。第二层可视化工具旨在通过创建信息工作空间的快速获取和高度交互的可视化表示来支持用户执行任务。第三层是可视化的知识工具,描述数据的可视化表达,它提供了一个控制集用以与这些可视化的表达进行交互,这就使用户能够确定并提取数据的关系。第四层次是增强的可视化对象,它的目标在于揭示对象内部的一些本质信息。
第三层次中的可视化知识工具可以根据可视化结构(Visual Structure)的类型进一步细分。可视化结构用于描述空间在信息编码的实现过程(即数据维度是如何表达的),常用的可视化结构主要包括以下4种:①物理的。主要指数据表达与现实世界的对象相对应的可视化方法,计算可视化就属于这种类型。它通常用构造现实世界物体的三维表示来观察物体,从而获取相关的信息。②一维、二维和三维表示。通过将数据投影到正交的坐标轴内实现信息的编码。一维的可视化结构主要用于表示时间线和文本信息,它常被用作大可视化结构的一部分。二维的可视化主要是一些二维的离散图或者离散的图形矩阵,最简单的例子就是平面几何数据。三维可视化则用于物体的真实表示。③多维结构,用于对具有很多属性的数据进行抽象表示,这些属性数据没有清晰的结构和关系。虽然科学计算可视化也可以处理多维数据,但是它处理的大多数数据集都有空间特征,这些空间特征直接影响可视化的结果。④树和网络,通过连接和包围等方法为数据项的关系编码。这种方法在一定程度上与Keim所述的层次技术和图形技术相对应。当描述数据分类、组织结构或磁盘空间管理等事务时,人们能够很自然地想到树型结构,用树型结构能够同时显示许多节点,并提供了浏览和查找机制,让用户观察整个树的结构。而网络则常用于描述数据点带有节点的表达方式,它可以通过连接数据节点来表达数据之间的关系。许多可视化数据挖掘的商业软件都具有较强的交互功能,它们都在不同程度上支持数据的预处理、外部数据库连接以及各种数据挖掘算法。影响可视化数据挖掘技术应用的一个重要因素是目前许多较为成熟的可视化技术都无法处理大数据集。
(2)可视化技术在空间信息挖掘中的应用
空间数据挖掘通常以地图应用为主,通常表现为地理现象的分布规律、聚类规律、发展演变规律、相连共生的关联规则等;而应用数据挖掘在GIS遥感影像解译中,由于同物异谱和同谱异物的存在,单纯依靠光谱值知识的统计分类和特征提取难以满足要求,如果能将空间目标的关联知识考虑进去,可以大大提高自动化和准确程度。由此可见,数据挖掘与GIS集成可以根据不同的研究内容分为面向空间要素的数据挖掘、面向非空间要素的数据挖掘和空间要素信息与非空间要素信息的联合数据挖掘。
根据不同的类型,所选的可视化技术也不相同,需要根据实际情况决定采用何种可视化数据挖掘技术。面向空间要素的数据挖掘主要是挖掘空间实体间的空间关系、空间规则和特征信息,主要从两种数据挖掘的粒度——基于目标实体和栅格来考虑。面向非空间要素的数据挖掘是对经过空间化后的数据在非空间层次进行一般的数据挖掘,即建立在对GIS所管理的空间实体所对应的属性信息的数据挖掘,然后利用GIS对所挖掘的结果进行表达,是一种较低层次的数据挖掘与GIS集成应用。空间要素和属性信息关联的空间数据挖掘不同于前两者的数据挖掘集成,它的研究内容不局限于对地理要素的空间位置和空间关系的研究,还包括对空间现象(四季变换、温度变化、刮风降水)、空间因素(高山、谷地、平原)、空间组成(土壤、地貌、植被、水域、矿产)、空间活动(动物迁徙、人类活动、水土流失、沙漠侵蚀)等的研究,力图从中揭示出相互影响的内在机制与规律。
(3)知识管理(KM)可视化
①知识管理体系。所谓的“知识工作者”(Knowledge worker)最主要的任务之一,就是如何在做决策前已具备决策能力或搜集到所需知识。而如何利用网络资源和信息技术手段,系统地搜寻知识、整理知识、组织知识,并最终有效地加以利用则是知识工作者必备的技能。但是纯粹以文字组织知识不仅困难而且无法展现其全貌。特别是对隐性知识,用纯文字的记录很难将知识片段间错综复杂的关联说清楚。思考大师狄波诺认为,避免人类语言造成的僵化,有一个很好的办法就是在思考的时候,脑海里尽量多用“图形”少用文字。
一个完整的知识管理体系应该包括:知识收集、知识提炼、知识存储和知识应用4个阶段。这是个循环往复、螺旋上升的过程,借助可视化方法表现它,可以帮助我们更准确地理解它们的相互关系,并寻找和发现新的可视化“隐喻”来表示知识。如前所述,知识收集、知识提炼、知识存储和知识应用是知识管理因为“隐性知识”要能够转化为“显性知识”才能够被纪录保存,这个过程叫作隐形知识的“表达外化”;而“显性知识”则经过人类大脑的综合组织,被作为“隐形知识”而保存在脑中。知识形态之间的转化,需要一种视觉化模型来表达和呈现,就好比UML(Unified Modeling Language;统一建模语言)作为一种可视化建模语言,被用作软件系统开发流程中的分析和设计阶段一样。
②几种常用的知识可视化工具。一是概念图(Concept Map)。概念图是康乃尔大学的诺瓦克博士(J.D.Novak)根据奥苏贝尔(David P.Ausubel)的有意义学习理论提出的一种教学技术。它通常将某一主题的有关概念置于圆圈或方框之中,然后用线将相关的概念和命题连接,连线上标明两个概念之间的意义关系。二是思维导图(Mind Map)。思维导图最初是20世纪60年代英国学者托尼·巴赞(Tony Buzan)创造的一种笔记方法,其运用图文并重的技巧,把各级主题的关系用相互隶属与相关的层级图表现出来,把主题关键词与图像、颜色等建立记忆链接。托尼·巴赞认为思维导图是对发散性思维的表达,因此也是人类思维的自然功能,是打开大脑潜能的万能钥匙,可以应用于生活的各个方面。三是认知地图(Cognitive Maps)。认知地图也被称为因果图(Causal Maps),是由Ackerman&Eden(2001)提出的,它将“想法”(Ideas)作为节点,并将其连接起来。
③可视化知识建模语言KML(Knowledge Modeling Language)。如何在浩瀚信息海洋中获取自己所需的知识,进而进行有效的管理并最终利用知识创造价值是知识管理的重要目标。而如何构建良好的知识模型来存储和表达所需的知识,是知识创造价值过程的关键因素。但是,纯粹以文字组织知识不仅困难而且无法展现其全貌。特别是对隐性知识,纯文字的记录,很难将知识片段间错综复杂的关联说清楚。针对这种需求,通过使用可视化知识建模语言人们可以将内在的知识记录转化为图形化的文档,从而得以展现知识的全貌,而知识的使用也变得更加直观和有效。KML语言由知识组件、关系和图形3部分组成,加上合理的语法和语义规则,可以很容易地画出树形或者网状结构的知识地图(无论是概念型、流程型,还是职称型知识地图)。通过使用KML,人们可以将内在的知识记录转化为图形化的文档,从而得以展现知识的全貌,而知识的使用也变得更加直观和有效。
④仿真技术和虚拟技术在信息可视化领域的应用研究。
通过交互式虚拟现实系统实现非空间信息向用户的传输实际上就是一个有效的信息反馈循环过程。首先,非空间信息通过信息可视化系统转换成为图形,通过采用虚拟现实系统,实现了信息可视化符号系统的压缩,导致了一种优化的、更加有效的信息表达方式的产生。其次,用户能身临虚拟现实环境中实现信息的查询,用户与虚拟现实系统间的交互为信息可视化的表现提供了一个全新的方式。
例如,通过交互功能实现对显示参数和场景参数的修改,可为用户在某一时刻实现对某类信息的理解、完成任务精确地提供信息。在许多情况下,信息的提取是通过交互、感知和认知进行深入研究的起点。因此,交互式虚拟现实系统的主要功能在于其研究和探索功能。这符合人类的认知行为。每个人都有自己的探索和认知方式,虚拟现实系统则为此提供了极大的灵活性。仿真技术和虚拟现实技术都是在可视化技术基础上发展起来的,是由计算机进行科学计算和多维表达显示的。仿真技术是虚拟现实技术的核心,仿真技术的特点是用户对可视化的对象只有视觉和听觉,而没有触觉;不存在交互作用;用户没有身临其境的感觉;操纵计算机环境的物体,不会产生符合物理的、力学的动作和行为,不能形象逼真地表达地理信息。而虚拟现实技术则是指运用计算机技术生成一个逼真的,具有视觉、听觉、触觉等效果的,可交互的,动态的世界,人们可以对虚拟对象进操纵和考察。其特点是利用计算机生成一个三维视觉、立体视觉和触觉效果的逼真世界,用户可通过各种器官与虚拟对象进行交互,操纵由计算机生成的虚拟对象时,能产生符合物理的和生物原理的行为和动作;具有从外到内或从内到外观察数据空间的特征,在不同空间漫游;借助三维传感技术(如数据头盔、手套及外衣等)用户可产生具有三维视觉、立体听觉和触觉的身临其境的感觉。虚拟技术的最大特点就是把过去善于处理数字化的单维信息发展为也能适合人的特征的多维信息,它支持的多维信息空间为人类认识和改造世界提供强大武器,使人类处于一种交互作用的环境。目前,虚拟现实技术在其他行业和领域得到了广泛的应用,但在信息可视化方面仍处于研究状态。
4)信息可视化的工具
大数据时代,信息呈现出数据量大、价值密度低,以及快时效等特点,人们保存、检索、分析及利用信息的能力面临着巨大的挑战。信息可视化工具的出现,使得大规模非数值型的信息资源得以实现视觉呈现,为人们理解和分析数据提供了帮助。实现信息的可视化呈现,必须要有得心应手的工具,以下是Netmagzine所列举的一些典型的信息可视化工具,无论你是准备制作简单的图表还是复杂的图谱或者信息图,这些工具都能满足你的需要。
(1)Execl
Excel的图形化功能并不强大,但Excel是分析数据的理想工具。作为一个入门级工具,Excel是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样式上可选择的范围有限,这也意味着用Excel很难制作出能符合专业出版物和网站需要的数据图。但是作为一个高效的内部沟通工具,Excel应当是你百宝箱中必备的工具之一。
(2)Google Chart API
Google Chart API是一个动态图表工具集,能够在所有支持SVG\Canvas和VML的浏览器中使用。但是Google Chart的一个大问题是:图表只能在客户端生成,这意味着那些不支持JavaScript的设备将无法使用,此外也无法离线使用或者将结果另存为其他格式。尽管存在上述问题,不可否认的是Google Chart API的功能异常丰富,如果没有特别的定制化需要,或者对Google视觉风格的抵触,那么你大可以从Google Chart开始。
(3)D3
D3(Data Driven Documents)是支持SVG渲染的另一种JavaScript库。D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、树形图、圆形集群和单词云等。
(4)Python
Python是20世纪90年代初由荷兰人吉多·范·罗苏姆(Guido van Rossum)创建的。目前,Python已经成为最受欢迎的程序设计语言之一。由于Python语言的简洁性、易读性以及可扩展性,在国外用Python做科学计算的研究机构日益增多,一些知名大学已经采用Python来教授程序设计课程。例如卡耐基梅隆大学的编程基础、麻省理工学院的计算机科学及编程导论就使用Python语言讲授。它提供了经典的科学计算扩展库,如NumPy、SciPy和matplotlib等,能够方便地实现快速数组处理、数值运算以及图形绘制。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。