14.2.3.1 数据预处理
“Slice Table by Time”算法是在大多数“时间可视化工作流程”中常用的数据预处理步骤[6]。该算法的输入文件为一个表格,该表格由与记录相关的“date/time”值构成。根据用户设定的时间间隔,该算法将原始表格分割成一系列的新表格。根据所选参数的不同,这些时间分区可设置为累计或不累计,也可以设置是否与日期一致。用于分隔表格的间隔包括:毫秒、秒、分、时、天、周、月、季度、年、十年以及世纪。
图14.2 三个字母的Burst分析图表(右图)与原始数据(左图)比较
14.2.3.2 数据分析
Sci2工具提供的“Burst检测”算法[7]是由Jon Kleinberg's(2002)算法修改而成的,该算法用于检测随着时间的变化字符串的使用频率的突然增加(Burst)。它能够识别对于所研究的事件有重要意义的主题、术语和概念,这些事件在某一段时间比较活跃,然后消失。该算法的输入值为有时间戳文本,例如包含发表年份的文档。Burst检测算法可以从标题、摘要或者其他文本找出一组突发词列表,突发词根据突发权重和突发时间区间进行排序。图14.2左侧为突发字母表,右侧为原始数据。字母b(蓝色粗体线表示频率,蓝色破折号线表示突发)在1985年之前和1995年之后出现了突发值。同样的,字母c在1995年到2005年之间出现了突发值。然而,字母a在这段时间保持不变,即字母a没有突发值。(www.daowen.com)
图14.3 时间条形图:Geoffrey Fox博士的NSF资助信息(彩图可参考原著)
14.2.3.3 数据可视化
“Temporal Bar Graph”用于对数值数据按照时间进行可视化,它是Sci2工具中仅有的真正的时间可视化算法[8]。该算法接受表格(CSV)数据,该数据必须包含与每一条记录相关的起始时间和结束时间。凡丢失起始时间或者结束时间的记录将被忽略。其他的输入参数包括“Label”,它与一个文本字段对应,用于标记bar;“Size By”参数必须是整数并且和水平bar区域相对应;“Date Format”,可以选择“日—月—年”时间格式(欧洲格式,举例:31/10/2010),或“月—日—年”格式(美国格式,举例:10/31/2010);以及“Category”参数,它允许用户根据数据属性为某一个bar进行颜色编码。例如,图14.3给出了Geoffrey Fox博士的NSF资助介绍,Geoffrey Fox博士是美国印第安纳大学计算机科学与信息计量学学院杰出教授和研究室副主任,图中的Bar表示Geoffrey Fox博士参与的NSF奖励。每一个Bar都标着奖励名称。Bar的总体面积对应着他的获奖总数,并且每个Bar都是根据奖励的隶属机构进行颜色编码的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。