程 卉
摘要:随着大数据时代的来临,图书馆的知识服务工作也面临着大数据浪潮的冲击。本文举了两个例子对大数据在图书馆工作中的应用进行了阐述,根据大数据分析现有资源的状况来预测图书馆未来工作的导向。最后分析了图书馆需要如何回应才能跟上大数据时代的步伐。
关键词:大数据;分析应用;图书馆
近几年,大数据的热潮逐渐升温,给包括电商、金融等各行各业带来了显著效益。根据美国的道琼斯风险资源数据,在前两年时间里,十几亿美元流向了119家数据库软件公司。
中国最大电子商务公司阿里巴巴已经离不开大数据技术。淘宝上每天进行成千上万的交易,相应的交易信息会被记录。关键是,这些信息包括买卖双方的年龄、性别、地址甚至兴趣爱好等个人特征信息。各大、中、小城市的商场做不到这一点,超市也做不到这一点,而网络时代的淘宝可以。通过这些信息,各家电商可以了解自己品牌的市场状况、消费者的消费行为情况等,并据此进行生产、库存等重大决策。而与此同时,消费者也能得到实惠,以相对较低的价格买到心仪的宝贝。阿里信用贷款则是阿里巴巴通过得到的企业交易数据,借助大数据自动分析技术判断是否可以给予企业贷款,全程没有人工干预。据透露,截至目前阿里巴巴坏账率为0.3%左右,远远低于商业银行。那么,到底什么是大数据呢?大数据又是如何做到这些的呢?
1 大数据的相关概念
大数据可以说是人类的一次技术革命。它给人们带来了海量信息,革新了很多科学技术,是一个全新现象。大数据的发展体现了从理论到实践的过程。最早提出大数据概念的是美国的麦肯锡公司:“无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。”这一定义虽然简单,却获得了很多学者的认可。大数据具有4V特点,即容量(volume)、多样性(variety)、速度(velocity)、价值(value)。
容量特性就是指大数据在数量维度上的特点。大数据,顾名思义就是海量的集合数据,是人们无法短时间内搜集、理解的数据,它的存储单位由传统的MB、GB上升至TB乃至PB层面,数据的来源广,数量大。根据2016统计报告可以看出,大数据总量的增长幅度是逐渐变大的,往往呈倍数增长,所以很多学者把大数据时代定义为爆炸式信息时代。多样性特性就是指大数据时代的数据类型呈现多样的特点,数据的生产与传播方式多样化,可以这样说,在大数据时代,每个人都是信息的生产者与传播者。速度特性就是指相对于传统的数据分析与数据的时效性来说,大数据时代,信息的传播交流速度快,数据的“保鲜期”更短。价值特性与前三个特性有所不同,它说明大数据时代的信息和数据不仅具有量的优势,还有质的保证,这里的质指的是数据的精确性与价值性。
2 大数据在图书馆中的应用
我们想要得到的无形信息依附在大数据这个有形载体上而存在。由于有价值的信息淹没在海量数据中,我们就要通过各种各样的方法、模型来得到这些无形信息。大数据通过用户计算机cookies、IP地址、浏览路径、地理位置等数据维度,真实客观地记录用户的行为与文本生成内容,并根据指令搜索筛选出符合要求的数据以供后续研究。
作为图书馆馆员,我们要想更好地服务于读者,只有对读者的心理需求进行更深入的研究和探讨,才能在信息环境瞬息变化的今天为读者提供更好的服务。在图书馆这个网络平台上,读者使用图书馆检索系统查找信息的同时也会留下大量数字化痕迹,每一次搜索的页面都会源源不断地提供更多读者信息。读者在浏览过图书馆资源之后,会通过cookie留下上网信息,这些很小的文件会储存在服务器端。对于读者无意中留下的这些痕迹,我们可以收集起来,通过简单的分析,从而更精准地了解用户的喜好和最近一段时间的关注点。这样就可以对用户的知识需求、信息行为有更好的把握,变被动为主动,为读者提供更有效的知识信息服务,也就是我们经常说的信息推送服务。信息推送服务,是根据读者的需求,有目的地按时将读者需要的信息主动发送给读者,是一种主动服务方式。对读者而言,推送技术正在改变读者获取信息的方式,即由过去的读者主动寻找信息,变化为信息去寻找合适的读者,这就为读者节约了大量的时间,并且避免了对网络资源的占用。
下面介绍一下本馆大数据应用的例子。
图1为某数据库后台统计出来的数据,从图中可以看出本院读者最感兴趣的为电子技术及信息科学、机电航空、政治军事与法律等几大方面。再细分还可以统计出更多数据。例如,读者最感兴趣的专题为计算机应用、武器工业与军事技术、军事、电信技术等方面。读者信息需求伴随着信息的利用、筛选以及索取,其满足程度取决于信息资源建设的整体质量和图书馆知识服务的深度。信息资源的质量控制,包括发展方向、体系结构调控、配置策略甚至资源的局部微调,又都依赖于读者需求的表现与变化。二者互馈互动,相互支撑。图中可以很清楚地反映出本院读者信息需求的主要和次要方向,并充分表明了我们是一个以理科为主的军事院校。这些都可以作为图书馆采购纸质书籍和电子资源的参考数据。
图1 数据库访问次数统计
随着RFID技术在本馆的应用,数据的产生也发生了巨大的变化。对这些数据的处理,是一项巨大的挑战,而针对这些数据的有用信息挖掘,将对图书馆产生很大的影响。下面两幅图为本馆应用RFID技术以后统计出来的两组数据。(www.daowen.com)
图2为本馆2015年度部分流通账单,该图反映出读者需求量比较大的几个种类有文学、工业技术、军事和历史地理等,这些可以看作需求方信息。图3为2015年度新增图书。该图反映出本馆2015年度购书情况,我们采购量比较大的几个图书种类有工业技术、军事、文学、历史地理等,这些可以看作供给方信息。从这两个图的对比来看,本馆2015年度赠书配比基本符合读者的需求。
图2 2015年度流通账单
图3 2015年度新增图书
3 大数据分析的方法理论
目前,大数据最重要的问题是如何进行准确分析得出我们需要的有效信息,只有通过分析才能获取深入的、有价值的信息。因此,分析方法在大数据领域尤为重要,可以说其是确定最终信息是否有价值的决定性因素。大数据分析的方法理论包括三个方面:
(1)可视化分析。大数据分析的使用者有数据分析专家,同时还有普通用户。但二者对于大数据分析的基本要求都是可视化分析。可视化分析能够直观地呈现大数据的特点,同时易于被用户接受,就像看图说话一样简单明了。现在本馆应用的也只是一些简单的数据可视化分析方法。
(2)数据挖掘算法。大数据分析的核心理论是数据挖掘算法。各种算法基于不同的数据类型和格式才能更加科学地呈现出数据本身的多维度特点,用这些算法深入数据内部,才能挖掘出数据的真正价值。另一方面也是因为有这些算法才能更快速地处理大数据,如果一个算法要花几年时间才能得出结论,那大数据的价值也就不存在了。
(3)数据质量和数据管理。大数据分析离不了数据质量和数据管理,高质量的数据和有效的数据管理,在各个领域,都能保证分析结果的真实性和有效性。
4 总结
图书馆作为一个信息技术的集散地,如何充分利用自己的优势,利用日积月累留存的读者信息构成的大数据来挖掘自己的潜能,这是一个值得思考和探讨的问题。大数据技术的不断发展给图书馆的工作带来了新的机遇,使图书馆工作朝着精准、科学、高效方向发展,这就要求新时期的图书馆人在面对具体工作时,要树立不断发展的学习观,抓住大数据给图书馆工作带来的机遇,最大程度地利用大数据带来的契机。要抓住这种契机,首先,需要培养一些高素质大数据技术人才,建立专业化队伍,加强大数据收集,结合平时的工作,提高信息实战能力。再者,要加强各图书馆相互之间的合作及其大数据信息的融合,逐渐形成跨单位的一体化能力。大数据技术就是形成这种一体化能力的强有力支撑。整合了大数据研究策略的图书馆在对读者的知识服务工作中会有更广阔的发展空间。
[1]刘明,李娜.大数据趋势与专业图书馆[J].中华医学图书情报杂志,2013(2).
[2]徐子沛.大数据:正在到来的数据革命[M].桂林:广西师范大学出版社,2012.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。