云计算作为一个新趋势大量出现在媒体中标志着大计算时代的正式到来。最早出现的云服务是软件即服务(Software as a Service)。SaaS是云计算的最高层面—应用程序层面给用户提供的一种应用程序服务。Hotmail.com这种基于网络的大型商业电子邮件系统是早期的SaaS,只不过我们基于传统习惯没有意识到而已。后来谷歌的Gmail和Google Doc,微软的Microsoft Live等公司提供的通过浏览器使用的电子邮件、电子文档等各种服务都属于软件即服务的范畴。不过提起SaaS,业界的人首先想到的可能是Salesforce.com与其创始人马克·贝尼奥夫(Marc Benioff)。
贝尼奥夫创立Salesforce.com的起因要追溯到他在甲骨文公司给总裁埃里森做副手时所受到的启发。在一次去北京的飞机上,埃里森跟贝尼奥夫谈到甲骨文数据库应该通过网络让用户使用,这样可以随时维护和更新,不用担心版本不同的问题。又有一次,贝尼奥夫在领导开发营销自动化系统(也就是客户关系管理系统CRM的前身)过程中发现,这种软件需求量很大但费用很高,最便宜的单个营销人员年使用版本费用也要1500美元。作为使用者的销售人员则时常抱怨软件缺少这样或那样的功能。结果对大公司而言,这类系统的维护、修改、升级费用常常是使用费用的十倍甚至更高。可是公司为了市场销售不得不为这类软件支付高昂的费用,这里显然存在着商机。如果以甲骨文数据库为基础,以每人50美元使用费的低廉价格提供一套在线客户关系管理系统应该对中小企业用户有很大吸引力。这一系统可以让销售人员随时上网使用该系统,不必付出额外的系统维护、修改和升级费用。另外,如果一个用户提出有价值的新功能,一旦这一新功能被纳入系统中,所有用户都可以使用。这样系统的价值会因为用户的不断反馈而不断提高,可以始终保持领先水平,于是Salesf- orce.com的最初理念诞生了。
Salesforce.com是1999年成立的,起初埃里森也是投资者之一。一年后,贝尼奥夫发现甲骨文公司也在开发类似的服务,于是将埃里森“请”出了该公司的理事会。随后Salesf- orce.com与IBM联手给美国的中小企业提供优惠的配套服务。对于采用IBM方案的中小企业,5人以内的销售人员团队可以免费使用Salesforce.com,然后企业每增加一个销售人员,只增加50美元的年费。类似的合作方式和价格优势使得Salesforce.com逐渐获得了包括当时的谷歌在内的中小企业的青睐。该公司最终于2004年上市,并随后通过并购等方式迅速发展起来。在通过软件即服务模式起家的同时,Salesforce.com也开始尝试扩展新服务模式。从2002年起,他们开始开发平台即服务(Platform as a Service,PaaS),并在2007年推出了名为Force.com的云计算服务。
如果说软件即服务是通过互联网给用户直接提供应用程序的话,那么平台即服务则是给用户提供一个可以个性化自己需要的软件服务的方式。如果一个用户对Salesforce.com提供的服务有特殊需求,而这种需求别的公司不需要,那么该用户可以通过Salesforce.com的Force.com 平台来给自己编写一个软件程序。这与传统的微软视窗使用者和视窗程序开发之间的关系是类似的,只不过对平台即服务来说,所有的开发都通过云端进行。很多传统程序开发中令人头疼的问题,比如不同的操作系统平台、硬件的限制和系统峰值需求等,在这里可以不必过多考虑。作为开发方的用户可以根据自己的需要利用Force.com提供的更方便的开发环境以及各种已经设计好的程序模块。
平台即服务的模式要求一个拥有互联网平台的公司不仅提供服务,而且开放出一部分提供服务的平台。这样第三方开发人员可以利用这一平台来开发自己需要的应用程序和服务。以网络游戏公司Zingya为例,该公司通过从亚洲成功移植了种菜等各种网络社区游戏到北美之后,逐渐搭建起了自己的云服务平台,从本来的80%的运算依靠亚马逊的云服务、20%的运算靠自己的平台,变为80%的运算靠自己的平台,只有20%的运算靠亚马逊(主要是为了应对新游戏上网时可能产生的超载)。从2012年开始,该公司将网络游戏的底层标准化,开放了公司的平台,让第三方开发商可以利用他们的平台和标准模块调用来设计新的网络游戏,成为一个新的平台即服务提供商[105]。
平台即服务与平台战略也有着密切的关系。2000到2002年间,包括易贝、亚马逊、谷歌在内的公司纷纷推出了自己的平台战略,也就是通过提供程序调用,让第三方程序员可以使用自己网站平台的各种资源开发出新的基于本平台的程序,或者将自己的服务延伸到其他网站。比如一个网上营销公司可以通过亚马逊提供的程序调用将亚马逊网站提供的所有体育用品显示在自己的网站上,并使用亚马逊提供的支付平台来收钱。如果有顾客从自己的网站购买东西,自己可以和亚马逊分享利润。平台即服务可以看成平台战略的一个竞争领域。它的局限性在于需要用户熟悉某一个开发平台的开发环境。比如使用Force.com就必须熟悉甲骨文数据库的开发语言Apex。使用谷歌的AppEngine则不仅需要熟悉Python编程语言,而且需要熟悉谷歌的文件系统和映射化简调用方式。相比之下,亚马逊和微软提供的平台即服务要灵活得多。
亚马逊的弹性云可以让用户通过网络服务来创建自己的虚拟服务器,并且可以选择虚拟的内存、微处理器、存储空间以及分区大小等参数来优化该服务器,使得虚拟服务器能够更好地运行用户特需的服务。在费用方面,弹性云提供了不同的收费方式。除了根据实际运算量收费或者是支付固定费用之外,它还提供了一种“实时费用”的付费方式。这种付费方式要求用户预先向亚马逊云计算中心提出自己的计算需求,设定内存、处理器等参数和愿意为此支付的最高限价。亚马逊的云计算中心可以迅速测算其适时空闲的计算资源情况并根据整体需求给出实时价格。一旦用户的最高限价高于实时价格,该用户就可以自动根据实时价格获得相应资源使用权进行自己的计算工作。通过这种三合一的方式,亚马逊几乎将所有可能的基础设施即服务的付费方式都包含了进去,同时也最大限度地利用了用户的价格承受能力。
用户在亚马逊提供的云端创建了自己的虚拟服务器后,就可以在虚拟器内通过相应的操作系统来开发或者运行需要的用户程序,不必局限于特定的编程语言和使用环境。与亚马逊的弹性云类似的是微软在2010年推出的视窗Azure云服务。因为在过去30年里客户/服务器模式曾经遍布几乎所有企业与家用计算机市场,基于x86的各类视窗系统仍然被目前大部分计算机所采用。所以,将大多数程序移植到微软的Azure云端平台似乎是一个很自然的选择。而且对很多熟悉微软编程环境的程序员来说,在微软的云端平台编程也将是一件比较容易的事情。
2012年,通过提供平台和基础设施即服务的综合模式,亚马逊提供了整个互联网1%的访问量,成为电子商务领域云服务最成功的公司。亚马逊的成功使得谷歌也开始改变策略,准备提供虚拟服务器等基础设施即服务的模式。考虑到谷歌在架构方面的技术优势,估计在不久的将来,这一领域的竞争会更加激烈。
随着企业内部云计算系统的发展和成熟,许多大企业开始通过整合自己的内部计算资源形成所谓私有云(Private Cloud)计算模式。私有云将企业内部的硬件资源通过虚拟机方式整合在一起,提高了管理效率和资源利用率。而亚马逊和微软提供的基础设施即服务可以与企业内部私有云结合来满足峰值需求。如果企业使用亚马逊或者微软等第三方云计算提供的虚拟服务来满足部分或全部企业计算需求,则是通过互联网实现所谓的混合云(Hybrid Cloud Computing)计算模式。
云计算成型以前,企业多是通过租赁专门提供数值计算服务的第三方数据中心的服务器资源来满足自己的计算需求。企业通常要与服务商签订“服务协议”以确保享有良好的服务质量(比如服务器应满足99.999%的上线率)。云计算的模式出现后,这种租赁方式变得更加灵活和可分割了。以前一个企业可能要租赁两台服务器来满足需求,可是这两台服务器并不能充分被利用。通过基础设施即服务的方式,企业可以不必再租赁服务器,而是根据自己的具体需求来为处理器、内存等关键资源的实际使用率或者使用时间来付费。
除了上述三大云服务之外,各大电子商务公司也在不断扩充云服务的内涵和服务范围,试图提供更加全面的系统环境,让用户可以通过使用云端提供的工具和服务来完全实现过去只有通过本地服务才能实现的计算功能,这就需要涉及存储、数据库、通信等新的服务内容。亚马逊是最早提供这一整套服务的云计算平台公司,用户则很快就发现了充分利用这些服务的方式。
2006年,亚马逊刚推出弹性云EC2与云间存储服务S3不久,《纽约时报》就准备把其从1851年创刊到1922年之间的已经失去版权的文章全部在网站上公开,让读者可以免费阅读和搜索。这批从1851年到1980年的近1100万篇文章已经被生成图像文件并以PDF格式存储,只是每篇文章的各个部分是分散在不同PDF文件里的,所以需要把这些PDF文章碎片拼凑起来,生成新的包含完整文章的PDF。这样,读者就可以通过检索找到文章直接阅读。这项工作如果用传统的方法来做,虽然可以完成但需要花一大笔钱雇用专门的公司。于是,《纽约时报》的技术人员想到用亚马逊的弹性云EC2和S3来解决这个问题。他们将一共4000GB(4百万兆)左右的原始PDF文件上载到S3存储起来,然后使用EC2服务在亚马逊的云端生成了4个虚拟服务器,并通过自己计算机上的免费分布式计算软件像控制一个本地的Linux集群一样远程控制由4个虚拟机组成的集群。这个方法果然奏效,位于弹性云里的这4个虚拟服务器可以通过网络有效地获取和处理存储在S3的碎片PDF文件,生成完整的PDF文章,再通过网络从弹性云存储回S3中。接下来,为了进一步提高效率,他们将虚拟服务器的数目增加到了100个,一共运行了24小时,成功地拼接了1100万篇文章,共计1500GB(1.5百万兆)的数据,所有这些文章都被完整地存回了S3。不包括图像上传的传输费用,整个项目的计算花费只有240美元[29]。这一项目彰显了巧妙运用云计算服务可能带给用户的巨大经济效益。
从目前来看,云计算提供的存储即服务比较受中小企业的青睐。最近的一个调查发现,Fortune 1000的公司往往都有自己的存储设备,不需要通过云计算来存储数据。而且远程存储海量数据的成本往往比本地存储要高,所以大公司对存储即服务的兴趣不是很大。但中小企业,尤其是网络营销公司,往往非常需要这种服务。因为这样可以避免购买专门存储设备,从而节省大笔费用。当然如果服务出现问题,代价也是巨大的。亚马逊的S3服务曾经在2008年2月15号清晨出现技术故障,结果导致美东地区的用户有两个小时的时间无法获得数据,直到当天下午4点左右才全部恢复正常。
除了存储服务外,数据库即服务(Database as a Service)也是最近两年出现的新的云服务项目。它出现得晚是因为很多前面提到的云计算服务项目可以将其完全涵盖。比如使用基础设施即服务的用户可以通过虚拟服务器的方法在自己的空间里生成数据库,而软件即服务则不需要用户考虑具体数据库的设计。除了这个原因,即便用户使用某一个云计算服务商提供的独立的数据库即服务,该服务仍然需要跟其他应用程序相联系,进行数据传输。如果对应的应用程序是在异地云端的话,互联网的海量数据传输可能存在不稳定和延时问题,所以使用远程数据库即服务不那么具有吸引力。尽管如此,亚马逊和微软等大公司还是相继推出了数据库服务来与其他现有的云计算服务搭配,比如亚马逊的Relational Database Service和微软的Microsoft SQL Azure。而一些小的创业公司,如Fathomdb.com,则在稍微早些时候推出了独立的针对中小用户的类似服务[30]。
在通讯领域,云平台的出现开始将传统通信方式与各种基于互联网的通信方式结合成一体,形成所谓的通信即服务模式。尽管还没有一个完全一致的说法,该服务的目标是把电话、传真、视频、电子邮件、即时通信、网络会议等通信模式集合在一个用户界面上,由云计算服务商提供云端统一服务。用户只需要接入互联网就可以使用通信服务。如果我们把通信即服务可以看作软件即服务的一个应用的话,那么这种模式已经以网络电话(VoIP)的形式存在至少十几年了。
尽管中国在网络电话市场发展方面还有政策上的限制,但在美国它已经是一个很大的市场。所有提供接入互联网的服务商都提供网络电话的捆绑服务。在个人消费者方面,已经有越来越多的家庭使用网络电话服务,目前的家庭网络电话服务可以提供传真、911紧急呼叫等服务,已经和传统的电话没有什么区别。企业方面的应用开始得更早。从2000年开始,随着网络电话技术的成熟,众多企业已经发现网络电话不但价格低廉,而且能够提供集各种通信于一体的服务,所以网络电话已经成为美国众多企业的主流[31]。
在网络电话方面,声势最大的是Skype公司。Skype是2003年在北欧创立的一个网络电话小公司。易贝在2005年以26亿美元将其购买下来后,本来是想用它的服务使易贝的买卖双方可以互相通话,可是事与愿违,使用易贝的交易双方根本就没有进行电话沟通的兴趣,再加上Skype一直没有盈利,所以就成为易贝的一块鸡肋。2009年为了挽回投资,易贝计划将Skype上市套现,可是因为Skype的知识产权纠纷,不得不取消原计划。最终易贝将Skype 70%的股份以20亿美元卖给了私募基金以及和易贝有知识产权纠纷的公司。
在当时来看,似乎易贝在整个过程中挽回了一些损失。可没想到几年后,微软以84亿美元的现金价把Skype买下。微软肯出大价钱买Skype主要是看中其13%的网络电话市场占有率。另外,Skype的独特网络电话技术可能也是一个因素。在没有防火墙的情况下,所有的网络电话技术都可以让通信双方通过分组交换技术建立起联系,不需要第三方的介入。但如果通信双方或者有一方在防火墙后面的话,一般的网络电话技术(如SIP)就需要一个专门的代理服务器来做中转(与“翻墙”类似)。对网络电话运营商来讲,维护这些代理服务器就意味着增加运营成本。而且随着用户的增多,需要维护的代理服务器性能和数量也会成倍提高。Skype的网络电话技术则避开了建立专门的代理服务器这一步。它的解决方法是通过对装在客户端使用程序的估算,将一些带宽多的客户端计算机升级为“超级节点”,然后用这些超级节点来做临时的代理服务器。所有这些都是动态进行的,所以每时每刻某个节点都有可能被升级或解除升级。这种方法避免了维护专门代理服务器的成本,而且随着用户的增多,超级节点的数量也会增多,不会受到用户增多所带来的通话质量降低的影响。所以相对于一般的网络电话技术,Skype的技术处于更加分布的状态,费用更低。
微软购买Skype可能有多方面考虑,将其融入通信即服务的微软云计算服务可能是最直接的策略。另外Skype还可以被整合到微软其他的产品中(包括微软手机系统、xBox游戏机等),提升微软在互联网方面的形象。防止其竞争对手获得Skype可能也是其主要动机之一。无论如何,85亿美元不是一个小数目,微软是否有可能在不久的将来从这笔交易中真正获利还是未知数。
大计算的出现使得企业的电子商务发展趋势出现了新的变化,这就是整个企业信息技术的云端化。卡尔在2003年提出的“信息技术不再重要”的论断将通过企业私有云与亚马逊、惠普等公司提供的外部云的不断融合而最终成为现实。这一趋势将导致信息技术本身的商品化。在这一过程中,企业在信息技术方面的竞争将逐渐从计算能力的硬件竞争转为数据收集和分析方面的竞争。这一趋势导致了新的信息管理职能的出现,比如专门负责整个企业数据规划的数据规划师(Data Architect)和专门从事各种数据分析的数据科学家(Data Scientist)。在这一趋势中,除了亚马逊和谷歌这些领先进入云计算领域的公司以外,惠普和IBM等传统公司也将占有一席之地,因为后者一直是企业原有的信息技术的提供商,它们提供的外部云计算服务有可能会与企业内部的私有云在兼容方面有更方便的融合。
除了企业内部信息技术的云端化外,企业与市场的互动也因为大计算的出现而越来越走向实时化。搭建在原有信息平台的各种互动商业模式因为这一趋势的出现而进一步细化,效率得到进一步提高,引出了诸如实时竞价(Real Time Bidding,RTB)等新商业模式的流行。
[1]1991年,该公司为美国国家安全署(NSA)研制的CM-5超级计算机的理论最高运算速度为每秒钟65千兆,造价为2500万美元,相当于每千兆浮点运算34万美元。
[2]该技术的核心硬件和软件先后被升阳公司买去,成为升阳公司进军高性能计算机领域的主打产品。而其他软件部分则被甲骨文公司买去,成为后者的数据挖掘软件的一部分。甲骨文收购升阳公司后,又使得该公司原先的硬件和软件得以整合。
[3]美国的地方电力公司联合形成的地区性电网的主要服务对象是本地区电力用户。可是当本地区的用电量不高时,剩余的电力就浪费了。于是全国各大主要供电公司发现通过全国联通电网的方式可以分享电力和平衡用电需求,于是就逐渐形成了后来的全国电网。
[4]每一台工作站的运算速度相当于当时专门设计的超级计算机一个中央处理器运算速度的1/3。
[5]异步传输模式(ATM)是与以太网传输协议不同的另外一种传输协议。该协议强调传输质量并且可以很好地调整不同流量的优先权。相对于以太网协议,该协议更多地应用于广域网上。(www.daowen.com)
[6]传说中贝奥武夫说他之所以拥有千人之力从而可以战胜妖怪格伦戴尔(Grendel)是因为他有一颗纯洁的心(Because my heart is pure,I have the strength of a thousand men.)。
[7]电影中的动画和特技效果的编辑制作特别适合用Linux集群进行处理,这是因为大的三维动画的生成项目的数据量和运算量庞大,但是整个项目可以比较有效地分割为成百上千的相对独立的小计算任务(比如每10帧页面的生成)来完成,而且任务之间没有计算关联(在计算过程中被分割的任务之间不需要相互通信或者共享某些变量)。这样,每一个计算任务都可以分配到相应的一台Linux机去独立完成,然后再逐步整合集成,所以Linux集群在电影数字特技效果方面得到了广泛的应用。在好莱坞,从《泰坦尼克号》(1997)到《黑客帝国》(1999),再到《魔戒三部曲》《怪物史瑞克》《功夫熊猫》《阿凡达》等,无不依靠以Linux集群为硬件的技术手段来编辑特技效果。有了伸缩性极强的集群计算能力,好莱坞的特技效果也越来越逼真。以《怪物史瑞克》系列为例:该系列是由1000多台Linux计算机,共计约3000个英特尔微处理器组成的集群来生成电影的每一帧页面。2001年“摄制”该影片第一部时,共耗费了500万小时总运算时间;到了2004年“摄制”第二部,增加到了1000万小时运算时间;而到了2007年“摄制”第三部,则使用了2000万小时的总运算时间。也就是说每三年总运算时间量翻一番,这被戏称为“电影动画技术的摩尔定律”。有了如此大的运算量,在第三部影片中,每个人物的神态,甚至每一根头发的动态几乎都可以清晰地模拟出来,可谓出神入化、惟妙惟肖。
[8]因为随着服务器数量的增加,空调降温系统的能耗迅速提高,调试和更换服务器的维护费用也都相应增加,而这些使得维护人员费用成本也随之增加。
[9]首先是数据中心的实际能源消耗与直接用于数值计算设备运行的能源消耗的比率。全球大概有85%的数据中心的这一比率大于3,也就是说这些数据中心的能源消耗中非计算部分(包括空调或其他降温系统、电流转换等)是计算部分(服务器)的两倍甚至更多。而只有5%的数据中心可以将这个比率降低到2。最理想的数据中心应该让这一比率接近或等于最小值1,也就是说全部能源消耗都用在了计算设备上。其次是计算设备(服务器)的总能源消耗与实际用于计算的能源消耗(微处理器的计算,内存存取等)的比率。一般来说,计算机的能源消耗除了用于计算外,还包括电流转换、风扇散热等非计算损耗。对一两台计算机来说可能这不算什么,可以对上千台服务器来说,哪怕稍微降低一下这个比率,都意味着大量的能源被节省下来。目前绝大多数服务器的这一比率是1.6~1.8。也就是说服务器所消耗的能源中只有60%左右被实际计算所利用。第三个方面是最难测量的,但也是最关键的,这就是用于计算的能源消耗中,有多少是用于有效计算的。目前比较流行的测量方法是首先估算一个标准的计算任务的理想能源消耗量,然后让不同的服务器系统运行这一计算任务,从而可以比较理想消耗量与实际消耗量的比率。
[10]水循环可以将高温的冷却剂与冷水进行热交换,使冷却剂降温到12~14℃,再循环回数据中心,将空调吸入的热空气降温到16~20℃。让后将降温的冷空气再注入数据中心,这样可以保持数据中心的冷间隔走廊的温度在18~22℃左右。吸收了热量的热水被抽到冷却塔,通过冷却塔的水分自然蒸发带走热量,使热水自然降温,再循环回空调内部与冷却剂进行热交换。当外界温度过高时,数据中心可以自动转为全部由冷却器制冷。
[11]都柏林的年度气温变化在-5~27℃之间,微软设在此地的数据中心的温度只要保持在不超过35℃就可以正常运转,所以通过空气循环降温的话,该数据中心的温度基本常年可以保持在35℃以下,这一温度比谷歌的18~22℃要高一些,不过其优势是减少了对水资源的消耗。如果出现天气异常炎热的情况,该数据中心将转为传统的类似于汽车和家用空调调节温度的机械式空调。根据微软公布的数据,其空气循环冷却的数据中心的用水量还不到水蒸发数据中心的用水量的1%。该数据中心的PUE值在1.25左右,虽然比谷歌的效率稍逊一筹,但已经远远高于PUE为2的业界均值。传统的数据中心通常将其温度控制在22℃以下,谷歌的数据中心将温度控制在27℃以下,微软则将其提高到35℃。基本上,数据中心的平均控制温度每升高1℃,就可以节约4%的能源消耗。所以提高数据中心的平均温度可以有效地节约电能,当然,这对服务器的设计和数据中心的整体温度调节设计有较高的要求,因为平均温度越高,局部过热的可能性就越大,对服务器耐热性和温度调节的要求也就越高。
[12]参见http://www.wired.com/2012/06/google_makes_servers/。
[13]在计算机的发展历史上,首先出现的是为解决二战期间军事需要而设计的批处理大型机。20世纪60年代初期为了满足用户与计算机的互动需要分时系统开始出现。分时系统使得用户可以通过客户端的一个显示器与远方的主机进行交互式运算,而远程的大型机用一部分计算资源来不断响应用户的互动需求。60年代中期随着计算机运算能力的提高和用户升级的需要,以IBM OS/360为代表的一般性操作系统出现。操作系统的出现是计算机软件发展历史上的重要里程碑。当不同配置的大型机有了相同的操作系统时,应用软件就可以脱离大型机的硬件约束而被不同的计算机使用。虚拟机技术则是在操作系统基础之上实现的。
[14]与传统公司相比,亚马逊等高科技公司更加喜欢使用开源软件。因为这类公司有大批资深计算机技术人员,可以在系统开发以及维护上实现自给自足,节省第三方技术支持的成本。Xen这种使用量大的开源软件可以为这些公司提供几乎为零的软件使用和维护成本,所以成为众多大型电子商务公司使用虚拟机技术的基础软件。
[15]亚马逊是最早用网络服务来全面组织技术平台的公司。IBM在2005年前后才开始推广SOA架构。
[16]其中每一个网络服务由两部分组成,一部分是包含了算法逻辑、显示格式生成信息的网络服务调用程序,另一部分是包含在中间的数据库。
[17]传统的第三方计算服务主要是以外包形式存在。所以我们需要把效用计算和传统的外包服务区分开来。虽然效用计算和外包服务都是把企业的计算服务交给其他公司来处理,但外包服务通常是企业从服务商那里购买硬件和软件以及系统维护的服务,而服务商提供专门的服务器和存储空间来为满足一个企业的计算需求。这样企业可以节省雇用专门的系统维护人员和维护硬件的费用。而以虚拟机技术为基础的效用计算则不同,效用计算根据企业的需求提供的是操作系统平台、存储空间以及其他计算资源的组合。而这种计算资源通常是以搭配的形式与企业原有的资源共同被企业所利用。通过这种方式,企业的实际需求能够恰到好处的得到满足,因为效用计算的服务商可以动态的划拨资源给处于峰值需求的企业。
[18]参见:Utility Computing:Who Killed HP’s UDC?http://www.zdnet.com/news/utility-computing-what-killed-hps-udc/138727。
[19]当应用程序需要读取某一个数据块上的信息时,会首先访问主服务器,获得数据块所在的服务器的地址信息后,就直接访问该服务器,不再需要主服务器的协调,这样就在最大程度上避免了频繁访问主服务器所造成的系统访问瓶颈。
[20]谷歌文件系统的设计保证了数据块的更新在三个备份中依次进行,如果有一个备份没有更新响应的话,系统会自动再次做出更新尝试。在多次尝试失败后,系统会将该服务器标记为损坏,然后自动寻找新的存储区间来进行备份。因为谷歌文件系统主要是以读取内容为主,而系统的更新也主要是以添加新内容,所以这一系统设计很好地适应了谷歌的搜索服务。
[21]映射化简算法将计算任务自动分割成成百上千条子任务,然后通过算法本身的协调将这些计算任务根据系统情况分配到不同的服务器上完成,这称为映射过程(Map)。当这些服务器将分配到的任务计算完成后,将结果通过远程调用汇集到由映射化简算法挑选的另一部分服务器上进行排序和整合,并将整合的结果不断进行处理和再整合,直到得到最后的结果,返回给用户程序,这一过程成为化简过程(Reduce)。
[22]互联网档案网站(www.archive.org)是一个非营利性的网站,它定期搜索和保存互联网上各种网站的网页并以时间顺序保存,供社会免费使用。
[23]2002年卡丁和卡福莱拉估计当时的互联网网页大概最多会达到10亿页面左右,可是10年后互联网上已经出现了7亿网站和超过一兆网页。
[24]卡丁的搭档卡福莱拉此时已获得华盛顿大学的计算机硕士学位,但他选择了回到华盛顿大学继续完成学业并在2009年获得博士学位,然后去密执安大学计算机系成为一名计算机教授。
[25]华盛顿州长大的比希利亚2003年本科毕业于华盛顿大学,在校期间协助老师做过很多编程基础课的准备工作,毕业后加入谷歌负责搜索质量。比希利亚的主要贡献是最早将大规模计算教育引入到本科计算机科学课程中。2008年他和其他合作者将在华盛顿大学的大规模计算授课的经验写成“Cluster Computing for Web-Scale Data Processing”论文发表。该论文成为麻省理工、卡梅、清华等大学开设同类课程的重要参考。
[26]参与Cloudera投资的独立投资人都对互联网基础架构和大规模计算的重要性有切身体会。他们包括Flickr的联合创始人菲克,原来在雅虎后来分别去了微软担任网络搜索主管的陆奇和去领英网担任董事长的韦勒,此外还有MySQL的前总裁马汀·米克斯(Marten Mickos)。
[27]2010年比希利亚离开了Cloudera,后来与他人联合创立了Wibidata,专门开发小象系统之上的大数据分析应用程序。
[28]绝大多数从2005到2010年间出现的NoSQL数据库是以开源软件形式搭配在小象或者谷歌文件平台上提供的,比如源自脸谱邮箱查询的分布式数据库Cassandra,仿照谷歌大表设计的用来进行海量自然语言搜索的HBase,为开发类似谷歌的平台即服务而产生的全面支持分割的MongoDB和与其类似的CouchDB,以及强调内存存储特色的Redis等。
[29]《纽约时报》目前继续使用亚马逊的S3服务来存储其文章,感兴趣的人如果在《纽约时报》的搜索栏里试着输入“Li Hung-chang”(中国晚清总理大臣李鸿章名字的英文翻译)就会发现有1800篇关于他的文章,而且所有文章都可以下载阅读。这些文章涵盖了李鸿章当政时期的各种政治活动,一点不亚于美国媒体对现代中国领导人的报道。
[30]FathomDB.com所提供的数据即服务是建立在亚马逊弹性云服务基础之上的。用户可以通过FathomDB.com建立自己的关系数据库,然后通过网络服务来存储调用其中的数据。用户只要每小时付2美分就可以运行使用256MB内存和10GB的存储空间的关系数据库。
[31]企业通信系统的云端统一可以给企业节省大笔开支。传统的基于公共交换电话网(PSTN)的程控电话和基于互联网的网络电话都是通过分级的数字网络进行传输,两者也可以互相通信。AT&T等电信公司一直在利用现有的公共交换电话网来与互联网接入商竞争,比如通过ISDN、DSI等技术来让使用者可以用现有的电话网使用互联网服务。不过两者的主要不同之处在于其传输方式。公共交换电话网是在通信双方之间建立起一条虚拟的信道,一旦信道建立起来,就会保持不变直到通话结束,所以通信质量可以得到最低保证。而互联网则是将语音通过IP分组交换方式,与其他互联网信息一样,切割成碎片,发散出去,完全依靠通话双方之间的路由动态传输,传输路径随时都有可能改变,包含语音的IP包到达的前后顺序也没有规律,所以早期网络电话在通话质量上得不到保证,如果使用的人多,就有可能出现声音模糊,语音失真的现象。最近10年,网络电话的质量有了显著提高,这大部分得益于包括主干网和接入用户端的互联网的带宽的显著提高。比如现在北美的家庭用户的互联网实际上载带宽都在5MB以上,下载带宽可以经常达到十几兆。在这种情况下,动态路由对通话质量的影响就微乎其微了。企业用户的带宽更高。所以以网络电话为基础的通信即服务成为可能。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。