理论教育 开源模式诞生:谷歌的启发

开源模式诞生:谷歌的启发

时间:2023-06-09 理论教育 版权反馈
【摘要】:谷歌并没有向外面推广自己开发的GFS和MapReduce,作为开源软件也没有公开。IT供应商巨头发现比起自己开发大数据处理软件,利用模仿谷歌的Hadoop进行开发更有优势。这样就形成了为了对抗谷歌在软件开发方面的先进理念,谷歌的竞争公司形成“联盟”,开发模仿谷歌先进理念的开源软件的模式。GE数字在Predix上 应 用 的Hadoop、Spark、Storm、Kafka、Cloud Foundry等都是模仿谷歌独有的技术开发的开源软件。

开源模式诞生:谷歌的启发

谷歌的技术能力最早抱有危机感的是在数字广告市场与谷歌进行竞争的雅虎。2000年,雅虎门户网站的检索功能开始应用谷歌的搜索引擎技术。但是,当谷歌开始在自己的搜索网站上投放数字广告,谷歌就成了雅虎最大的竞争对手。雅虎意识到依靠谷歌技术隐藏的危机后,2004年开始自主开发搜索引擎。但是雅虎的搜索引擎开发陷入了困境,它也使用分散处理的方式开发搜索引擎,但是软件开发过程中遇到了很大的困难。

这时,也有一个人和雅虎有着同样的烦恼,他就是开源搜索软件Lucene的开发者道格·卡廷(Doug Cutting)。20世纪90年代末,卡廷在雅虎的竞争公司EXCITE(检索网站)担任开发主管。后来由于互联网泡沫破裂,EXCITE经营陷入困顿,卡廷离开了公司,开始自己开发Lucene。卡廷最开始开发的Lucene是在一台计算机上运行的搜索引擎。2005年,他开始尝试开发可以对应分散处理方式的新型检索引擎。但是,开发的工作一直停滞不前。

此时的卡廷发现了谷歌在2003年发表的GFS论文,以及2004年发表的MapReduce的论文。谷歌并没有向外面推广自己开发的GFS和MapReduce,作为开源软件也没有公开。但是,它把介绍这两个软件概要的论文发表在了计算机科学学会上。谷歌这么做是为了向大学和研究机构的计算机专家宣传自己技术的先进性,借此吸引优秀的计算机专家加盟谷歌。

卡廷参考了谷歌的论文并开始开发GFS和MapReduce的克隆软件,并将其公开。这个软件就是在大数据处理方面赫赫有名的Hadoop。雅虎发现了开源软件Hadoop,于是将卡廷挖来作为雅虎搜索引擎的开发负责人,雅虎自己也开始使用Hadoop。

作为开源软件公开的Hadoop,很快就吸引了在大数据处理方面陷入困顿的其他硅谷公司,其中包括Facebook、推特、领英等当时风头正劲的创业公司。这些创业公司不仅使用Hadoop,也开始积极参与开发Hadoop。实际上Facebook、推特、领英等创业公司招聘了大量谷歌的工程师,他们十分熟悉GFS和MapReduce等谷歌独有的技术。当时的Hadoop与谷歌独有的技术相比,还有很多不足之处。由于谷歌不公开自己独有的技术,所以Hadoop的不足之处只能自己解决。因此,Facebook和推特也开始参与Hadoop的开发。雅虎公开Hadoop技术的理由是它意识到单靠雅虎一家的力量,追赶谷歌是十分困难的。如果将软件公开,则可以借助有同样烦恼的其他公司的力量共同进行软件开发。

以Hadoop为纽带,谷歌的竞争者形成了松散的“联盟”。这样的“联盟”在其他领域也诞生了。这是因为谷歌除了GFS、MapReduce以外,数据库软件、流处理软件等诸多领域的软件都是自己开发的。在谷歌领先的各个领域,竞争公司都会通过“联盟”这种方式采用开源的方法来进行追赶。

很快这个“联盟”吸引了IBM、微软、惠普等IT供应商巨头的加入。这是由于包括金融机构在内的众多企业也开始使用Hadoop。由于一般企业导入Hadoop比较困难,所以这些企业开始委托IT供应商巨头协助导入。为了满足客户的需求,IT供应商巨头也开始汇集在Hadoop旗下。

IT供应商巨头发现比起自己开发大数据处理软件,利用模仿谷歌的Hadoop进行开发更有优势。2005年以后,微软为了对抗谷歌的MapReduce,开发了自己独有的大数据处理软件Dryad。但是2011年,Dryad软件开发正式停止,微软转而开发支持Hadoop的软件。(www.daowen.com)

专门支持像Hadoop这种开源软件的创业公司在硅谷层出不穷。2009年,Hadoop之父卡廷在硅谷创立了提供Ha-doop支持服务的Cloudera。2017年4月末,该公司在纽约证券交易所上市,市值达到21亿美元。

这样就形成了为了对抗谷歌在软件开发方面的先进理念,谷歌的竞争公司(互联网企业、IT供应商、依靠开源软件支持服务取得收入生存的创业公司等)形成“联盟”,开发模仿谷歌先进理念的开源软件的模式。

集聚众多硅谷出身员工的GE数字非常熟悉IT行业的这种模式。GE数字在开发Predix的时候,积极采用“联盟”开发的开源软件,有意与甲骨文和SAP这种既有IT供应商巨头保持适当的距离。

GE数字在Predix上 应 用 的Hadoop、Spark、Storm、Kafka、Cloud Foundry等都是模仿谷歌独有的技术开发的开源软件。特别是Hadoop、Spark等大数据处理的开源软件,拥有与谷歌开发的软件相同的Scale Out特性。即便不购买巨大的服务器,单靠增加便宜的PC服务器就可以增强系统全体的数据处理能力。另外,PC服务器发生故障时,可以保证系统继续运行。它兼具“可扩展性”和“可靠性”。

GE数字从事Predix开发的马克·托马斯·舒米特说:“从技术的角度来说,Predix非常类似于谷歌和Facebook。”这句话的背景就是源于上述理由。

另外,GE数字的穆卡马拉补充说:“Predix只使用支持企业服务的开源软件。”如果使用的开源软件发生故障,或者需要修补漏洞时,GE就使用IT供应商或者创业公司提供的支持服务。这是因为,GE的主业是制造业,不是维护开源软件的软件公司。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈