2008、2009年前后,新奥集团有很多信息化项目上线,对基础架构的需求越来越大,应用、项目和业务支撑方面都出现了瓶颈,集团面临的一些困惑和挑战:一是IT资源都是按项目提供,大的项目会有比较多的硬件,小的项目可能就是一台服务器或其他较小的资源。但是在具体操作中,在保证资源的同时,匹配的程度不会很高,导致较低的投资利用率和较高的相对成本。另外,在不同的系统中使用了不同的硬件,应用团队、业务团队和基础架构团队在硬件的选型上想法不同,没有完全遵循标准要求,造成硬件产品的品牌、型号和性能差异较大,后续运维管理成本高。三是有些业务方面的需求会不断增长,需要随着应用的增长对资源进行扩容,当要扩容的项目数量比较多时,资源的保证和扩容能力就面临挑战。另外,很多硬件资源是以满负荷运行来计算配置的,但是上线后在正常运行状态,其资源的利用率和满负荷状态偏差很大。
因此,在云的概念出现时,新奥集团就一直跟踪云技术的发展,包括对相关设备、系统、产品和厂商技术标准的了解,花了将近两年的时间去做前期准备工作。希望通过它的应用,解决刚才谈到的一些问题:一是将分散的资源整合成统一的服务平台,实现资源共享,快速响应业务变化、扩容和性能改进等方面的需求;二是从运维的角度,希望实现更好、更快、更标准化、更自动化的管理和交付,降低运营和运维成本;三是扩展能力更灵活,实现动态的资源调配能力,在满足高峰时期的业务需求的同时,降低整体的投资成本,提高IT资源使用率和利用率。
基于这样的需求,新奥集团认为,基础架构云的技术能更好应对自身的需求。出于这种认识,新奥集团开始搭建新的IT基础架构。首先是对所有的资源进行整合,实现虚拟化,让现有的资源发挥更大的作用;其次,是硬件整合之后,在应用和运行平台间实现松耦合的管理关系,实现应用平台的标准化;接下来,实现资源使用的标准化,将原来按设备提供资源的方式改变为按照计算能力、按照新应用的性能要求来提供;最后,是能够通过自动调度,实现资源和需求的匹配。最终的目标是建设成按需交付的平台云,包括标准的操作系统、标准的中间件和标准的数据库服务,以及相应的计算性能和存储空间,以这种方式服务应用团队或业务团队。
基于这种思路,新奥集团的云平台分为3层结构。底层是基本的物理环境,即云计算中心;中间是云计算平台,包括物理设备、虚拟化资源池和资源调度平台3个部分;再往上,是应用云服务。利用这种架构,构建了更加动态的云基础架构平台:首先采用一些比较高性能的设备,做一个比较好的虚拟化平台;其次,实现更好的管理运维架构;最后,要根据业务需求,实现云平台的扩容和容灾。
网络层面上,新奥集团分别和移动及AT&T合作,在国内外建立了两个MPLSVPN网络,并在上海对它们进行了互联。生产中心的计算资源,一般根据管理和部署需求的不同,分为生产区、测试区、开发区和VMView区来交付使用,存储资源统一通过资源调度进行分配。所有的资源扩容都基于对整个资源池的管理要求来开展,而不是某个应用。每个资源池都有一定的可调度性,所以一旦临时有一两个应用需要对资源需求进行调整,可以在不增加任何硬件的情况下得到满足。
另外,新奥集团做了桌面的虚拟化,把前端应用映射到“我的服务中心”,利用虚拟桌面服务器运行原来应该在前端PC上运行的应用。无论是Windows 7、Windows XP还是Windows 8,无论是office还是SAP的客户端,都可以部署到后端的虚拟桌面服务器上,前端系统变成了一个瘦终端,保证了系统的可靠性和安全性。
目前这种虚拟桌面在新奥集团的开发团队中已经应用。另外,虚拟桌面还可以用于一些需要标准化管理的工作,包括城市燃气分销等业务。通过虚拟桌面,可以限制营业厅的计算机只能做售气和刷卡的业务,不能上网、用QQ和打游戏,也不会中病毒,安全更有保障。第三个应用场合是在各种平板电脑上,包括安卓、IOS系统等,都可以通过虚拟桌面访问各种应用。移动设备和计算机的差别比较大,用它做工作流大家不习惯,但如果能利用虚拟桌面把整个计算机桌面推给用户,就会更方便,也弥补了平板电脑计算性能不如PC的问题。只要有比较好的网络联接,速度和效率还是有保障的。
云平台搭建之后,就要考虑它的安全性。以前的方式是围绕应用或服务器来考虑安全性,并在网络上加以限制,云平台就必须考虑如何保证整个云架构的安全。目前新奥集团的做法是采用单点登录+统一认证的系统,保证用户通过认证之后,安全访问所有应用。未来新奥集团还考虑在内部搭建认证服务器,实现基于证书的强认证。
与传统基础架构相比,云架构带来了一些新的变化。以前有新项目上线,要提前申请采购和安装设备,最快也得20天到一个月。现在基于云计算和资源池,基本上可以实时供应,即使是大型的应用也可以在很短的时间内交付所需要的资源。前段时间有一个HANA的POC验证需求,临时需要两个非常大的机器,按照传统的方法,采购周期长,成本也很高。而通过云平台的资源调配和应用迁移,用了一周的时间就搞定了。(www.daowen.com)
云平台在运维这方面也有很大的优势。在能耗上新奥集团在布署了云平台之后,资源和能耗的需求都下降了很多;在人员配备上,以前一个管理员最多能管20~30台服务器,现在可以管理100台;由于云平台使用了高性能的设备,在数据中心的空间占用上,也能节省不少开销,新奥集团在深圳的灾备中心共有6个核心应用,只用了两台P7、4台X3850和一台8000的存储,占的空间也就20多平方米。
在云平台投入使用前,新奥集团的售气业务每月底都有一个高峰期,响应速度基本在1秒以上,最长的时候达到5秒。迁移到云平台后,响应速度基本上就比较平缓了,月底时候的响应速度也能控制在1秒以下。以前的营业厅处理一个售气业务,需要3~4分钟,现在缩减到了40秒以内。最直观的感受就是,原来高峰期营业厅总得有二三十个人排队,现在顶多有四五个人。
系统的高可用性和扩容能力也有改善。备用系统的切换原来要用30分钟,现在最长不超过10分钟。以前新奥集团两个比较大的系统,在晚上进行备份需要12小时的备份时间,和业务时段之间基本没有缓冲。做了云迁移之后,备份时间缩短到了3个小时,停机窗口和运维都有了更好的保障。
2013年3月底,有传言说天然气要涨价,新奥集团业务量骤增到平常的十多倍,最高的时候甚至是平时的20余倍。在这种情况下,新奥集团根据监控的结果,快速评估和决策,并利用云平台快速调度和部署的优点,两个小时就实现了4个集群的扩容,有效支撑了业务的开展。在这件事情上,国内的几家燃气公司,新奥集团表现是最好的,得到了老百姓的肯定和政府的表扬。
新奥当前云平台还局限在基础架构层面,未来希望能够增加OS、中间件和数据库的云服务,实现更加自动、灵活和智能的资源管理。目前我们已经开始了一些尝试,让用户通过邮件来自动申请部分实验资源。在整个云平台架构之上能够把基础架构、QS、中间件、数据库等都做成标准化的服务,承载不同的应用。
另外,安全问题是新奥集团布署云平台时关注的一个重点。新奥集团希望在云的底层实现数据的安全防护,因为在云环境里,应用系统都是一个个镜像,可以随时被清除或创建,只有数据才是真正需要被保护的。以前应用和设备绑定在一起,应用不安全,设备和数据也不安全,云化以后,应用和数据就分开了。对云的防护,新奥集团是通过平台层级的安全控制,在每个平台的底层做好管理,实现最终的安全防护。
来源:新奥集团信息共享服务中心原总经理姚祥煜演讲稿,有删改。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。