理论教育 运维团队智能化流程管理

运维团队智能化流程管理

时间:2023-05-29 理论教育 版权反馈
【摘要】:因此,在智能化运维建设中,需要考虑的是如何简化业务部门与运维部门间的对接流程,以达到迅速处理现场故障的效果。实际上很多日常桌面故障会重复出现,运维技术人员只需要五分钟就可以处理,但因流程、人员流动等因素可能会导致处理时间翻倍或出现更长延误。

运维团队智能化流程管理

●制作日常运维流程模型

传统运维中,很多运维团队处于“救火式运维”状态,运维技术人员被故障拖着走。虽然技术人员会对平台环境内的重要节点进行监控,但因工作经验的不同,很多经验不足的技术人员即使发现问题也无法及时解决问题或者预计出故障的发生却没有采取相应的防范措施。

通常企业会花高价聘请经验丰富的技术人员,其最主要的原因在于,经验丰富的技术人员有自己的一套运维管理流程,当故障已经发生或预计即将发生时,他们会按照这套运维流程有序进行,将故障危害消除在未发生之前;或者在故障已经发生但用户还没有做出反应的情况下解除危机。

其实,在建设智能化运维系统过程中,经验丰富的技术人员一般会通过下面几个流程将故障危害扼杀在摇篮中:

(1)监控

监控是运维中最基本的工具,通过专业工具对整体平台环境、硬件设备、网络、系统、应用等每一个节点进行监控。

(2)分析

分析是一种预判和处理故障的手段,通过对平台环境、硬件、网络、系统以及应用的内部日志返回信息、监控状态信息等进行综合评定分析来预判和处理潜在的危险。

(3)管理

管理的作用在于预防。对硬件的优化、内核的升级、系统垃圾的清除、账号的管理等都属于预防潜在的危险,管理的好坏与运维技术人员的技术水平有直接关系。

(4)归档

人的记忆是有限的,很多故障问题可能很久出现一次,而当我们忘记时也就意味着需要重新对这类故障进行排查,做好故障记录并进行归档就是快速处理问题的保障。另外,文档的记录也会为企业人员流动时的平稳过渡起到良好的作用。

监控→分析→管理→归档,我们可以把它看作是一个简单的日常运维流程模型。企业可以根据自身实际情况梳理制作企业专属的日常运维模型。(www.daowen.com)

●业务与运维流程紧密关联

运维团队不仅要管理好平台的基础设施,而且也要给很多业务部门提供相应的桌面支持。以外包式呼叫中心为例,业务部门通常为外部提供服务面向客户,而运维团队就需要保障业务团队的电脑、网络、话机的通畅。

一般大型呼叫中心单个职场客服数量通常会达到千人级以上,人数众多、人员流动性大,日常出现的桌面问题数不胜数。传统运维模式中,客服出现故障时通常会通过项目组长或主管对接运维部门,再由运维部门负责人寻找相应技术人员进行处理,这种方式耗时耗力。因此,在智能化运维建设中,需要考虑的是如何简化业务部门与运维部门间的对接流程,以达到迅速处理现场故障的效果。

实际上很多日常桌面故障会重复出现,运维技术人员只需要五分钟就可以处理,但因流程、人员流动等因素可能会导致处理时间翻倍或出现更长延误。

桌面运维可以分成两个部分进行智能优化:

①将重复出现的故障做成故障处理脚本,嵌入系统或工具内。当出现故障时,业务人员可根据提示运行脚本处理。

②将桌面运维的模式改为接单式,当出现脚本无法处理的故障时,业务人员可在工具中提交故障报修单,由运维部门接单处理,这样不仅可以考量运维部门的运维效率,也可以快速地处理相关问题。

●故障处理流程明确

故障处理流程是运维流程中一个非常重要的环节。无论是线上业务,还是线下业务,通常都会要求“4个9”或“5个9”的可靠性,折算下来一年内因故障中断的时间不过几十分钟,甚至几分钟。

为了保证这种高稳定性,在平台或环境搭建初期都会对同构群集、热备等技术做一些有安全保障的架构设计。但是这种架构设计更多是为了缓解或延迟故障的爆发时间,及时解决故障、排查故障原因进行修复、预防才是解决问题的根本。因此,故障的处理流程在设计时要尽量精简、详细,如故障报警→迅速响应→处理故障节点→分析故障原因→修补优化→故障问题处理报告。

一般在智能化系统设计中会为故障处理分配足够的资源,如智能判断故障节点,自动筛选数据库内的故障记录以提供给运维人员。智能运维系统数据库内的数据需要经过常年的累积,一套良好的故障处理记录不仅可以有效地解决故障,而且对后期出现故障的概率和解决故障的速度也都是大有帮助的。

设计流程的目的是为了使工作更加顺利,使新人更容易适应当前环境,也是为了能更快捷高效地处理工作中所遇到的困难。随着企业的发展壮大,技术人员的数量越来越多,技术人员的个人职业水准也会逐步提高,智能运维系统内的流程不应该是一成不变的,流程的管理与运维管理同样重要,健全、灵活的流程才称得上智能运维流程。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈