理论教育 智能运维系统和工具模块概述

智能运维系统和工具模块概述

时间:2023-05-29 理论教育 版权反馈
【摘要】:通过软硬件日志和节点运行状态提供的警告信息以及故障信息,根据连通性准确预判或定位出故障区域或报警区域,运维人员可迅速锁定故障节点。建设智能运维系统初期应将基础设施以及硬件的基本信息录入数据库中,如出厂日期、启用日期等。

智能运维系统和工具模块概述

在传统运维岗位中,运维工具繁多,运维人员需要通过多种工具进行日常维护工作,如果工具选择错误可能会导致运维人员判断方向错误或故障处理失败。智能运维系统中的运维工具可以将各个工具的功能融合到一起,再通过模块化形式展现,一是为了方便运维人员使用,二是各种工具协同工作也可以更有效地处理日常工作中所遇到的问题。

●基础建设介绍

在建设智能运维系统时,首先就是基础建设。智能运维系统中很多功能是否可以实现,很大程度上取决于企业的基础建设是否可以支持,如基础架构属于分布式或群集结构,那么智能运维系统中便可以添加自动切换故障节点以及自动更换数据源等功能。

基础建设架构,简单来说就是企业内网络、系统以及语音的结构,建设初期的规划拓扑图实际上就是架构的整体规划图。其中,网络以及服务器的架构技术已经非常成熟,在这里不做过多介绍。语音结构按照主流技术分类大致可分为两大类:数字电话结构和软电话结构。

(1)数字电话结构

数字电话结构更依附于网络,通过异地链路、单机热备等机型链路结构部署。

(2)软电话结构

软电话结构更依附于服务器,更像是一种运行在服务器中的软件。软电话结构可按照服务器结构分为分布式、群集、双机热备等类型。

●运维系统智能数据库

简单来说,智能数据库至少应具备“学习”和“预判”的能力。 “学习”指的是智能数据库应具备信息采集的能力,就像人在学习中不断地积累经验。“预判”指的是根据数据库内收集的大量数据进行综合对比分析,再将分析结果反馈给相关运维技术人员或自主作出一定的预防动作,以达到预判和预防的效果。运维系统智能数据库可以说是体现整套系统智能的核心,它应该具备的功能大致可以按照三个方向进行设计。

(1)数据收集

在智能运维系统中,可以进行数据收集的接口有很多。例如:

①监控报警模块:可收集系统日常运行的状态、运行中断次数、易发故障节点、恢复使用时长等。

②故障处理信息收集模块:主要收集的是日常故障处理后运维技术人员所编写的故障记录报告。

(2)智能分析

即将收集来的数据进行综合对比,分析的方向也有很多种,如对周期内所有节点故障进行节点故障率分析,对运行状态前后数据进行稳定性分析等。

(3)分配调度

指的是智能运维系统应具备对事件分类的功能,如警告、故障、应急、可智能解决、需人工处理等。

●监控模块

监控工具是为技术人员提供基础运维的一种手段,在智能运维系统中也是为智能数据库提供数据的一个重要数据收集接口。

监控是日常运维的一部分,也是运维人员的专业技能之一。但在智能化运维系统中,监控模块更多的是充当数据库信息收集接口的角色,因此在智能化运维系统中可以将监控模块单独摘出,单独使用。常见的监控有网络流量监控、网络硬件监控、服务器硬件监控、服务器系统监控、日志监控等。

智能运维系统是将多种监控工具集成到一起,在功能分类模块中展示出来,运维技术人员可以更直观、更有效地查看运行状况,更快速地发现问题、处理问题。

运维监控工具首先要注重的是直观性,图形化加报表的形式直观地为使用者提供可视化工具及邮件、短信报警的同时,还为数据库提供运行数据。

●智能故障处理模块

智能运维系统内的工具主要是保障各模块间的相互协调工作,智能故障处理模块也不例外。如果说建设是基础,智能监控是入口,智能数据库是调度,那么智能故障处理就是从规划到执行,主要包括以下几个方面:

(1)故障预判及故障点锁定

通过智能监控系统对每一个节点的实时监控及综合判断,运维人员可以在第一时间掌握故障信息。通过软硬件日志和节点运行状态提供的警告信息以及故障信息,根据连通性准确预判或定位出故障区域或报警区域,运维人员可迅速锁定故障节点。

(2)应急故障处理

当故障发生时,灾备系统会自动切换,监控界面故障节点高亮显示,报警系统通过邮件和短信形式通知运维技术人员,故障排除后报警解除。

(3)故障记录归档(www.daowen.com)

传统运维系统中,故障记录归档没有明确要求。但无论对于企业或者是技术人员来说,故障记录都将作为宝贵的历史经验积累下来。

一般情况下,企业的网络、系统、硬件以及语音环境框架是很少进行变动的,这也就意味着很多故障是重复出现的。做好故障记录对于技术人员来讲,可以根据之前的记录更精准地处理故障;对于企业来讲,故障记录在岗位人员交替时可以让新员工更快地对公司环境及经常出现的故障有所了解;而对于智能运维系统来讲,故障记录也是智能数据库整体分析的一部分,故障记录归档模块是智能运维系统中必不可少的一环。

●日常运维管理模块

在一套完善的企业网络系统平台中,出现故障的频率直接取决于日常运维管理的完善程度。运维人员在日常运维管理中做得越细致,对整体环境的安全及稳定性就提升得越高。智能运维管理系统也不单单只提供一个日常运维管理流程工具,它本身也可以对日常运维管理提供相应的帮助。下面从基础设施、网络语音调优、系统及应用调优和网络及系统安全防护分类四个方面来进行讲解,提供一个智能化运维的解决思路。

(1)基础设施及硬件巡检管理

基础设施以及硬件是所有企业中网络、系统、应用和平台的根本,这些都需要运行在相应的硬件设施上。

建设智能运维系统初期应将基础设施以及硬件的基本信息录入数据库中,如出厂日期、启用日期等。当硬件设备加入整个环境中时,智能运维系统可以自动检测硬件的相关配置信息,如CPU、硬盘大小、内存大小等。

传统运维中对硬件设施的检查往往会忽略很多细节,如服务器硬盘,很多服务器硬盘都有转数寿命,但一般很少有人会去查询这类信息,一旦转数接近使用寿命就可能会影响业务性能,严重者也可能会导致业务中断,很多时候硬盘出现故障时,数据的丢失以及对业务的影响已无法挽回。

在设计智能化基础设施及硬件管理时,我们可以将硬件检测工具嵌入智能运维系统内,在运维技术人员非工作时间,系统可以自动进行扫描检测,然后将结果直接反馈给运维技术人员。

智能运维系统根据数据库中收集的数据对硬件上运行的系统、平台及应用进行实时分析,当硬件配置无法满足业务需要的资源时,系统会为运维技术人员提供相应的数据对比报表,运维人员通过报表就可直观地判断硬件中需要升级的配件或设备。

(2)网络及语音智能调优管理

智能运维系统通过监控网络以及语音的流量、数据的发送和接收对网络状态进行判断,一旦出现流量异常或数据异常,系统会立即刻启动预警,将信息发送给运维人员,以提醒运维人员尽快预防或处理。

对于内部用网,企业可以通过智能运维系统内嵌入的网络管理工具进行网络地址链接使用限制。对于对外提供的服务用网,企业可以根据带宽的使用量以及平台访问量进行数据对比,得出详细的带宽分析,确定服务平台网络是否需要进行带宽扩充。

(3)系统及应用智能调优管理

①系统及应用架构管理。为了防止因故障或维护等因素导致业务中断,很多企业在初期部署规划时会对系统和应用运行的环境进行高可用、高负载或分布式等架构部署。这些架构部署通常可能会按照地域或设备放置位置划分为不同节点,为同一项应用或服务提供运行空间。

在这些架构中,我们要关注每一个节点的运转情况,如果其中一个架构节点出现问题,也就意味着服务少了一份安全保障;如果安全节点只剩下最后一个时也就意味着业务即将中断。

在智能运维系统中,我们可以通过集中监控、配置远程列表等,将架构内的每个环节集中到一起进行统一操作。

智能数据中心会根据每个节点提供的数据对整个架构的安全系数、运行速度以及传输速度进行评估,当系统低于安全值时,数据中心便会启动架构内的应急处理机制进行切换或危险预警,同时将存在性能缺陷的节点信息提交给相关运维人员,提醒指导运维人员进行优化

②系统及应用运行管理。因为很多应用是对外部提供服务的,因此应用的优化以及应用所运行系统的优化对提升服务体验效果有直接影响,主要包括以下几个方面:系统内核优化、系统启动项优化、系统磁盘优化、系统进程优化、内存优化、交换分区优化、应用平台程序优化、应用访问优化、应用数据库优化等。

传统运维人员大多数根据自身经验和运行应用进行相关优化,并不全面。对于智能系统来讲,我们需要做的是:首先把每一个可优化的细节录入智能数据库内,然后通过智能系统内的扫描工具对每一个细节进行定期扫描,最后通过数据库对比某一个系统程序或应用程序在运行时占用资源的情况,当占用的资源远远高于该程序正常运行的资源时,则需要对该程序进行优化处理。

智能优化系统同样需要长期的积累,智能数据库通过不断对积累的细节优化点进行数据分析为我们提供个性化优化提醒。

(4)安全防御管理模块

互联网技术中,将安全技术和节点详细划分,主要包括:人为安全因素、硬件安全因素、环境安全因素、网络安全因素、架构安全因素、系统安全因素等。

智能运维系统对于安全防护的积累需要靠运维人员常年不断地录入,再由智能运维系统加以整理、保存、分析,最后形成固化的安全防御流程。

安全防御管理模块的规划设计同样离不开监控、分析、问题处理和记录。不同的是,安全防御管理模块要有独立的运行机制。原因在于互联网中很多危害具有种类繁多、传播途径强、破坏性大的特点,如互联网病毒等。对于这类危害,可以考虑借助于优质的杀毒工具或防范工具,杀毒工具查杀出病毒特征,将病毒特征录入智能运维数据库内,智能运维数据库启动应急机制,对出现相同特征的电脑、服务器或部分网络进行隔离处理,再启动工具查杀。当这种机制形成后,智能运维系统便可以通过不断积累,避免遭受二次伤害或者被二次攻击。

综上所述,智能运维系统的建设还在不断发展,这是一种趋势,虽然智能无法完全代替人工,但却是一种好的助力。智能运维系统的数据是运维技术人员长期经验的积累,在日常工作中再由智能运维系统承担大量的重复工作,两者之间的关系是相辅相成的。因此,智能运维系统的好与坏,一半要看系统的整体设计,另一半则取决于使用它的运维人员。

【注释】

[1]5个9:(1-99.999%)×365×24×60=5.26分钟,表示该系统在连续运行1年时间里最长的业务中断时间是5.26分钟。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈