理论教育 不同业务的分析过程优化

不同业务的分析过程优化

时间:2023-06-17 理论教育 版权反馈
【摘要】:根据KQI指标定义,对其涉及的KPI指标进行分指标评价。另外时延类指标可能会和性能相关,这时候在分析时不能只关注WEB业务,而要关注整体数据业务量进行性能指标的关联分析。此处KQI质差的比对,主要是通过比对该指标的历史趋势、不同网元之间的趋势,主要是找出比较差的网元或区域,然后进行后续定界分析。

不同业务的分析过程优化

1.WEB业务质量

统计网络中WEB Browsing的KQI指标,见表3-15,通过与KQI目标值对比评估现网的KQI指标是否达标,或者与历史指标对比评估KQI指标是否有劣化趋势。

表3-15 WEB业务4G质量KQI标准

978-7-111-53196-8-Chapter03-41.jpg

(续)

978-7-111-53196-8-Chapter03-42.jpg

基于大数据挖掘的问题评估本质上是找出评估对象异常的表现点,并分析是否有规律可循,以期为最终解决方案提供数据统计支撑。因此评估方法论更多的是对全网不同维度的指标进行多维度统计分析和比较,以发现网络中影响到用户感知的相关指标的异常点或隐性特征,为后续问题定界定位提供方向。

(1)评估方法

步骤1:分析当前WEB Browsing业务的状况。

步骤2:KQI指标评价。

对KQI指标与各基线指标进行对比,得出网络质量是否有问题,以及在某个时间段某KQI指标是否出现异常。

步骤3:KQI指标分解评估。

根据KQI指标定义,对其涉及的KPI指标进行分指标评价。理论上来说构成该KQI指标的KPI指标都处于较好水平,则该KQI指标会较好,因此提升KQI指标就是提升各KPI指标。通过对KQI指标分解的KPI指标的评估,找出影响当前KQI指标的短板KPI指标,有针对性对短板KPI指标进行提升,以达到提升KQI指标的目标。

另一方面,将反映端到端的KQI指标分解到具体KPI指标,有助于对KQI指标问题进一步定位。KQI指标反映的是一个端到端的指标,整个业务流程都可能影响到该指标的好坏,分解到具体的KPI后对影响因素进一步做细分,在定界定位业务质量的KQI下降时更容易找到具体根因,便于后续优化团队缩小问题范围。

步骤4:KPI指标的问题定界。

对于短板KPI指标,根据指导书进行相关指标的多维度分析,以确定影响KPI指标是在无线与用户、核心网、SP服务器的哪一段,并将定界结果输出给相关维护优化团队对短板KPI指标进行问题处理和指标优化。

(2)定界分析方法

基于用户行为分析的业务定界基本上分为两种场景:

第一种:有明确标志导向的用户行为,如信令类消息或部分功能性网元消息,用户发生此类行为时若有问题,则消息有明确规范的错误码指示问题所在,这种问题基本上可以直接根据消息中错误码进行准确定位。

第二种:基于大量用户行为数据进行多维比对,以对故障原因分析的推导型定界,这类基于大数据分析的定界思路一般遵循三步走的原则,通过对告警场景的KQI指标结合现网具体网络结构和维度,进行指标的多维对比、有具体指向KPI的拆分、有目的性的根因排查,最终定界或定位问题根因,如图3-26所示。

统计现网WEB Browsing的KQI指标,并通过时间、区域、网元、终端、SP等的钻取找到较差的维度,然后对KQI进行有明确指向的KPI分解,并对KPI进一步深度多维钻取找出与KQI趋势一致的根因。

978-7-111-53196-8-Chapter03-43.jpg

图3-26 问题定界分析流程

(3)针对成功率类指标

分析所有失败原因的归属情况以及各种失败原因的占比,并重点考察失败原因的变化趋势。从各维度[区域(Location)、终端(Device)、APN、网站(Website)、浏览器(Brow-ser)]分析失败原因的规律性,找到规律性之后再针对主要的失败原因分析其场景进行优化。

如果是由于网络原因导致的超时,可以结合自定义失败码、网管系统的FM/PM数据等对网络传输质量进行分析。

(4)针对时延类指标

分析其频谱图,只对时延大的进行分析,可以使分析更有针对性。另外时延类指标可能会和性能相关,这时候在分析时不能只关注WEB业务,而要关注整体数据业务量进行性能指标的关联分析。例如某eNodeB在忙时时延指标下降,由于WEB业务只是其中一部分PS业务,可能WEB业务量并未在忙时出现陡升,但这不代表整个eNodeB的数据业务量在忙时没有陡增,需要分析全部的数据业务量。

从各维度[区域(Location)、终端(Device)、APN、网站(Website)、浏览器(Brow-ser)]分析时延的规律性,如果找到则基本可以定界问题。

如果没有规律性则可能是中间路径上有异常导致的,可以结合传输指标及FM/PM数据对TCP性能(包括重传/丢包/分片/RTT)进行分析,定界时延劣化的故障点。

(5)速率指标

速率主要是作为一个评估网络用户体验度的E2E指标,在实际网络中可以从全网到小区、用户级对用户使用网络的速率指数进行评定。在实际使用该指标时,可以通过多维度(时间、区域、终端、网元、网站等)评估网络平均速率指标的差异寻找短板速率点,评估网络极大值速率验证网络能力。对于网络速率平台出现的短板,需要结合网元性能、传输性能、时延类指标等进行具体问题定界。

(6)WEB业务分析思路确认

WEB业务KQI告警粗确认并不能完全确认是否问题是由该网元引起,也可能无法确认到某网元。无论是否可以确认到某网元,后续分析都可以按照 KQI 拆分到具体 KPI 的方法进一步进行分析。对于确认到具体网元的,则直接对该网元指标进行分析,而对于未能成功确认的,直接拆解KQI进行分析,如图3-27所示。

2.流媒体业务质量

统计HTTP Streaming的 KQI 指标,通过与 KQI 目标值对比评估现网的 KQI 指标是否达标,或者与历史指标对比评估KQI指标是否有劣化趋势。Streaming KQI评测标准见表3-16。

978-7-111-53196-8-Chapter03-44.jpg

图3-27 浏览类业务分析思路

表3-16 流类业务KQI标准

978-7-111-53196-8-Chapter03-45.jpg

(1)评估方法

步骤1:查询当前HTTP Streaming业务的状况。

步骤2:KQI质差分析。

通过与历史趋势以及基线对比,找出质差KQI指标,然后钻取和TOP排名找出质差KQI所在的时间、区域范围,以及KQI在接入网类型等维度的分布趋势。

此处KQI质差的比对,主要是通过比对该指标的历史趋势、不同网元之间的趋势,主要是找出比较差的网元或区域,然后进行后续定界分析。

步骤3:KPI分析。

钻取关联的KPI并分析其中质差KPI,一般KPI对应了业务的不同阶段和不同网络特征,可以从这些方面初步判断导致质差KQI的原因。

步骤4:详单钻取。

进一步查询问题单据的详单,查看TCP统计值、视频解析信息、业务拆链方式等信息辅助定界。

(2)定界分析方法

针对整网业务忙时的时间段,通过与KQI评测标准的告警阈值比较,找出KQI指标质差且业务发起次数较多的地域范围作为定界分析对象。主要思路是,先分析关联的KPI,如果存在质量明显变差的KPI指标,则可以进一步定位到该KPI对应的业务流程。其次按照区域、终端和APN维度统计出TOP质差分布,如果存在典型的质差业务聚类,则可以分析相应的维度。另外,以TCP性能分析为定界的重要依据,重点分析包括上下行的重传率、丢包率、RTT以及流媒体码率等编码信息。

指标一:播放成功率/播放中断率。(www.daowen.com)

定界思路:首先,分析质差KQI的失败原因饼图,统计出TOP错误码(比如累加概率分布大于90%的TOP错误码),直接从错误码代表的场景和关联KPI定位质差原因,如果无法精确定位则进行下一步分析;第二步,分析失败业务在区域、终端、Host维度上的统计规律,如果在某种维度上存在失败业务次数集中的情形,则定位失败原因与该维度有关;第三步,利用详单查询和二次统计工具,分析TCP性能、流媒体码率和断链方式等信息,估计出失败原因的发生场景,结合前两步的结果做进一步定位。

这其中播放成功率主要和TCP建链成功率、Get成功率及初始缓冲的数据传输成功率相关,播放中断率本质上衡量的是网络的数据传输质量,因此可以归类为速率强相关指标。

指标二:播放等待时长/停顿频次/停顿占比。

质差KQI定义:指标值超出阈值或历史水平。统计指标的频谱分布,找出指标值过高的单据,通过查看详单、分析TCP性能和关联KPI,找出质差原因归属于Gn口以上或以下。

从相关KPI来看,这三个指标都是与速率相关,而流媒体业务本身的特性保证了其都是大数据包的下载,不必分析TCP慢启动原理导致的影响因素。

(3)分析步骤

1)播放成功率。

步骤1:识别质差KQI。

结合历史趋势图和区域频谱,找出成功率低于评测标准的告警阈值(参考指标评测标准表)且业务发起次数较多的地域范围。

步骤2:失败原因分类。

步骤3:失败原因多维度分析。

按照地域、终端、APN和SP维度查看失败业务的次数,分析各种分布是否存在规律,如果某种维度存在失败业务集中爆发的情况,则该维度可能与失败原因具有关联关系,可以作为辅助信息进一步定位原因。

步骤4:详单查询和二次统计。

步骤5:综合分析定位。

GET响应成功率相应的错误码是4xx和5xx,初始缓冲成功率相应的错误码是自定义错误码。

如果失败错误码是5xx,需要进一步判断SP维度是否具有失败业务集中的特点,则应该重点排查服务器端的问题,如服务器异常处理。

如果错误码是4xx,且在终端维度具有失败业务集中的特点,则建议重点排查用户侧原因,如播放器相关协议和配置的正确性。

见表3-17,给出了与定位相关的主要详单字段,查看其中的终端接收窗口、TCP RTT、TCP丢包、片段请求间隔等字段,问题定界在终端侧、无线侧、CN/SP侧。

表3-17 流媒体播放失败定界表

978-7-111-53196-8-Chapter03-46.jpg

2)播放等待时长。

步骤1:识别质差KQI。

结合历史趋势图和区域频谱,找出播放等待时长高于评测标准的告警阈值(参考指标评测标准表)且业务发起次数较多的地域范围。

步骤2:查看时长频谱图。

步骤3:异常时长的钻取分析。

首先分析KPI,查看TCP建链时长、GET响应时长和初始缓冲时长,如果有某阶段的时长显著增加,则可判断接入过程的超时发生的具体阶段:TCP建链过程、GET响应过程、初始缓冲过程。

在该分析中,可以选择二次统计来组合区域和时间等维度。分析TCP建链时长、重传次数在这些维度上的聚类情况。

步骤4:多维度分析。

根据区域频谱图下方失败列表以及详单中的地域、SP维度(对应详单中的PROT TYPE 字段)信息,查看超长等待时长的次数是否在地域或SP维度存在聚类现象,如果存在,则说明小区的无线覆盖或SP原因导致超长等待。

步骤5:综合分析定位。

解决流媒体播放等待时延长的问题,需设计TCP建链时延、GET时延、初始缓冲时延三部分。还包含TCP建链和发起首GET之间的间隔。

见表3-18,给出了与定位相关的主要详单字段,查看其中的终端接收窗口、TCP RTT、TCP丢包、片段请求间隔、流媒体视频码率/音频码率和网络吞吐率匹配等,问题定界在终端侧、无线侧、CN/SP侧。

表3-18 播放等待时长过高的场景分析

978-7-111-53196-8-Chapter03-47.jpg

3)停顿频次。

步骤1:识别质差KQI。

结合历史趋势图和区域频谱,找出停顿频次高于评测标准的告警阈值且业务发起次数较多的地域范围。

步骤2:查看停顿频次的频谱图。

步骤3:异常停顿频次的钻取分析。

步骤4:多维度分析。

统计区域和SP维度的过高停顿频次的业务次数,分析是否在某种维度上存在规律分布。

步骤5:TCP性能分析。

播放过程中,TCP传输方式基本是单一的下行传数据,上行传ACK。根据这个特点,查看下行重传包数和下行乱序包数是否异常,下行乱序异常一般定位为Gn/S1-U接口以上网络质量差,下行重传异常既可能是无线网络发生数据包或ACK包丢失,也可能是终端ACK消息包在Gn/S1-U接口以上发生丢失,需要利用上下行RTT等信息进一步定位。

流媒体播放停顿频次过高场景见表3-19。

4)停顿占比。

停顿占比本质上是对停顿的分析,其分析方法和步骤可以参考停顿频次。

5)播放中断率。

播放中断率本质上也是在播放过程中因下载速率不足导致终端上下载到的缓存内容不足导致的播放中断,可以理解为速率不稳定导致,因此定界方法还是针对速率的定界分析,可以参考对速率的判断。

表3-19 播放停顿频次过高的场景分析

978-7-111-53196-8-Chapter03-48.jpg

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈