针对运营商行业的虚拟化应用性能监测管理解决方案 点击:131 | 回复:0



明辰君

    
  • 精华:0帖
  • 求助:0帖
  • 帖子:10帖 | 0回
  • 年度积分:0
  • 历史总积分:90
  • 注册:2020年2月21日
发表于:2020-02-27 11:47:07
楼主

近几年,由于政府、医疗、大型企业上云进程的发展,移动、电信、联通各 大运营商不断完善自己的云服务,来满足政府和企业越来越复杂的业务需求。随 着各级省市区政府政务和网站的上云,以及各大企业关键业务的云上运行,客户 对于上云业务的稳定性和流畅性提出了更高的要求,运营商的相关运维管理部门

(如:移动的网络部、网管中心、电信的网络运维部、企信部、联通系统运维部 等)在减少“故障率”和降低“投诉率”方面面临更大的挑战。

遇到的问题

客户对上云业务(如:政务云、医疗云、企业云等)的稳定性和流畅性要求 极高,且业务环境及云环境非常复杂,一但问题产生,只能被动接受投诉,导致 运营商的“投诉率”居高不下。故障涉及如链路、网络延迟、重传、CPU、存储、 SDN、内存、操作系统等诸多因素,故障排查缺乏快速有效的分析工具,无法 改变“投诉率”过高的被动局面。

除了公有云业务,运营商信息系统部还负责内部私有云的运维,同时部分核 心业务依然在实体服务器上运行,这就造成了信息系统部需要面临“多云混合管 理,虚实性能监控”的挑战。由于内部网络包含了数据中心节点互联区、核心生 产区、管理网络区等多个区域,运维部门非常渴望能够实现“南北流量”和“东 西流量”的共同监控。同时也需要“虚拟网和实体网关联监测”,在出现问题时 能够做到实时记录和时间回溯。

引用某省运营商运维部主任的原话:我们需要搞清楚业务慢的原因。之前部 门经常被业务部投诉,有委屈也说不清,明明是应用本身的问题,也会归到我们运维工作没做到位。我们迫切需要一个真正能做到虚拟化故障定位和性能监控的

系统,会为我们的工作带来极大的价值。

 

需求:

需要全方位可视化性能监控体系

对于云管理者而言,没有可视化就没有有效的管理。无论是在数据中心还是 公共云或私有云中或混合云中,端到端可视化已变得非常重要。同时可视化也是 大数据分析的一种呈现,如不能构建和基础资源和业务应用的一一对应的关系, 管理将无从入手。里面需要涉及宿主机、虚机、存储、网络、服务路径、应用等 等;涵盖了 IPM>NPM>VPM>APM 多个领域

需要一键式快速排查故障的手段

在出现问题时过度依赖经验和技能、部门协调耗费大量时间和人力,不能在 第一时间定位故障,缺乏快速界定故障层次、判定问题责任的有效依据,耽误了 MTTR 考核指标。

可用工具:明辰智航云安网络与虚拟化性能管理系统

产品采用虚拟化模版部署,集成了大数据分析引擎及高可用机制,避免了系 统故障时的恢复时间。采用高效率的存储架构,能实时响应并同时纪录历史数据; 方便任意时间段数据的读取。

不需要改变现有云平台架构,部署简易,避免实施风险

可以监控到虚机与虚机、虚机与实体机的东西、南北向数据

支持 SAAS 模式,租户可以直观看到自己资源和应用的真实情况。

 

使用效果

全栈式可视化性能监控

1. 全栈式可视化,使用一种产品解决了端到端所有资源效能可视化的问题,(包 含了应用性能监控,基础设施性能监控,网络监控,存储监控)将故障排除 时间缩短至数分钟。

2. 提供回溯观察模式、以时间轴形式直接回溯到故障发生时的信息,可以针对 问题点做回溯分析。

3.关注业务健康,减少业务故障时,分析、查找、部门协调时所消耗的时间, 并通根本原因分析消除了云平台运维团队和业务团队之间的不信任等问题。

4. 识别了云架构中的东西监控的盲点,提供原始数据包文件,做到有效的证据 支撑。

 

及时发现问题,找到性能瓶颈

1 前瞻式的效能故障预判,像体检一样,可以在最终用户感受到影响之前发 现并解决问题。多次及时解决了甘肃移动、厦门电信 CPU 超配/低配, 储效能下降所带来的相关业务效能下降的影响。

2 强大的数据穿透分析能力,显示了某个时段性能下降的根本原因。使用根 本原因分析,一键分清了故障的边界、自动关联虚拟资源池与应用服务的 逻辑关系,提供直关展现。

 

优化资源配置节约投资

1.根据实际资源使用情况优化云资源使用成本,发现低效率或僵尸虚机,从而

减少浪费,为科学调优提供了真实的证据支撑。

2.直观看到配置不足的主机或虚机,从而避免资源不足导致应用效能问题。

自动发现服务依赖关系全景图

1.   终端无需安装插件即可构建服务依赖关系。

2. 自动完成绘制图谱,深入分析虚机和资源以及业务之间的依赖关系,从而 可以迅速对问题进行影响性分析、故障排除。

3. 提供历史的服务映射关系与变更之后的比较,发现应用性能下降的关键组 件因素。

4. 支持跨多个云的资产梳理,服务关系梳理,迅速找到性能瓶颈、通过应用 响应时间和关联数据查看每个服务的应用性能。

1. 第一时间知道用户或租户的使用体验,避免遭到投诉或准备应急预案。 并迅速判断出影响范围及原因

2. 识别出用户应用延迟的根本原因,分析出是客户端的延迟、网络的延迟、 存储的延迟、进程的延迟、应用的延迟、还是服务器端的延迟,从复杂 的分析排查过程解脱出来。

希望我的分享能够帮助到您。



楼主最近还看过


热门招聘
相关主题

官方公众号

智造工程师