CPU使用率分析
-
监控阿里云一周后,我终于搞懂了这些实用功能
第一次真正把精力放在监控阿里云这件事上,是因为一次很普通却又很致命的线上波动。那天业务访问量并不算夸张,但接口响应时间突然拉长,用户投诉开始出现。最初团队判断是应用代码问题,排查了半天却始终没有找到关键原因。后来回过头去看云上监控数据,才发现问题并不复杂:一台核心ECS实例在短时间内CPU使用率持续飙升,磁盘I/O等待也同步增加,而报警阈值设置得过于宽松,等…
第一次真正把精力放在监控阿里云这件事上,是因为一次很普通却又很致命的线上波动。那天业务访问量并不算夸张,但接口响应时间突然拉长,用户投诉开始出现。最初团队判断是应用代码问题,排查了半天却始终没有找到关键原因。后来回过头去看云上监控数据,才发现问题并不复杂:一台核心ECS实例在短时间内CPU使用率持续飙升,磁盘I/O等待也同步增加,而报警阈值设置得过于宽松,等…