数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star!
github开源项目:
https://github.com/DTStack/flinkx
gitee开源项目:
https://gitee.com/dtstack_dev_0/flinkx
一、问题背景
一天下午,大家都在忙着各自的事情,突然小组人员都同时收到了短信提醒,以为是公司发奖金了,很是开心,咋一看“某某客户服务器cpu使用率100%,请及时处理!”原来是告警短信,同时看到钉钉群里发出了大量的告警信息……
二、故障回顾
告警提示”CPU使用率到达98%” ,打开阿里云控制台,通过云监控发现在下午15:06-16:46左右,云上机器某四台集群服务器cpu使用率波动较大(先降后升),负载过高, *** 流量达到一定峰值就出现下降趋势,TCP连接数先是出现下降趋势,后面出现上升状态。现象如下图:
CPU先降后升使用率情况:使用率接近100%
系统平均负载先升后降情况:load超过40
*** 流入流量: *** 带宽流入流出先降后升
TCP 连接数情况:先升后降
三、问题排查过程
1) nginx 日志排查
查看nginx15:06-16:46时间段的日志发现请求订单接口响应时间较长,超过30s。如下图:
2) 查看fpm-php日志
查看fpm-php日志,在15:06-16:46这个时间段中,fpm-php子进程出现大量重启,如下图:
同时,nginx错误日志中发现较多的502,504状态码,如下图:
Nginx 502 状态码:
Nginx 504 状态码:
3) 问题定位分析
a. 从fpm-php对应的日志里发现大量的fpm-php子进程重启,原因是每个子进程接受的请求数达到设定值。
b. 在大量的fpm-php子进程重启过程中,如果有大量请求进来是无法响应的,所以Nginx收到大量的502、504报错。
c. 同时在大量的fpm-php重启时会消耗大量的CPU load, PHP不接受业务请求、不转发数据,服务器流量直线下降。
4) 处理结论
经过上述分析,最终定位确认是fpm-php子进程数配置太低,同时每个子进程接受的请求数max_requests设置太小。无法应对每天的流量高峰。
四、优化建议
根据服务器的CPU/内存配置,适当增加children的数量和max_requests的请求数。如下图,设置一个比较大的值。
五、优化效果
1)增加fpm-php子进程数以及每个子进程接收的请求能减少php子进程大量重启频次;
2)可缓解业务高峰期对服务造成的压力,降低业务影响。
六、写在最后
基于互联网在线化方式,袋鼠云为客户提供云上 *** 和资源规划、应用架构规划、性能优化、监控告警、系统健康检查、业务大促护航、云上安全运营等全方位的专业运维服务,保障客户业务系统在云上稳定运行。
关键词: 服务器负载不兼容(服务器负载异常处理
相关内容
- 服务器负载不兼容 服务器负载异常处理的方法 a>
- 标普500指数大跌 美股第五次熔断意味着什么? a>
- 杜牧的“停车坐爱枫林晚”到底是何意思?“停车坐爱枫林晚”中的坐如何解释? a>
- 滑雪服上衣的要求?滑雪服怎么挑选? a>
- 日本封国最新消息 日本什么时候解除封国? a>
- 大雁塔的修建与哪位名人有关?大雁塔谁建立的? a>
- 二十万日币是多少人民币?日元和人民币如何换算? a>
- 年轻人负债率是多少比较合理?年轻负债率太高太可怕 a>
- 场景定义设计,艾瑞泽8树立“中国式豪华轿车”智能标杆 a>
- 环球微速讯:郑州:研考考生考前须进行2次核酸检测 a>
- 蜂巢能源发布龙鳞甲电池:续航800公里 a>
- 实时:国家能源局发布1-11月份全国电力工业统计数据 a>
- 当前报道:关于印发广州市加快先进制造业项目投资建设的若干政策措施的通知 a>
- 环球动态:政策解读│广州市加快先进制造业项目投资建设的若干政策措施 a>
- 聚焦高速自动驾驶,阿里仿真平台支持1500支队伍参加算法大赛 a>
- 关于制造业数字化转型应用场景数据库试运行的通知 a>
- 山东高速施工用上北斗卫星:精度达到毫米级 a>
- 环球最新:机构报告:中国快消市场呈现新格局 创新增效成为增长引擎 a>
- 世界资讯:苏州市教育局:发现还有极少学校和教师干扰学生参加中高考报名 a>
- 环球热讯:上海:考研考生必须在12月21日做1次“单人单管”核酸采样 a>