技术

故障处理流程

2025/11/29
8
0
告警处理流程
告警分类和优先级设置
告警级别:紧急、高、中、低
告警分类:系统资源(CPU、内存、磁盘)、网络、应用程序、服务状态等
优先级设置:根据业务影响、用户影响、潜在风险等阴虚进行优先级排序
告警通知机制
通知方式:邮件、短信、办公软件(企微、钉钉)、自动语音电话等。可以根据不同的告警级别进行通知渠道的设置
通知对象:根据告警类型和级别自动通知相对应的责任人和团队
告警响应时间
SLA(服务级别协议):明确各类警告的相应时间,如紧急告警须在15分钟内响应。具体级别由业务和应用负责人共同制定
值班制度:设立7×24小时的值班制度,确保任何时候都有人响应告警

SLA的计算服务不可用时间的计算方式
999三个九的服务不可用时间=	365*24*60*(1-0.999) = 52.56分钟
告警处理步骤
初步分析:值班员在收到告警后,进行初步分析,确认告警的真实性和影响范围
快速处理:对已知问题或有预案的告警,进行快速处理,尽量减小影响
升级处理:如无法在规定时间内解决,及时升级至高级工程师和相关部门
事件记录
记录信息:告警时间、类型、影响范围、处理过程、处理结果、负责人
日志管理:所有告警处理过程必须记录在案,便于日后的审计和分析
根因分析
改善措施:制定具体的改善计划,如配置优化、代码修复、硬件更换等
复盘会议:定期召开复盘会议,分析告警处置中的不足,优化流程和策略
告警处理的注意事项
1.	提高告警准确性:避免误报和漏报,定期优化监控规则和阈值设置
2.	确保团队合作:加强团队间的沟通与协作,确保信息共享和任务明确
3.	保持学习和更新:定期培训和学习最新的技术和工具,提高团队整体的技术能力
告警分级定义的标准
紧急(Critical)/ˈkrɪtɪkl/
#	对核心业务和系统产生严重影响,可能导致服务中断或数据丢失
如:
	数据库服务宕机或无法访问
	核心应用服务崩溃
	重要网络设备(如防火墙、路由器)故障
	存储设备出现物理损坏,无法进行数据读写

#	响应要求:立即响应,通常需要在10~15分钟内采取行动
高(High)
#	对业务影响造成明显影响,但不影响核心功能的使用

如:
	某个节点的CPU使用率持续超过90%
	Web服务响应时间	异常	延长
	网络带宽使用率接近饱和
	非核心服务宕机

#	响应要求:快速响应,通常需要在30分钟~1小时内采取行动
中(Medium)/ˈmiːdiəm /
#	对部分功能或用户体验产生影响,但核心业务可正常运作

如:
	某台服务器内存使用率过高,但未达危险阈值
	部分用户无法访问非关键业务功能
	系统日志出现大量错误或者告警信息
	
#	响应要求:正常响应,通常需要在2~4小时内进行处理
低(Low)
#	对系统和业务影响较小,通常为信息提示或者优化建议

如:
	磁盘剩余空间低于20%
	日志文件大小接近阈值
	服务已恢复但建议检查可能存在的隐患

#	计划响应,通常在24小时内处理或者在下个维护窗口进行处理
告警优先级的定义标准
业务影响

高优先级:对业务运行和收入有直接影响

低优先级:对业务运营影响较小,或可在短时间内自动恢复

用户影响

高优先级:影响到大量用户或者非关键用户

低优先级:仅影响到少量用户或非关键用户

系统健康

高优先级:系统关键资源(如CPU、内存、带宽)使用超过安全阈值

低优先级:系统资源使用接近阈值,但无明显性能下降

安全风险

高优先级:存在潜在的安全威胁,如入侵、数据泄露

低优先级:安全日志中的可疑活动,但无实际影响

参考来源
擎创科技
https://www.eoitek.com/