告警级别:紧急、高、中、低
告警分类:系统资源(CPU、内存、磁盘)、网络、应用程序、服务状态等
优先级设置:根据业务影响、用户影响、潜在风险等阴虚进行优先级排序
通知方式:邮件、短信、办公软件(企微、钉钉)、自动语音电话等。可以根据不同的告警级别进行通知渠道的设置
通知对象:根据告警类型和级别自动通知相对应的责任人和团队
SLA(服务级别协议):明确各类警告的相应时间,如紧急告警须在15分钟内响应。具体级别由业务和应用负责人共同制定
值班制度:设立7×24小时的值班制度,确保任何时候都有人响应告警
SLA的计算服务不可用时间的计算方式
999三个九的服务不可用时间= 365*24*60*(1-0.999) = 52.56分钟
初步分析:值班员在收到告警后,进行初步分析,确认告警的真实性和影响范围
快速处理:对已知问题或有预案的告警,进行快速处理,尽量减小影响
升级处理:如无法在规定时间内解决,及时升级至高级工程师和相关部门
记录信息:告警时间、类型、影响范围、处理过程、处理结果、负责人
日志管理:所有告警处理过程必须记录在案,便于日后的审计和分析
改善措施:制定具体的改善计划,如配置优化、代码修复、硬件更换等
复盘会议:定期召开复盘会议,分析告警处置中的不足,优化流程和策略
1. 提高告警准确性:避免误报和漏报,定期优化监控规则和阈值设置
2. 确保团队合作:加强团队间的沟通与协作,确保信息共享和任务明确
3. 保持学习和更新:定期培训和学习最新的技术和工具,提高团队整体的技术能力
# 对核心业务和系统产生严重影响,可能导致服务中断或数据丢失
如:
数据库服务宕机或无法访问
核心应用服务崩溃
重要网络设备(如防火墙、路由器)故障
存储设备出现物理损坏,无法进行数据读写
# 响应要求:立即响应,通常需要在10~15分钟内采取行动
# 对业务影响造成明显影响,但不影响核心功能的使用
如:
某个节点的CPU使用率持续超过90%
Web服务响应时间 异常 延长
网络带宽使用率接近饱和
非核心服务宕机
# 响应要求:快速响应,通常需要在30分钟~1小时内采取行动
# 对部分功能或用户体验产生影响,但核心业务可正常运作
如:
某台服务器内存使用率过高,但未达危险阈值
部分用户无法访问非关键业务功能
系统日志出现大量错误或者告警信息
# 响应要求:正常响应,通常需要在2~4小时内进行处理
# 对系统和业务影响较小,通常为信息提示或者优化建议
如:
磁盘剩余空间低于20%
日志文件大小接近阈值
服务已恢复但建议检查可能存在的隐患
# 计划响应,通常在24小时内处理或者在下个维护窗口进行处理
高优先级:对业务运行和收入有直接影响
低优先级:对业务运营影响较小,或可在短时间内自动恢复
高优先级:影响到大量用户或者非关键用户
低优先级:仅影响到少量用户或非关键用户
高优先级:系统关键资源(如CPU、内存、带宽)使用超过安全阈值
低优先级:系统资源使用接近阈值,但无明显性能下降
高优先级:存在潜在的安全威胁,如入侵、数据泄露
低优先级:安全日志中的可疑活动,但无实际影响
擎创科技
https://www.eoitek.com/