运维服务标准
1.引言
1.1 编写目的
为了更好的服务客户,保障公司运维工作的有序开展,规范运维工作和人员服务,使运维人员操作标准化,避免人为操作不当引起的重大、关键运维事故,根据CSA的要求,特制定此运维服务规范本规范是公司运维的基本依据,维护岗位人员必须严格遵照执行。
1.2适用范围
本规范所指的系统指公司承接的运维项目中涉及的范围,按合同约定包括:
1) 设备管理:对网络设备,服务器设备,操作系统,运行状况进行监控,对各种应用支持软件如数据库,中间件以及各种通用或特定服务的监控管理,如邮件系统,DNS,web等的监控和管理。
2) 数据/存储/容灾管理:对系统和业务数据进行统一存储,备份和恢复。
3) 业务监控与管理。
4) 目录内容管理:针对企业需要统一发布或者因人定制的内容的管理和对公共信息的管理。
5) 资源资产管理:管理企业中个IT系统的资源资产情况。可以是物理存在的,也可以是逻辑存在的,并能同公司财务部门进行数据交互。
6) 信息安全管理:主要依据ISO17799标准,涵盖了信息安全管理的十大控制方面,如企业安全组织方式,资产分类与控制,人员安全,物理与环境安全,通信与运营安全,访问控制,业务连续性管理等。
7)日产工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排。提供绩效考核量化依据,提供决绝问题经验与知识的积累与共享手段。
1.3行为准侧
1) 认真负责,遵循首问责任制
2) 不抱怨,不推诿,不拖拉
3) 多沟通,多思考,多请教
4) 控制陈本,倡导节约
5) 遵循规则,举止得体
6) 实事求是,诚实守信
7) 处理故障为主,定位责任为辅
8) 预防性维护为主,故障性维护为辅
1.4 服务纪律
1) 影响用户使用的事不做
2) 损害用户权益的事不做
3) 造成用户反感的事不做
4) 严格遵守我司服务水平协议进行服务
1.5 远离故障十大原则
1) 备份并验证备份有效性。
2) 凡事有备份,可回滚。
3) 运维自动化,拒绝重复劳动,运维程序化,平台化。
4) 运维白盒化,深入理解运维产品。
5) 部署容器化,生产和部署环境统一。
6) 日志报警自动化。自动获取出错信息,并自动进行更正。
7) 运维智能化。自动分析历史信息,获得运行趋势,预测未来。
8) 交接休假准备充分。
9) 日常操作确认机制,所有操作反复确认后提交。
10) 权限设置严格化,避免错误操作。
2、运维服务准则和要求
2.1 基本要求
1)遵守客户业务管理和现场管理要求
2)周期性维护工作应经客户审批同意后方可实施。
3)因故障修复,功能升级引起的系统版本升级和割接工作应经客户测试通过后方可实施。
4)未经客户同意,各维护岗人员不得私自对客户在线数据进行变更,参数调整,硬件设备调整。
5)维护人员须经业务和管理培训,明确岗位职责,通过部门考核确认后方可上岗。在客户现场以执行运维工作,遵循各项运维管理制度。
6)定期检查维护系统的安全状况,为客户提供合理的安全处理措施。
2.2 档案记录
机房或者云网络、安全设备配置,服务器详情信息,存储设备配置及软件系统的基本信息,使用信息和维护记录要明细健全。
2.3网络运维服务标准和要求
1)日常巡检。每周完成网络设备,安全设备物理和运行状态的检查,主要包括各接入单位网络链路状态;核心路由各物理接口配置及状态;接入交换机物理状态;安全设备(防火墙,数据库安全设计,流量分析,实名准入等)日常巡检;门禁系统日创巡检;链路层负载均衡器,上网行为管理,web防火墙等日志的查看。
2)设备配置修改及备份。做好交换机、路由器等设备的配置和策略信息的登记、修改或升级记录。每月将核心配置信息安全备份一次。
2.4 服务器及存储设备运维标注和要求(自动化监控)
1)日常巡检,每周完成个机房服务器、云服务器、存储设备等物理和运行状态的检测。每日对设备操作系统,应用系统或数据库进行远程巡和实时监控,每周一次现场运行状态巡检,形成相关记录。
2)软件升级,做好服务器操作系统更新、防毒软件部署升级工作。
3)根据自动化监控平台提供的日志信息和自动报警信息,自动化选择调控方案进行自动化调控。保证系统稳定性和安全性。通过容器化集技术,自动进行容灾和错误转移,保证系统可用性。
2.5 综合报表
每月需将机房/云设备、网络、软件运行情况形成综合运行分析报告。
3故障响应及解决要求
日常巡检过程发现故障,应及时上报;除现场服务外,提供7*24小时电话支持,并提供两人以上应急。
针对停电、重大网络安全、系统崩溃等重大事故,指定相应预案,并按要求进行应急演练。
服务规范故障响应,针对设备或者网络连接故障,按照不同等级,明确各应用故障的解决时间表: