运维服务实施方案(精选10篇)
1.运维服务实施方案 篇一
运维监理工作服务方案运维服务监理的定位
信息化运维工作需要继续引入第三方监督机构,针对信息化运维的全生命周期提供质量、风险以及沟通协调的监督和咨询服务,同时配合业主方开展运维服务质量考核工作,对各运维服务商的运维服务质量提供第三方的评估意见,为业主方信息化运维服务工作提供公正、客观的监督服务,确保信息化运维活动的正常开展。2 运维服务监理的目标
监理目标与运维服务目标相符。
加强信息系统的日常运维管理,通过定期巡检和健康检查,提前发现故障隐患,提升信息系统的正常运行率。
规范信息化运维活动的流程,保障信息化运维活动的正常开展,相应信息如实记录。
评审故障问题的运维解决方案,保障运维处置方式的合理性,规避运维处置过程中的风险。
旁站重大故障的处理过程,确保运维处置过程按审定通过的方案进行。
强化应急预案的编制和演练,通过定期的应急演练,模拟日常高发故障问题,利用实战演练提高运维服务商的应急处置
能力。
结合信息化运维管理工具的历史记录、运维活动的效果等因素,定期评价运维服务商的服务水平,督促运维服务商提供高水平的运维服务,并为今后选择新的运维服务商提供依据。 规范信息化运维服务文档,确保服务文档的真实性和完整性,同时为后续类似故障处理积累案例,提升故障处置效率。3 运维服务监理工作内容
3.1 运维服务体系建设监理服务
1、结合业主方的管理现状,从“制度-人员-工具”三要素的不同层面给出信息化运维管理诊断和改进建议方案。
收集业主方的信息化运维管理现状并分析,访谈对象是业主方信息主管部门工作人员和运维服务商,了解当前的运维对象、运维机制、运维流程等内容。
访谈业主方信息主管部门负责人,收集管理层对信息化运维管理诉求和愿景期望。
整理分析业主方信息主管部门的管理目标,编制信息化运维体系建设分步实施蓝图。
2、协助业主方制订运维服务管理规范,清理运维管理范围内的资产。 协助业主方评审通过体系建设分步实施蓝图,开展体系建设工作。 协助业主方编写制订信息化运维管理办法和规范。
协助业主方开展信息资产梳理工作,确定运维对象,运维目标以及落实运维责任单位。
3、协助业主方梳理运维服务流程,讨论确定运维服务响应时限(SLA)。
协助业主方梳理各运维事件的服务流程,明确流程节点和流转顺序。
组织各运维服务商讨论明确各类运维事件的运维服务响应时限(SLA)。
4、根据运维服务流程,配合业主方完成运维服务角色及工作职责的划分,并协助业主方选择合适的运维服务商。
协助业主方设定运维管理角色、运维实施人员角色和监督角色,以及上述角色的职责分工,划分工作边界。
协助业主方审定运维服务商的选取标准和招标文件,划定各运维服务商的运维服务边界,提出运维服务的工作内容和相应要求。 配合业主方开展运维服务合同的审核工作,明确各运维服务商的工作内容、服务周期、服务响应时限是否与招标文件的要求一致。
5、协助业主方引入运维管理工具,对运维服务活动的全生命周期实现流程化、可视化、可追溯化管理。
协助业主方整理运维管理工具的建设需求,明确运维管理工具的建设目标。
配合业主方开展运维管理工具的对比选型工作,确定运维管理工具的功能要求、性能要求以及安全性要求。
6、协助业主方持续优化运维服务体系,提升运维服务管理水平。 配合业主方定期评估运维服务体系的使用情况,分析运维服务体
系的运行效果。
针对业主方运维工作的变化,给出运维服务体系优化建议。
3.2 日常运维管理服务
1、配合业主方梳理日常运维工作服务内容,确定日常运维工作服务目录。
依据业主方的运维管理要求,针对不同的信息资产梳理出日常运维工作服务内容。
按照梳理完成日常运维工作内容,明确各运维服务商的日常运维服务目录。
2、协助业主方完成日常运维工作的工作边界的划分,落实日常运维工作责任人。
针对各运维服务商的日常运维工作目录划定各自的工作边界。 针对每项日常运维服务工作要求,落实相应服务工作的责任人员,制定相应的日常运维工作检查机制。
3、审核日常运维工作方案,确保日常运维方案的合理性和可执行性。 审核各运维服务商提交的日常运维工作方案,确保日常运维工作内容覆盖完整,实施方式合理。
4、组织开展日常运维服务工作,核实日常运维服务效果。
组织各运维服务商按约定时间开展日常运维服务工作,对于关键日常运维工作,如数据备份,关键核心设备巡检要实施监督。 督促各运维服务商实时记录日常运维服务,核实日常运维效果,审核日常运维实施报告。
5、配合业主方开展运维配置基线管理,实现运维配置的可视化、流程化管理。
配合业主方引入运维配置基线管理机制,组织各运维服务商完成初始基线的整理。
运维基线发生变更前,各运维服务商要向业主方和监理提出申请,审核后才能实施
当运维基线发生变更后,运维服务商要及时申报变更结果,监理方配合业主方完成配置基线的变更和记录。
6、协助业主方组织编写应急预案,定期组织开展应急演练。 协助业主方制订年度应急演练计划。
组织各运维服务商编写应急演练方案,并进行可行性和风险审核。 定期组织开展应急演练,结束后进行演练总结上报业主方。
3.3 故障恢复管理服务
1、协助业主方组织开展故障定位分析讨论会。
在信息系统故障发生后,及时配合业主方召开故障分析讨论会。 故障问题定位后,落实故障处理责任单位和配合实施单位。 配合业主方审核现场材料、设备损失情况。
2、配合业主方评审故障处置方案,重点关注故障处理方案的风险预案。
审核故障处理单位提出的处置方案,重点审核处置方案的过程合理性和配合内容和工作边界是否明确。
审核故障处置方案中的风险预案是否满足要求,处理过程中的影
响范围是否界定清楚。
3、配合业主方组织召开故障处置协调会,调度部署故障处置工作。 组织召开协调会议,确定参与故障处理的单位、工作内容以及相应工作完成检查方法和工作完工标准。
协调业主方提前发出故障处置影响通知。
4、开展重大故障处置现场监管服务,保障故障处置效果。
对于重大故障的处理,监理方要实时全程监督,督促运维人员按照处置方案操作。
对于处置过程中的突发事件进行评估分析,确定故障处置不会造成二次损伤和影响。
5、协助业主方组织人员核实故障处置结果。
通过相应的技术措施,核实故障处置效果。
配合业主方审核补损材料、设备的数量、参数等。
协调其他运维服务商开展验证测试工作,检验故障处置的效果。
6、组织开展故障处置分析总结,丰富故障案例库,为后续故障处置积累经验。
组织故障处理单位进行故障处理总结,分析故障原因,给出避免故障再次出现的建议。
针对类似故障,形成故障处理案例库,为后续故障处理积累经验。
3.4 运维服务质量考核监理服务
1、配合业主方制订运维服务质量考核办法。
依据业主方的运维管理要求,明确运维服务质量考核角色、职责
分工以及流程等内容。
协助业主方编制运维服务质量考核办法,确定考核周期。
2、协助业主方针对不同的运维项确定质量考核目标,形成KPI考核指标表。
与业主方讨论确定运维项的质量考核目标,明确质量考核指标项及其权重比例。
讨论明确质量考核指标的考核方法,形成完整的KPI考核表。 与各运维服务商讨论确定最终的运维服务质量KPI考核表。
3、配合业主方定期开展运维服务质量考核,编写运维服务质量考核报告。
按照确定的运维服务质量考核表,定期开展运维服务商的质量考核。
依据考核结果编写运维服务质量考核报告。
4、组织分析运维服务质量报告,帮助运维服务商提升运维服务质量。 组织运维服务商讨论运维服务质量考核结果,提出运维服务商存在的问题。
督促运维服务商进行整改。
5、配合业主方开展运维服务商管理,包括运维人员管理,运维服务费用支付管理等。
开展运维服务人员的能力分析评估工作,提出运维服务人员配置建议。
开展运维服务费用支付前置审核工作,保证付款达到要求。
2.运维服务实施方案 篇二
1 传统运维报告内容
传统的I T运维报告主要从基础设施状况、性能状况、信息安全状况、容量状况和业务连续性状况这5个方面进行分析。
I T基础设施包括系统软件平台和硬件基础设平台。系统软件平台主要包括操作系统、数据库、中间件;硬件基础设平台主要包括网络通讯平台和服务器系统平台以及存储系统平台。
性能状况主要是针对的业务系统, 通过选取具有代表性的功能模块, 进行性能评测, 得出当前系统的性能状况。在模块选取时一般选择系统日常运行中使用频率高的功能模块、容易产生相对大并发量的功能模块、涉及到的大数据量表操作的功能模块等。
信息安全状况涉及的技术与业务层面很广, 一般包括物理安全, 网络安全、操作系统安全、数据库安全、应用系统安全和安全策略等。
容量状况是通过定期地测量容量, 防止信息系统出现遇到带宽和存储能力不足的问题。一般包括网络带宽负载状况、存储的容量状况、主机系统负载情况和业务系统所能承载的吞吐量等。
业务连续性状况是指一个数据中心类应用为了维持其生存, 一旦发生突发事件或灾难后, 在其所规定的时间内必须恢复关键业务功能的强制性要求, 这就需要预先发现可能会影响企业关键业务能力和过程的所有事件, 采取相应的预防和处理策略, 以保证企业在事件发生时业务不被中断。这部分主要考虑容灾恢复技术, 具体包括数据容灾和应用容灾。
传统较为常见的运维报告内容有:
(1) 固定资产报告。
这包括了企业的I T设施的报告。例如企业服务器的数量, 新增和淘汰的资产, 发生变化的资产等。
(2) 软件运作报告。
这包括了企业的生产系统, I T通用系统的运作情况。例如本月操作系统、防病毒软件补丁更新情况, 具体涉及的服务器、P C数量;应用系统的使用情况, 是否发生错误, 错误处理时间、处理结果等。
(3) 网络行为报告。
这包括了网络行为的一些监控, 例如某个网站的访问率最高, 某个部门最喜欢运行某些软件, 网络流量占用高的员工等。
(4) 故障维修报告。
这包括运维人员工作内容, 例如每月处理了多少故障事件, 具体处理时间, 处理结果等。
2 围绕着ITIL的服务报告
ITIL中服务报告是IT部门与客户之间交流的书面工具, 可以分为定期和不定期两种形式。除了传统服务报告中提到的, 定期的服务报告还包括如每月的服务级别分析报告, 反映了服务质量的客观指标, 比如服务可用率、网络流量、突发事件数量、响应时间, 可作为服务费用分配的基础。不定期的服务报告往往由违反服务级别突发事件引起, 可以是对突发事件的分析, 也可以是对可能发生的服务级别违规事件的预警。
成功的服务报告有明确的目标客户, 由于不同客户关心的内容是不同的, 所要求的服务报告周期也不同, 所以应根据客户的需要定制报告。比如:业务操作人员关心运营中的问题、业务的进展, 而管理层更关心业务所面临的威胁、业务趋势的变化等。
有效的报告体系可确保服务管理人员信心十足地做好计划, 以可控的方式向客户提供满意的服务, 并以可持续发展的方式充分利用各种资源。如果没有“服务报告”来记录并衡量绩效与目标, 以及相关工作量之间的差距, 那么服务级别协议 (S L A) 对客户来说就是一纸空谈。
同时, 服务报告也是运维人员绩效考核的重要依据, I T服务报告可以详细、准确记录I T运维人员的工作量、工作效率, 以及工作评价。大大增加了管理的有效性, 提高了管理人员对运维人员评估的准确性。
3 IT运维报告注意事项
有效的运维服务报告应该具备以下特点:及时、清晰、可靠、简洁;同时, 满足报告接受者的需求。这类报告都具有很高的精确度, 因此可作为决策支持的有效工具。报告的表现形式应使接受者容易理解和吸收。在设计并产生报告之前, 需要考虑:
(1) 报告内容的完整性, 包括时间、事件、数量、相关人员、环境和总结等;
(2) 报告的时效性, 即生成报告的频率和有效期;
(3) 报告的接受者所关心的信息, 是否完整、准确;
(4) 报告中所使用的词语或算法是否易于接受者的理解。
此外, 各种网络、系统和应用等生成的原始的日志信息本身没有太大帮助, 而业务关键信息也可能淹没在大量原始数据中, 不被人发现。若想使生成的报告有效, 必须进行相应的关联分析, 生成报告的工具应该尽可能准确、智能;同时, 为了产生一个立即见效的视觉效果, 生成的报告用图表的形式表示和总结是很重要的, 如下图针对服务器的运维服务报告。
参考文献
[1]北京神舟泰岳软件股份有限公司.中国I T服务管理指导规范研究[M].北京邮电大学出版社, 2008.
[2]朱海林, 方乐, 梁晟, 等.I T服务管理、控制与流程[M].机械工业出版社, 2006.
3.IT运维走向“贴身服务” 篇三
四项保障机制
为了实现电子政务运维管理与法院业务的深度融合,更要关注以下几方面的工作:
1.着力提高信息服务能力
以电子政务平台为基础,以强大的运维技术团队为支撑,充分发挥电子政务具有表现形式多样、传播速度快、互动性强的特点,为业务部门和人员量身定制电子政务工具、展示或传播业务信息、提高业务效果和工作效率,让业务人员切身感受到应用电子政务给业务工作带来的便捷和效率的提高。
2.建立电子政务培训机制
建立电子政务培训机制,加速信息与业务融合过程的技能培训,对提高业务工作效率和效果必将产生积极的作用。通过有组织的培训和个性化的引导,提高业务人员对电子政务应用技术的理解和认识,帮助业务人员更有效地驾驭信息系统,变被动使用为主动应用,对促进信息与业务融合具有重要的意义。
3.构建电子政务考核体系
建立电子政务绩效考核管理机制,通过行政管理手段为电子政务与业务融合提供必要的机制保障。考核电子政务信息数据录入不真实、不准确的问题,促进数据采集的真实性和实效性;考核电子政务网络信息安全,提高和加强信息安全意识。
4.形成螺旋上升发展态势
通过电子政务工作人员贴身服务机制,运维工程师与业务人员密切接触,深入了解业务实际工作流程,并将其整理转化为新的业务需求,为下一阶段的规模性开发建设积累经验,形成螺旋式上升的电子政务发展模式。
用管理破难题
北京市高级人民法院(下简称北京高院)在电子政务运维管理、探索提供贴身服务方面虽然已经初见成效,但实践中也暴露出问题。主要有以下几个方面:
1.协调难题
作为促进业务深度融合而发展出的贴身信息服务模式可以即时处理业务部门提出的电子政务需求,但法院业务部门提出的需求在什么样的规模下通过运维外包的贴身化信息服务模式予以满足?什么规模下作为独立项目开发申报?如果都通过贴身化的信息服务模式予以满足,势必混淆运维工作与开发工作的专业性界限,同时也会给传统运维工作造成极大压力。因此,在运维外包模式下发展以贴身服务为引导的业务深度融合机制,需要制定专门的策略,科学、有效、合理地控制贴身服务项目的规模和范围。
2.经费保障难题
目前,虽然北京高院运维服务全外包模式得到推广,成为我国电子政务运行最佳实践,但财政批准的运维经费,仍然是以一般运维工作结合运维资产为基础的核算方法。虽然在运维项目招标中通过“交办工作”的费用项目进行核算,但其费用额度和比例是尝试性的、是不高的,无法真正满足深度融合需要的支出。随着电子政务服务能力和水平的提升,即时性、阶段性的需求也必然越来越多,需要提供的贴身服务也会越来越多,投入的非一般性运维工作成本也会不断增加。在财政未设置该类别费用科目的前提下,仅凭借“交办工作”中有限的运维资金,很难使贴身服务工作得到充分满足。如果资金得不到保障,一方面可能造成业务部门提出的即时性需求难以满足,业务深度融合的效果和受惠面必然大打折扣;另一方面有限的资金也可能造成运维人员投入的不足和提供服务质量的下降,从而影响了运维工作与业务深度融合的实效。因此,要通过运维服务全外包模式,实现电子政务运维与业务的深度融合,需要财政部门给予充分的理解和支持。
3.人员配置难题
在实践中,业务部门提出的即时性需求的种类很多,需要提供电子政务服务的性质也不尽相同,如果全部通过驻场运维队伍解决,需要配置的专业种类和人员级别也很多。而根据运维管理的通常规范,我们要求运维服务机构提供的工程师是针对一般运维工作的,职能相对单一,有限的经费难以做出不同级别和专业的多名人员的配置方案。如果单纯依靠驻场运维机构解决全部业务即时性需求也会存在相当困难。灵活多样的运维人员配置方案,是运维与业务融合策略重点考虑的问题。
北京高院在运维实践中虽然遇到了不少困难,但已经取得的成果让我们逐渐意识到,以创新电子政务管理工作来对应法院业务工作的日常变化,也许正是解开“深度融合”难题的钥匙。这一关键难题的破解,不仅为运维工作开创了新的领域,也将为电子政务发展探索出一条可持续发展的新路。
链接
北京高院IT“贴身服务”显成效
面对越来越多的即时性业务需求,两年前,北京高院在电子政务运维项目招标时,就尝试性地将贴身服务工作机制以“交办任务”的方式纳入运维工作任务范围,虽然每年仅规定了250人日工作量,用于完成“交办任务”工作项目,但收到了良好的效果。
两年来,贴身服务机制共完成了22 个业务部门提出的“交办任务”169项。其中,针对已有系统的小型升级改造任务60余项,占36%;配合各类会议资料,完成电子政务工作任务40余项,占25%;配合临时性、阶段性工作完成的小型开发任务20余项,占12%;配合法院完成新业务的小型开发任务10余项,占6%。
4.运维人员标准化服务 篇四
1、着装礼仪 上门服务应该穿着具有标识天域文化传媒的统一服装,佩戴统一的服务工号牌,工号牌的佩戴应佩戴于胸前,携带统一的工具包(工具配备齐全),仪容仪表整齐。上门服务人员应仪容整洁、大方,保持良 好的个人卫生习惯。
2、收到客服报单后,立即与用户预约时间,您好,我是新疆天域文化传媒头屯河分局运维人员XXX,请问你家电视或宽带有什么故障问题吗?(根据客服报单内容)提问。并和用户预约号时间。如已和别的用户已预约了,无法现在就用户家里处理的话,并告知用户。“我以XX点与另外个用户预约号时间了,请问我XX点去你家可以吗?”并做好用户预约时间表,避免忘记。
3、进出小区及敲门礼仪 进出小区或单位时,要遵守门卫制度,主动出示有关证件,车辆停放应注意小区或单位停车规定,听从保安指挥。上门服务时敲门要轻而有间断,并以每次三下为度,按电铃要有间隔,不要长按铃。
4、入室内前请问用户需要换鞋吗?(如果客户有拖鞋,更换客户的拖鞋;如果客户没有拖鞋戴上自带的一次性鞋套,一般情况自己主动穿上一次性鞋套。)如遇下雨天,应将雨具放在室外。用户开门后,应主动自我介绍并出示工作证件,说明上门原因及主要的服务内容。“你好,我是头屯河分局XXX运维人员,前面我已和你预约了,处理你家XXXXX故障,这是我的工作证。”同时给用户看看。
5、检修故障前,要和用户沟通,了解用户故障类型,如“请问你家电视是什么问题?能否给我描述下吗?”或“你家宽带或固话有说没问题,能否给我描述下吗?”耐心倾听用户意见和建议,认真解答用户的提问,不得顶撞、讽刺、挖苦用户,禁止与用户争吵,得理让人。
6、与用户对话时,要保持适当距离,正视对方,称呼合适,态度和蔼,有问必答,不准训斥、责备用户。在用户处站立时,不背靠它物,不叉腰、不抱胸,坐时不靠躺,行走时脚步稳,不应有不文明行为举止。
7、室内施工时,工具、设备要轻拿轻放,并在下 面铺垫报纸或塑料布,严禁擅自使用用户的工 具或要求用户自己安装。如施工需要搬动用户室内物品时,必须征得用 户同意,并做到轻拿轻放。在施工现场不与人进行打闹、嬉戏,不随便与 用户开玩笑;不在用户家中抽烟,不嚼口香糖; 严禁酒后上岗。
8、工作出现差错或欠周到时,应主动向用户致歉,并立 即予以纠正。若在施工过程中发生损坏他人财产的情况,应耐心做 好与用户的沟通工作,并向上级汇报协商解决赔偿事宜。
9、施工完毕后应检查线路,数据等没有问题后,主动清理现场,打扫卫生,并与用户友好道别。“谢谢您配合,如有需要,您可以直接拨打 6363111号(或直接联系您的客户经理),再 见!”
在施工过程中,如遇到安装设备,走线等问题时。
1、与客户确认设备安装位置,请问需要安装在什么位置?(必须与客户确定具体的房间等信息)。
2、询问客户设备放置的位置,设备放在哪个位置,麻烦您带我过去看看。
3、您好,线路必须从室外(进线处)引进室内(电脑处),请问室内(进线处)到室外有没有综合布线可以利用,如果是钉线可能会影响美观。或 您好,根据设备安装的位置,需要从客厅放一条线路进来,您觉得线路路由如何走比较合适?
4、当发现用户要求安装的位置不适当时:、当发现用户要求安装的位置不适当时: “对不起,这个地方太潮湿(或不安全、或容易发生故障、或影响有线、宽带、通话质量),能否换 个地方?”
5、当需要用户帮忙时 “对不起,麻烦能否请您帮忙„„,可以吗?”(请客户配合操作时,如电脑密码或遥控器等其他确认)。你好,这(如电脑桌、电视柜等)可不可以移一下?(需移动客户设备、家具等物件时)。您好,能用一下您的××吗?(使用客户 工具、仪表和其他设备时)。
6、当遇到特殊情况当天不能装通时: “对不起,由于XX原因,您的电路(宽带)暂时不能装通,我X日再来。”
7、请客户试用:、请客户试用: “您好,您的电路(宽带)已经通了,请 试用一下,看有没有什么问题。”
8、当用户对布线或电话机、设备摆放位置重新提出要求时:(在可能的情况下)“好的,我再按您的要求施工”(在违反规定的情况下)“不行的,这样会违 反„„规定,对不起,请见谅!”
9、当遇到用户请吃饭或送礼时:当遇到用户请吃饭或送礼时: “对不起,公司有规定,不准吃拿用户的东西,这是我们应该做的。”
针对客户提出的非施工、维护有关的敏感性问题
故障原因对外统一规范用语
1、现场交流: 您好,现在我给您简单介绍故障的处理情况,该故障是由于局端原因/第三方XX原因/客户端XX原因导致业务出现故障,经过我们运维人员或第三方XXX处理,现业务已经恢复。
2、当用户业务不能使用,我方正在查找原因时,面对客户对故障原因的询问应使用“我们正在检查,确定原因后再回复给您 ”。
3、当用户业务不能使用,且已确认是由我方故障造成,天域文化传媒方正在处理时,面对客户对故障原因的询问应使用“我们正在检查,我们将尽快修复。”。
4、当用户业务不能使用,且已确认是由我方故障造成,天域文化传媒方已处理完毕时,面对客户对故障原因的询问应使用“对不起,由于我方原因,使您的业务无法正常使用,我们深表歉意,我们正在对故障原因进行分析,我们稍后联系(将通过客户经理)因进行分析,我们稍后(将通过客户经理)向你解 释。”。
5、当已确认是由用户方原因造成用户业务不能使用时,面对客户 对故障原因的询问应使用“您好,从您反映的情况来看并结合我们的排查判断,本次故障应该是***(用户方原因、如改线、路由器等)引起的。请您先检查一下(按照如下方式进行操作),好吗? ”。
6、当已确认是由第三方(如物业公司,如公用电停电)原因造成用户业务不能使用,且第三方正在进行故障处理时,面对客户对故障原因的询问应使用“对不起,根据处理的操作和我们排查的情况判断,故障是××(公用电停电)引起,我们正在协助公司修复故障,很快就能修复。”。
7、维护人员遇到现场无法解决的问题时,应使用“您反映的问题(现象)我已经记录下来,我们会组织技术员进行进一步处理,并把故障及时向您反馈处理情况。谢谢你使用天域文化传媒的业务。”。
8、无法/不适合当场回答客户问题时,应使用“您好,这个问题我们还需要进一步分析,将很快向您(贵公司)反馈。” 客户抱怨有故障时,应使用“对不起 非常抱歉,我们正在全力处理,故障将很快修复 ”。客户抱怨故障重复发生时,应使用“非常抱歉,我们正在处理,会及时向您反馈故障处理情况。客户抱怨故障处理时限长时,应分别使用“非常抱歉,给您们的工作带来了不便,我们会在xx时完成,请您谅解” 和“对不起,由于故障原因比较复杂,需要较长时间,造 成目前处理还在继续,我们会尽快完成”。
5.运维服务应该具备的知识和能力 篇五
1、必须掌握的知识:
1)熟悉网络通信原理,了解各种通信介质的特性(例如光纤的分类、光纤接头的种类、各种光纤的传输距离以及日常施工和维护过程中需要的注意事项;网线的种类、各类网线的制作、各种网线的的传输距离及日常施工和维护过程中需要的注意事项等)。
2)熟悉操作系统中的DOS命令(比如测试网络通断的ping命令以及其参数;路由跟踪的tracert命令以及其参数等常用的DOS命令)。
3)了解操作系统的基本操作(比如windowsXP、windows7、windows8操作系统的安装,常用服务的搭建与维护)常用办公软件的使用(比如office办公软件)。
4)深入学习网络知识(将思科CCNA教程学习完毕,并必须熟练掌握),因为思科的CCNA是网络方面的入门教程而且是最全面的教程,作为IT运维维护人员必修的课程,即使不使用思科的设备,但是这门课程很重要。
2、需要深入掌握的知识:
1)熟悉linux操作系统(熟悉Linux操作系统的品牌,掌握RedHat的安装以及常用服务的搭建以及维护)。
2)了解各高校校园网的建设情况,了解高校的网络架构。3)熟悉各主流网络厂商(华为、思科、H3C、锐捷、迈普、天融信、网康、深信服等)的产品以及优缺点,熟悉各主流服务器厂商(DELL、惠普、华为等)的产品以及优缺点、熟悉主流存储及备份的厂商(EMC、爱数等)的产品以及优缺点。
3、应该具备的能力:
1)要有很强的团队合作意识。
2)有较强的领悟力和理解力,思维开阔,敏捷,能够很快适应不同的环境。
6.运维服务实施方案 篇六
一、前言
根据上级公司推进“三集五大”体系建设,整合优化公司业务管理体系,加强核心资源管控,实现集约化、扁平化、专业化管理,推动公司向现代企业转型,打造具有一流创新能力、发展能力、服务能力、国际竞争力的现代企业的根本要求,根据**县供电公司变电运维检修部运维班现状(**县供电公司现有变电站20座,其中35kV变电站15座,110kV变电站4座,分布在城区及全县11个乡镇。现有变电运行人员121名,其中男42人,女79人。经过近几年的技术、设备改造,现在已有*****5座变电站具备了无人值班基本条件)。特制定本工作实施方案。
二、组织形式
1.具备无人值班变电站集中监控中心设在调控中心(或某个枢纽变电站监控室),由当值调度员(或值班员)负责监控。
2.运维班下设两个巡操队,设队长、安全员、正值班员、副值班员岗位;分2班,每班不少于5人,值班员轮流值班,正常时上长白班,每班正值班员不少于2人。110kV***变电站为巡操一队驻地,辐射*****五个35kV变电站;110kV***变电站为巡操二队驻地,辐射110kV***十个35kV变电站。
3.操作队、受运维检修部的领导和管理,在业务上接受当值调度员的统一指挥。
4.不具备无人值班变电站必须有人值守。
三、职能与分工
1.无人值班变电站由当值调度(或值班员)负责集中监控。有人值守变电站由值守人员管理。
2.运维班技术员对所有变电站的安全生产、设备管理、运行操作及维护、培训等工作实行专业管理。
3.巡操队负责值班变电站的日常运行维护、设备巡视、倒闸操作、事故处理及文明生产管理工作。
4.运维班长负责协调自动化及通讯专责,负责保证自动化和通信设备的安全、可靠运行。
四、责任与权限
1.当值调度(或值班员)责任与权限
(1)执行上级颁发的法规、规程、制度和条例,确保各无人值班变电站的安全运行。
(2)负责各变电站实时画面的监视,主要是开关位置、负荷变化、电压棒图、保护事项、打印信息等运行工况的监视,每2小时巡检一遍;对故障录波器的打印信息进行及时分析;
(3)负责无人值班变电站的遥控(遥调)操作;
(4)负责无人值班变电站断路器正常操作次数和故障跳闸次数的统计和报送,并通知有关部门。
(5)负责无人值班变电站运行设备的报表打印,负责无人值班变电站10kV配电可靠性原始数据的统计上报,积累技术资料。
(6)负责无人值班变电站无功电压管理、有载调压次数统计,统计无功补偿设备投入率。
(7)负责将无人值班变电站的有关设备缺陷及时通知检修单位处理。
(8)负责无人值班变电站事故、异常的远方控制与处理。
2.有人值班变电站上述工作由各自巡操队完成。
五、管理内容与要求
1.值班管理
(1)巡操队分2个班,人员24小时轮流值班,主要负责110kV及以下站设备巡视、操作和事故处理及文明生产工作;负责本队记录资料管理,每日执行公司作息时间,及时安全的完成操作和事故处理。
(2)必须保证通讯工具随时处于良好状态,如发生事故、障碍必须及时向有关领导汇报。不得随意关闭通讯工具,不得随意将工作用车挪作他用。
(3)如发生较大事故或严重异常情况,应立即通知队长并汇报调度中心领导。
2.交接班
(1)每日交接班,交接双方人员应全部在场,认真了解所管辖设备的运行方式、运行状况、设备缺陷、工作情况等。
(2)接班人员应在每日交接班前15分钟进入值班室,听取交班人员的交待。
(3)交接班实行模拟系统与值班记录簿交接,接班人员如发现现场情况与交班者交待不符时,弄清楚后再交接,逐个签名,需协调时应立即汇报队长。
(4)事故处理和倒闸操作时不得交接班。
(5)交接班时如发生事故,应立即停止交接班,由交班人员处理,接班人员在交班负责人的指挥下协助处理。
(6)若操作队交接双方人员都在工作现场时,可在回队后交接班。
(7)交班者应交待下列内容: a运行方式。
b保护和自动装置的运行和变更情况; c设备异常及事故处理情况,缺陷消除情况; d倒闸操作及操作预告;
e设备检修试验情况,安全措施布置,装设接地线号及地点等; f收到工作票份数及开工份数;
g工具、仪表、钥匙的使用和变更情况;
h上级命令、通知、要求及运行有关的其它情况; i本班尚未完成需下一班应做的工作及注意事项。
(8)接班者应检查下列内容: a核对模拟图与交待相符。
b检查值班记录及“两票”与交待相符。c检查通讯工具是否处于良好状态。
d检查值班室等处卫生,各类物品是否完整无损。e有关记录填写齐全正确。f生活用具齐全整洁。g钥匙齐全,存放整齐。
h工器具、仪表齐全,存放整齐。i交接班人员分别签字后交接班结束。
3.设备巡视
(1)按设备巡视卡巡视设备,并认真记录。
(2)设备巡视分为正常巡视、夜巡、特巡,具体规定如下:
操作队正常巡视无人值班变电站每站每周1次,特殊情况经主任批准方可顺延一天;夜巡无人值班变电站每站每月1次,根据天气、负荷情况及设备健康状况和其它特殊要求进行特巡。
(3)巡视人员应将巡视时间、站名、巡视内容及发现问题记入有关记录。
巡视中如有紧急需要,巡视人员应立即停止巡视,参加处理紧急情况,处理完后,再继续巡视。
进入SF6配电室巡视时,必须先开抽风机通风15分钟,将各侧通道打开;不得单人进入巡视;巡视结束应将全部门、窗及应关闭的电源关闭好。
有关领导、技术人员定期进行监督性巡视,周期为:每季一次。
4.设备定期试验轮换
(1)中央信号、交直流绝缘监察、电压换相、主变温度、蓄电池组等每次巡视时切换试验。
(2)以下工作在正值监护下进行:
(3)线路重合闸装置等每月试验一次,重合闸试验前应征得值班调度员同意。
(4)照明、绝缘工具、登高工具、消防设施每季末检查一次。
(5)根据调度令对长期备用变压器每季末试验一次。
(6)防误闭锁装置结合停电每年检查一次。
(7)事故照明、站用电源每季切换一次。
(8)其它设备应按照相应规程规定定期进行试验轮换。
(9)进行定期试验、切换工作必须按《安规》要求填写操作票,并有专人监护。
5、倒闸操作
(1)变电站的倒闸操作按值班调度员命令进行。一般操作正值监护,复杂操作由队长监护,运维班长、班副或专责、技术员按到位标准到场监督。
(2)计划内的倒闸操作由队长根据人员情况安排进行。
(3)临时操作由队长安排操作队人员进行,操作任务较多、人员不足时,应召集其他人员协助。
(4)操作票应严格填写和审核手续,字迹应工整,不得随便涂改。
(5)各站安全工器具应存放在该站固定地点,实行定置管理。
(6)正常情况下,无人值班变电站所有运行或备用状态的开关,必须置于“远控”位置,由当值调度员进行“远控”操作。
(7)设备停电检修过程中,调度员需做“远控”试验时,应通知操作队人员,将变电站“就地/远控”开关切换至“远控”位置,试验完后立即恢复。
(8)变电站设备停电检修时,由巡操队人员将需停电的设备置于“就地操作”位置,按调度命令进行就地操作。设备检修结束送电后,操作人员应将“就地/远控”开关切至“远控”位置。
(9)无人值班站事故处理时,巡操队值班员应按调度命令将“就地/远控”开关切至“就地”位置。
(10)倒闸操作的其它规定和管理仍按《电业安全工作规程》及有关规定执行。
6.工作票
(1)变电站第一种工作票:值班调度员应于工作前一天16:00前向巡操队值班员下达操作预告,检修单位提前一天下班前将工作票送达巡操队值班室,值班员审核无误后收票,工作当天检修单位可直接到工作地点办理工作许可手续。
(2)变电站第二种工作票仍按原规定办理。
(3)变电站检修设备在检修过程中的传动试验由工作负责人全面负责,但做整组传动试验时,巡操队正值必须到现场参与。
(4)连续停电的检修工作,每日收工及次日复工,检修工作负责人可电话通知巡操队值班员,并记入运行值班记录簿。
(5)工作负责人变动、工作票延期,工作负责人应提前2小时通知巡操队值班员,在现场办理相应手续。
(6)工作终结,检修工作当日完毕,工作负责人在工作结束前2小时通知巡操队正值验收,多日工作提前一天通知,验收后履行终结手续。
(7)工作票的其他规定和工作票的管理,仍按《电业安全工作规程》及湖北省电力公司相关票证实施细则有关规定执行。
7.设备缺陷管理
(1)当值调度(集控值班员)、巡操队发现设备缺陷,无论大小,消除与否,应及时记录在本班组值班运行记录簿和设备缺陷记录簿内,并作为设备评级的依据。
(2)巡操队值班员发现紧急缺陷后,应立即向值班调度员和调控中心、运维检修部领导汇报,并详细说明缺陷内容、现场状况,提出消缺的初步意见;重大缺陷应于当日向调度汇报。
(3)所有缺陷均应由值班、监控人员录入相关管理系统,缺陷消除后应及时注销。
(4)应将设备存在缺陷的统计分析作为班组安全活动的一项重要内容。通过分析,确定缺陷的分类,制定具体的督促消缺措施。
(5)设备缺陷管理执行湖北省电力公司《设备缺陷管理实施细则》。
8.运行分析管理
(1)当值调度(集控值班员)、巡操队的运行分析管理按照有关规定,建立运行分析记录,运行分析应包括综合分析和专题分析。
(2)综合分析每月一次,分析所辖变电站安全经济运行情况和管理工作,找出存在的问题,提出解决措施。其主要方面如下: a系统结线方式、运行方式的合理性; b设备完好率; c实时信息正确性;
d所辖站不接地系统出线的电容电流变化的情况、消弧线圈的接头位置选择是否合适; e正常谐振电压情况; f保护和开关的正确动作率; g供电质量情况;
h所辖站现场运行规程的执行情况和修改补充;
i所辖站注油设备的油位变化、电池劣化、载流元件的过载能力、变压器等主要设备的运行规律、各种资料记录的分析和应用、避雷装置和接地装置的运行情况及防雷保护存在的问题、治安保卫等; j“两票”合格率,设备事故、障碍、异常和重大缺陷。
k培训情况、记录簿的填写和资料、图纸的整理以及文明生产情况等。
(3)专题分析:不定期进行,针对上述的某些问题,进行专门深入的分析研究,分析项目有:
a设备运行情况分析:通过设备的巡视检查,充油设备的油面变化;充压设备的压力变化情况,泄漏电流检测仪指示情况,加压设备的异音、异味,转动设备的振动情况和主设备运行中的异常; b缺陷分析:对设备健康状况进行分析,审核缺陷分类,研究设备缺陷产生的原因和发展情况,总结判断缺陷方法和经验;制定缺陷的跟踪措施;
c运行管理中存在的问题;
d针对典型事故,结合本队、本站情况,对照检查,找出漏洞; e季节性预防措施和反事故措施。
9.运行维护管理
(1)操作队负责变电站正常运行维护管理。队长应根据具体情况,每月制定运行维护工作计划;操作队人员按计划进行运行维护工作。
(2)应根据有关的规定,储备适量的备品备件、消耗材料,并进行定期检查清点。
(3)根据工作需要,各站应储足各种合格的安全工器具、仪表、防护用具,并定期检查。
(4)变电站内的易燃、易爆物品、有毒物品、酸碱性物品等应放置专门场所,进行登记,定期检查。
(5)变电站给、排水系统、通风、空调装置、防汛器材、消防设备应定期检查,并督促有关部门使其处于完好可用状态。
(6)定期维护要做好记录,定期维护项目不准替代巡视项目。
10.设备验收管理
(1)凡新建、扩建、大小修、预试的一、二次变电设备验收,均按部颁及有关规程规定和技术标准、反事故措施要求进行。
(2)运行人员必须熟悉有关设备投运或大修质量标准和验收项目,按规定逐条检查,核对图纸。无法检查的项目,要询问安装或检修试验负责人。在验收设备的同时,配合值班调度员核对四遥功能的实现情况,功能不完备,不能投入运行。
(3)坚持质量不合格、有应修未修项不验收,不投入运行。若必须投运,应详细记录,并要求有关人员签字,做出处理的保证。
(4)验收前,有关部门必须按规定提供有关资料,重要的技术资料如制造厂说明书、检修、调试记录等,不全不验收。
11.安全管理
安全管理的有关内容严格执行国网、省、州公司和县公司的有关规定和反事故措施。
12、技术管理
(1)巡操队值班室应具备的图纸资料: a一次系统接线图 b制造厂使用说明书 c设备台帐
(2)变电站应具备的图纸、资料: a继电保护及自动装置原理及展开图 b站用电系统接线图 c正常、事故照明接线图
d接地装置布置图 c直流系统图 e一次系统图 f全站的平、断面图 e消防系统图 g直击雷保护范围图
(3)巡操队应具备的图表 a系统模拟图(或微机接线图)b有权签发工作票人员名单 c有权单独巡视高压设备人员名单 d有权担任工作负责人名单 e有权发布调度操作命令人员名单 f工作许可人名单
(4)无人值班变电站应具备的图表 a系统模拟图
b有权签发工作票人员名单 c有权担任工作负责人名单 d有权发布调度操作命令人员名单 e二次回路保险定值表 f设备定期巡视路线图
(5)操作队应具备的规程 a电力工业技术管理法规汇编
b电业安全工作规程(发电厂和变电所电气部分)c电业安全工作规程(电力线路部分)d电业生产事故调查规程 e电力电缆运行规程
f变压器运行规程
g电气事故处理规程
h继电保护及安全自动装置运行管理规程 i110-220kV电网继电保护与自动装置运行条例 j电气设备预防性试验规程
k变压器油中溶解气体分析和判断导则 l继电保护和安全自动装置技术规程 m电网调度管理条例 n高压断路器运行规程
o微机继电保护装置运行管理规程 p调度规程
q各站现场运行规程
(6)巡操队应具备的记录 a值班运行工作记录 b设备缺陷记录 c安全活动运行分析记录
d事故预想记录与反事故演习记录 e操作统计记录 f培训记录 h班组建设记录 i量化责任制考核记录 J“三重”到位记录 K安全稽查记录
(7)变电站(含无人值班)应具备的记录: a钥匙使用记录
b继电保护及自动装置调试工作记录 c设备检修记录 d设备试验记录 E人员进出站登记记录
(8)要随时保持所有资料完整无缺,有编号、有目录、分类按顺序保管。
(9)操作队值班室应存放各站现场运行规程,每个变电站应存放该站现场运行规程。
13.设备管理
设备评级每季进行一次,执行县公司《设备评级管理规定》,由巡操队值班员和有关人员进行。
14.电气防误闭锁(五防)装置管理
(1)严格执行省公司有关电气防误闭锁装置的各项规定。
(2)新扩建的变电工程,防误装置要做到与主设备同时投运,对没有防误闭锁或防误闭锁不全的电气设备不能验收投运。
(3)所有运维人员必须熟悉所辖站所有“五防”装置的工作原理、正确使用方法和管理办法。
(4)防误装置的缺陷管理与主设备的缺陷管理相同。
15.文明生产管理
(1)巡操队值班室及各变电站环境要整齐、清洁,物品实行定置管理。
(2)变电站内的各种标示牌、消防设施、遮拦规范有序。
16.消防管理
(1)各变电站消防管理严格执行县公司《消防工作管理标准》。
(2)控制室、通信机房、变压器、电缆间(井)、易燃、易爆物品存放场所为重点防火部位,应有明显标志,并在指定的地方悬挂特定的牌子(内容是:防火重点部位及防火责任人)。
(3)重点防火部位或场所以及禁止明火区如需动火工作时,必须执行一级动火工作票。
(4)变电站为二级动火区,必须执行二级动火工作票。
(5)严禁将易燃、易爆、有毒、有害介质的一次仪表带入控制室。
(6)电气设备的防火措施执行电力设备典型消防规程第4、5、7、8、9条执行。
17.通讯联络管理
(1)巡操队应配备必要的通讯工具和录音装置。
(2)巡操队、调度(含州调)进行倒闸操作、事故处理、调度通知及核对操作等联系时,均应使用电话录音装置,并保证提机即能录音。
(3)为保证设备安全运行,防止微机保护误动,在变电站控制保护室等二次设备间内禁止使用移动电话。
18.事故、异常处理
(1)变电站发生事故异常时,应按有关规程正确迅速处理,及时如实地向调度汇报,正确迅速执行调度命令,正确记录时间,事故后应如实向事故调查人员提供事故的有关资料、处理经过并对正确性负责,必要时保留事故现场和损坏设备。
(2)无人值班变电站发生事故、异常,巡操队要及时到现场处理,在检修人员到现场前做好安全措施。
(3)即使一声铃响、一个光字牌亮等异常,都要记录清楚,检查明白,记好有关记录,做好分析,查找原因并汇报调度,不得遗漏。
19.计算机(移动介质)管理
(1)巡操队计算机专机专用,如因工作需要兼用必须经队长批准。
(2)实时和管理计算机严禁与互联网连接、玩游戏等与工作无关的事情,任何人员均不得拷贝其它软件。
(3)对巡操队计算机有关部件的更换及维护等必须做好相应记录。
六、检查与考核
1.安全监察人员、生产管理人员应经常深入现场,对运维人员进行安全思想教育,检查安全工作规程及各种规章制度的执行情况,发现违章违纪现象,除对有关人员批评教育外,还应按公司有关规定进行处罚。
2.运维检修部有关部门应与巡操队一起共同搞好变电站文明生产工作。
3.运维检修部对巡操队的工作进行定期全面检查或抽查,全面检查“两票”及规章制度执行情况、设备运行状况、资料管理、记录填写、培训情况、文明生产情况等,发现问题及时纠正,并按量化责任制考核。6 本办法由运维检修部负责解释。
有人值班变电站值班方式
原则上实行单人,每星期交接班一次的值班方式。
变电站的值班方式经公司批准后执行,任何人不得擅自改变。
操作队队长应按月编制值班轮值表,并报公司生产管理部门。值班轮值表不得随意改变(特殊情况除外)。
维操人员值班方式
维操值班每班必须配备足够并合格的值班人员,其中一名正值班员为值班长,负责本值内运行工作。
变电站、操作队值班期间人员配备
有人值班变电站每班实行单人值班,担负设备巡视和监视工作。
操作队每班一般情况下(操作不多时)应安排2人(一正一副)担负设备巡视和操作维护工作。操作队值班期间人员配备数量应满足倒闸操作的基本要求。值班的基本要求
变电站和操作队值班员必须符合《电业安全工作规程》及其他规程所规定的条件,经现场培训和实习,经公司考核合格后方可上岗。
值班期间,值班人员应遵守劳动纪律和值班纪律,坚守工作岗位,不得进行与运行工作无关的活动。
值班期间,当值人员应穿戴统一的值班工作服,并佩带岗位标志。
值班期间的运行人员的主要工作内容:
按调度命令进行倒闸操作和事故处理;
按规定进行设备巡视;
认真进行运行监视,记录各项数据,并分析设备运行是否正常。在任何情况下,控制室(值班室)均应有值班人员监盘。
按规定抄表:
每小时(整点)抄负荷表一次;
每天上午9点抄电度表一次;
抄表内容包括各级母线电压、、各出线回路负荷电流、有功功率、有、无功电量、主变压器上层油温、户外环境温度等。
若自动化设备可以自动记录并在数据种类、精度和记录时段上达到要求时,也需人工记录,妥善保管,长期保存。
运行人员抄表应认真、仔细,抄表时间误差规定为正负10分钟。
按规定进行维护工作。
正确填写各种记录簿。值班期间进行的各项工作均应作好记录。查阅值班人员填写的记录,班长应在查阅后签字。并组织人员定期分析。
7.IT运维监控共享服务平台系统 篇七
我们自主开发了一体化运行监控平台,其为一套体系化的IT运行集中监控与IT运维有效服务统一管理的平台框架系统。在主要的三个子系统层面:数据采集、数据分析和监控应用层面,我们根据实际情况,以业务为中心,采取了不同的解决策略。最终达到数据采集全面、准确;数据分析合理、高效;监控应用直观、简明、全面、有效。原来纷杂繁乱的运行监控系统统一到一个平台框架里,实现统一的输出和分析管理。实现由被动式维护向主动式,进而向预防式转变;维护的对象由面向网络和设备转变为面向客户和服务;管理的范围由各级网络分段管理转变为端到端的全程管理。从而把运维服务提升到一个新的层次,节省了人工耗费,提高了系统稳定性,实现了“大运维”。
IT运行监控的主要模块包括:数据中心机房、网络、服务器、数据库、中间件、存储、应用系统、弱电设备、安全设备等;可以动态、实时、准确地反馈各项运行状态参数,提供故障、性能、配置等各方面的预警、报警、自动处理及分析,通过分析评估运行的状态和质量,保障各系统的持续稳定运行,同时可以衔接IT运维服务管理模块,对问题点手动启动IT运维服务管理流程,派发工单,或者设置相应策略对预警、报警自动启动运维服务管理流程,并对日常问题的解决方式进行记录,形成知识库。
除自动处理分析外,系统还可以通过工具集中地查询服务、图形服务、报表服务自定义统计分析方案,生成统计查询、图形、报表等内容,以便及时分析统计各系统和管理对象的日常运行、维修维护、故障报警等情况。
以ITIL和ISO20000标准为指导,结合项目实施的情况,设计满足通用运维需求的事件管理、问题管理、配置管理、变更管理、知识库管理及服务报告管理等相关流程的IT运维流程设计,规范企业IT运维服务管理的日常工作规范与工作流程,有效整合企业各种运维资源,建立一套面向IT服务的运维监控管理模式,提升IT运维服务质量与服务水平。
石化盈科IT运维监控共享服务平台采用面向业务的监控管理模式,如图1所示,以业务为中心对企业的IT基础设施及应用软件和数据库等进行监控。
通过展现层、应用层、数据层、采集层和网元层五层结构,一体化的运维监控共享平台框架涵盖了基础数据管理、业务流程管理、服务请求管理以及相应的统计分析管理,如图1所示。系统在整体层面上提供了直观、可视的人机界面。界面主要显示各系统的告警信息、监控概况及各类告警,性能分析等图表,包括告警分级对比、告警网元对比、告警趋势(设备视图、事件视图)、设备连通性、监控概况(分类视图)等信息视图;以及监视功能导航,配置功能导航,报表功能导航(告警报表、事件报表)等导航模块;还有拓扑监视、网元监视及告警查询等运行监控功能模块。
通过对所有对象的统一集成管理,对完整的监控数据和报警信息进行综合分析诊断,判断故障根源,提高运维效率;系统软/硬件及模块接口的标准化、模块化,保证了系统易于扩展;各模块可根据需求独立或组合部署实施。
其中,机房监控模块对机房设备(空调、配电、UPS)和机房环境实施集中监控管理就是对各个分散的设备进行遥测、遥信、遥控;实时监视各设备的运行状态,记录和处理相关数据,及时侦测故障和告警,并通知人员处理。可实现机房电源、空调和环境的集中监控维护管理,提高供电系统的可靠性和计算机设备运行的安全性。
主要监测内容有:配电设备监控、UPS设备监控、空调设备监控、空气处理系统、环境监控系统。
例如,当机房断电时,会产生一系列的故障时间,通过智能化分析手段对告警进行过滤,可准确定位为“UPS市电供入断开”,而不会发出一系列无关告警;原始的动力数据通过分析模块,可以将机房内的能耗进行综合计算分析,得出机房的PUE指标值,为优化方案提供有力的支撑数据。
服务器、主机监控系统支持跨平台Windows主机、Linux主机、Unix (Aix)主机、Sun主机等常见系统。服务器监控指标包括CPU状态(CPU总使用率、普通用户率、特权用户率、等待队列数、进程数)、内存状态(内存总量、内存使用量/使用率、内存空闲量/空闲率)、磁盘状态(磁盘I/O速率、磁盘队列数)、主机连接状态(连通状态/PING状态)、SWAP状态、VG、PV、LV状态、关联的应用状态、关键进程状态、网卡状态、非集成板卡状态、文件系统状态、HA状态、用户管理状态、负载均衡等。
网络监控模块对网络性能进行实时分析或者连续采集,以了解网络性能现状并分析发展趋势,及时了解网络瓶颈,保持网络数据传输通畅。网络管理采集的设备性能信息包括网络设备中的CPU、内存的利用率、各个端口的流量、各个端口状态等信息,以及电源、风扇、温度传感器、电源传感器和状态传感器的运行状态等。
应用系统管理模块主要针对企业在用的业务系统的运行状态监控,包括预警、告警、性能管理等。具体包括创建业务应用监控视图、对应用系统主要页面进行拨测、监控应用主要进程、分析应用产生的日志、对应用模块间的接口进行监控、对应用存放业务文件的关键目录进行监控以及应用服务的性能管理等。
告警管理模块主要指针对上述监控管理模块中发现的问题进行统一的管理,包括:告警阈值的配置;告警信息的关联,帮助定位故障源;告警信息的确认与取消;告警信息的通知:软件消息、短信、邮件等;并可以通过接口与IT运维服务管理流程衔接,执行派发工单等操作。
监控视图管理系统提供多种不同角度的全景监控视图,直观地、综合性地、全面地反映系统管理对象的运行状态和告警。
(1)地理位置视图:从地理位置角度看所有系统管理对象。
(2)逻辑拓扑视图:各系统管理对象的逻辑链接和分布。
(3)物理拓扑视图:各系统管理对象的物理链接和分布。
(4)应用系统视图:各应用系统所使用到的其他系统管理对象的链接和分布。
(5) 3D机房机架视图:从模拟3D效果的机房鸟瞰视图及机架正视图,快速定位故障设备位置;如果机柜内的网络设备、服务器设备、应用程序等网元运行状态异常,则该区域会以突出显示方式提示。
IT运维服务管理模块基于运维服务管理体系梳理的运维服务流程,落实事件管理、问题管理、配置管理、 变更管理、知识库管理及服务报告等IT运维服务管理流程,为IT运维管理部门日常运维服务工作提供一个技术框架平台,加强对运维工作质量、 运维效率的管控,规范提升运维服务工作的标准化,降低异常操作、异常变更风险。
如图2,建立基于ITIL运维管理体系,在IT运维监控共享平台的支撑下,变传统的被动响应运维服务模式为主动预防,在建设、管理、运行、维护、改进的全系统、全生命周期,保障企业的生产系统和应用系统能够更稳定、高效地工作,创造更好的效益。
摘要:本文主要介绍了石化盈科IT运维监控共享服务平台,指出建立完善统一的信息化运维服务管理平台系统,保障信息化业务系统稳定运行,为企业提供更加坚实的信息化基础架构,建设统一的运维管理模式,已是大势所趋。
8.运维服务实施方案 篇八
【关键词】运维服务 强化管理 降费增效
【中图分类号】F710 【文献标识码】A 【文章编号】1672-5158(2013)04-0114-02
引言
2001年,中国石化股份公司为了加强核心业务的竞争力、提高企业的管理水平,提出了建设中国石化ERP系统的总体规划,2003年又进行了石化卡项目和2004年二次物流系统的推广应用,这样其销售企业主营业务从销售、配送到财务处理的整个过程都纳入到了信息化处理过程。随后又将触角伸向人力资源、OA系统、零管系统、电子帐表册、非油品、安全监控、证照管理等多个领域,这样不仅使业务流程规范、数据准确、传送及时、共享方便,而且大大减轻了一线人员的工作量。
怎样才能使各个已上线使用的系统更稳定、可靠、安全地运行,以使管理者将更多的精力投入到管理活动中,提高企业管理水平?加强对运维服务的管理,尤其是采用现代化的手段……开发运维服务管理平台,成为当务之急。
本文主要是针对加油站的运维管理服务平台所要达到的功能,提出个人的一些想法,探讨加强运维管理对各个应用系统的保障、促进作用,达到降费增效的目的。
1、引言
2001年,中国石化股份公司为了加强核心业务的竞争力、提高企业的管理水平,提出了建设中国石化ERP系统的总体规划,2003年又进行了石化卡项目和2004年二次物流系统的推广应用,这样其销售企业主营业务从销售、配送到财务处理的整个过程都纳入到了信息化处理过程。随后又将触角伸向人力资源、OA系统、零管系统、电子帐表册、非油品、安全监控、证照管理等多个领域,这样不仅使业务流程规范、数据准确、传送及时、共享方便,而且大大减轻了一线人员的工作量。
怎样才能使各个已上线使用的系统更稳定、可靠、安全地运行,以使管理者将更多的精力投入到管理活动中,提高企业管理水平?加强对运维服务的管理,尤其是采用现代化的手段……开发运维服务管理平台,成为当务之急。
本文主要是针对加油站的运维管理服务平台所要达到的功能,提出个人的一些想法,探讨加强运维管理对各个应用系统的保障、促进作用,达到降费增效的目的。
2、运维现状与系统建设意义
2.1 传统运维服务现状
按照中国石化销售公司关于“城市型公司要撤销区域管理层,真正实施一级管理”的改革总体要求,上海石油分公司在2007年进行了经营体制改革,撤消了五个零售区域,零售管理中心实行了对公司零售经营业务及加油站的集中统一管理。零售管理中心集中管理后,管理跨度一下子加大,针对加油站点多面广、经营性质多样化的特点,传统的管理模式在手段和效率上都已经不能满足扁平化、高效率、低风险的管理要求,如何解决分布式经营与集中式管理的矛盾是一直是困扰着企业管理层的难题。
运维服务管理平台开发前的运维流程:故障发生后,加油站根据服务商所提供的联系方式,报修,运维服务人员在规定响应的时间内作出响应,通过电话指导或上门服务的形式排除故障。然后当场填制故障处理单,定期开具收费发票收取费用。
由于整个过程均为手工操作,没有一个管理平台对其进行监督、管理,故经常会出现如下问题:
2.1.1 报错故障
如某加油泵上的读卡机坏了,加油工却向油机厂商去报修,结果厂商上门一看,该泵是卡机联动改选过的泵,其读卡机的故障属于亚太维护的,既耽误了油机故障的恢复,又浪费了厂商的维修力量,增加了加油站的不必要的支出。
2.1.2 分不清是什么故障
如管控电脑不能做“数据通讯”功能,加油站员工搞不清究竟是管控电脑的问题还是电信网络的问题,很容易造不同运维商之间相互推诿,耽误加油站正常的应用。
2.1.3 搞不清哪些费用该收,哪些费用不该收
由于加油站的设备购置时间有早有晚,新维修过的部件有3个月的再包修期限。哪个设备何时出保、哪个设备已出保以及有些是情况是包含在总的运维费中的,有些则要单独另收费(如雷击等造成)。除非加油站对设备作了认真仔细的登记,否则很维搞清楚付费界限。加油站只是来单签字照付,对费用的监控、审核力不从心。
2.1.4 对运维服务商的服务质量缺乏有效的监督
对于加油站的故障报修后,是否得到及时、快速的维护,加油站的故障率是在上升还是在下降,没有一个统一的机构有效地管起来,统计故障次数、运维费用等数据还是十分不容易。
3、运维服务管理系统建设目标
3.1 建设目标
建立一个为上海石油加油站提供服务的运维管理系统,在运维管理系统上实现统一的服务台、故障管理、设备管理、维修评估管理和运维统计报表。建设效果主要表现在准确记录上海加油站故障和问题,掌握配置信息和设备信息,合理评估设备维修情况,统计分析运维故障,规范上海石油运维管理活动和过程,为后续运维管理建设打下良好基础。
3.1.1 规范集成商厂商的服务,提高服务质量
运维服务管理平台主要服务于加油站石化卡系统、非油系统、零管系统等信息外包项目,包括对信息运维服务统一受理、自动派单、自动跟踪;对运维服务质量实行网上评价,对故障率、修复率等绩效量化数据实施统计分析,以督促、约束运维服务商规范服务、提高服务质量。
3.1.2 优化了不同的业务流程,清晰、统一地管理
运维服务管理平台还对加油站设备运维、后勤保障、安全管理、资产管理、费用管理等流程进行了优化。运维服务平台涉及各类机构、部门、厂商,且各不同事件在各节点面临不同流程,因此运用基础流程分配的管理,使得原本复杂的流程体系得到统一的管理,清晰地呈现各类复杂的事件处理过程。
4、运维服务管理平台的设计与研究
4.1 IT服务管理理念
所谓运维服务管理是指对各个已上线正在运行的系统的支撑、服务、管理的全过程。上海石油对各个运维服务提供商签订运维服务合同,运维商根据合同对运维对象提供专业的、快速的、优质的服务,以确保信息系统设备工作正常,日常工作不受影响。
4.2 运维服务的组织架构及故障处理业务流程
4.2.1 组织架构
根据中石化的制度设计,系统运维分运维服务管理单位和运维服务实施单位。信息管理处及所属的运维办为运维服务管理单位;各个系统的集成商、生产商为运维服务实施单位,如上海亚太、各加油机生产厂商等。
为适应运维服务平台的管理需要,加油站报修宜通过客服中心牵头,实施报修接单、流转、评价、销单的过程跟踪,故应把客服中心纳入到运维组织架构中来。
4.2.2 故障处理业务流程
故障处理流程主要是通过提供一个日常的支持接口,来协调加油站或客户及运维人员之间的关系;同时,通过对故障的管理可以最快的响应客户的要求,来解决客户的突发故障(包括:故障、服务请求),从而保证优良的服务水准。
故障处理流程的主要目标是争取在最短的时间内解决故障和恢复加油站服务运作,尽量避免或减少故障对客户造成影响。
故障处理流程要形成从故障的收集、故障的记录、初步支持、分派、调查和诊断、结果审查、答复客户、直到最终故障关闭的闭环工作流。
从流程的角色上,故障管理流程设置明确的管理角色和执行角色,完成故障的处理。
运维服务的组织架构及故障处理业务流程如下:
4.3 运维服务管理平台的主要功能
4.3.1 主要功能示意图
4.3.2 功能介绍
4.3.2.1 基础数据维护子系统
该子系统主要维护所有的静态数据,包括所有设备信息、机构单位信息、权限角色以及为定义流程的配置信息。
4.3.2.2 加油站管理子系统
包括加油站概貌与重要部位相片,周边加油站主要油品销售情况,安全设备状况,通讯设备状况,油站油品信息,加油枪数量,证照信息,土地产权归属情况,人员信息,油站性质与数量、油站发卡网点数量、地址、电话、负责人等(联营与报帐制加油站数量)油站发卡网点营业状况,非油品经营信息(包括经营内容、合同、营业场所情况),油站装修信息(包括装修日期、等级),计量设备测试期限及安全设备的测试时间等功能。
4.3.2.3 设备运维管理子系统
包括加油站设备报修管理、维修档案管理、服务评价结算管理、设备档案管理模块。
4.3.2.4 安全和后勤保障系统
包括加油站消防安全隐患网上直报和预警提示,各加油站安全协议签订情况,隐患自查报告,站长安全检查台帐,110报警系统、视频探头数量,保险柜数量,消防预案演练记录等功能。
4.3.2.5 短信平台发布系统
为整个加油站综合信息管理系统服务,加油站综合信息管理系统各子系统都将使用短信平台向拥有手机的管理者传达通知、信息,及时提示当前所要做的工作。
4.3.2.6 GIS(地理信息)系统
以GIS(地理信息系统)方式将以上各个子系统实现无缝集成,并结合地图实现各种信息的发布和获取。
4.3.2.7 报告单据流转子系统
提供对总中心、省、市、站点的运行报告单;总中心、省、市的运维服务单等的票据流转及管理。
5、运维服务管理平台的实施效果
5.1 维修及时、有据可查
从维修单生成开始,就实时监控维修进程。报修发生后三小时之内维修单位必须响应,在规定的时间内完成维修任务,加油站负责人必须在规定的时间内进行验收。从响应、维修、验收及销单结案等所有过程都使用电子签名。在这一过程中,若发生超时或无响应或电子签名没有确认,系统报警提示,整个过程记录在案采用运维管理平台管理后,建立统一的加油站设备报修平台。
5.2 维修责任清晰,告警无效流转
如产生维修责任的分歧,当发现维修单在流转过程中,发生二次以上在不同厂商之间流转,系统马上发出警告、制止再次流转,并自动提出仲裁,由石油公司设备管理部门进行裁决。使有不同运维商相互推诿的情况下,维修时间过长的情况大大改善。
5.3 维修知识库相助,提高自助排障能力
建立设备维修知识库。把常用的故障信息、或者是加油站员工完全可以不依赖于维修商而自己能够独立解决的故障案例一一列出。在设备报修之前首先显示该产品的日常维护方法,增强了员工自己排除故障的能力。
5.4 不受情面干扰,评价客观真实
考核运维工作最直接的方式就是客户评价,用户对各维修单位的维修质量进行网上评价,避免了原来由于当面评价有碍于面子,使评价失真的情况。
5.5 提高运维工作质量、节约运维费用可期
任何一个管理系统的推行,其出发点不外乎二个:一是把原来的工作搞得更好;二是辅助决策、降低费用。对于第一点通过上面的阐述,已经明白了。那么使用运维平台后怎样才能辅助决策、降低运维费用呢?
5.5.1 为企业在做出运维商选择时提供依据
通过平台决策分析子系统可及时了解各运维服务商的服务质情况,包括响应是否及时、服务技术是否过硬、服务态度好否、收费是否合理,以便加强对运维商的监督、管理,指出存在的问题。为领导在作出运维商优胜劣汰决策时提供了客观依据。
5.5.2 了解站长的现场管理能力,作为鉴定其能力的依据之一
通过平台决策分析子系统可及时了解各加油站故障发生的情况、比较同类型站的故障发生隋况,尤其是对一些可由站内自己解决的故障,可间接了解站长的动手能力。
5.5.3 为企业在采购设备时提供参考意见
通过平台决策分析子系统可及时了解加油站的各种设备的维修情况,从而掌握哪个品牌的设备质量好坏、维修率高低、维修费用多还是少等信息,为管理者在选购设备时提供依据。
5.5.4 有针对性地解决短版部件,减少设备故障率
这里所说的短版部件,是指某一设备中的某个部件经常会出故障,从而影响整个设备的运行。通过平台决策分析子系统可及时了解某个设备的某个部件在一段时间内的故障频率、维修次数,分析其原因,提出解决问题的方法。
5.5.5 加强运维监督、降低运维费用
通过平台,加强对各运维商的运维服务监督,杜绝小毛病换大部件或是更换了新部件后又取走了刚换下的部件,回去简单修理一下,下回又以新部件的价格到加油站作为维修部件。
通过平台决策分析子系统提供的查询功能,可以知道现在的运维规模、运维费用与上年或历史同期对比情况,适当调整运维费用。通过精细化管理,通过把住采购环节的质量关以及解决短版部件的故障率,运维远程支持能力的增强,加油站的故障率应是呈下降的趋势,降低运维费用是可能的。
加强对加油站员工的培训,增强对常见故障处理的动手能力,对常见的一些小问题由站内自己修复,减少故障的报修率。故障少了、维修费用自然下降了,所以降低运维费用的目标是可以实现的。
6、结束语
2011年,上海石油决定开发一套运维服务管理平台,用以支撑运维管理工作,提高运维管理能力。项目管理小组从4月的立项、构思,向兄弟单位取经到招投标,最后确定上海亚太为该平台的开发商,经过各方的努力、多次测试修改,10月份已成功上线运行。
9.信息化设备运维服务项目合同 篇九
投标人必须响应并承诺以下所附合同主要条款。
合同登记编号:
中国共产党广州市委员会办公厅计算机机房和会议系统设备运维服务项目合同
甲方:中国共产党广州市委员会办公厅 乙方:
甲、乙双方根据中国共产党广州市委员会办公厅计算机机房和会议系统设备运维服务项目(采购编号:)招标的结果,经双方友好协商,签订下列条款:
一、服务范围
此次中共广州市委办公厅计算机机房和会议系统设备运维服务项目包括办公厅所属各个机房的环境设备和会议系统设备两大部分。其中计算机机房包括办公厅所属14个机房及配线间的UPS、精密机房空调设备、以及相关机房及配线间的环境监控设备;会议系统设备分为会议系统设备维护和会议现场支持两部分。
二、下列文件均为本合同书的组成部分
1、招标文件。
2、供方中标的投标文件。
3、在实施过程中双方共同签署的补充文件。
以上文件与合同附件具有同等法律效力,若以上文件与本合同有差异的,以本合同内容为准。
三、服务内容:
对中共广州市委办公厅14个机房及配线间(含2号楼2楼会议室机房)的UPS不间断电源设备、机房空调设备以及相关环境监控设备进行维护;对办公厅8个会议室(总值班室)的会议系统设备进行检查、保养和维护,对8个会议室提供会议现场技术支持(2个是视频会议室)。
四、提供服务的时间和地点
1、提供服务的时间:签订合同后起一年内。
2、提供服务的地点:甲方指定地点
五、合同金额
合同总价: 元,(人民币大写:)。其中会议系统设备零配件维修所需总费用,采用实报实销方式,此项费用按维护期内实际发生费用进行结算,维护期结束后将账务统一移交甲方。
六、款项支付
(一)合同签订后15个工作日内,按合同总价的50%办理支付手续。
(二)运维服务期满6个月后,中期验收合格之日起15个工作日内,按合同总价的20%办理支付手续。
(三)运维服务期满验收合格之日起15个工作日内,按合同总价的30%办理支付手续。
(四)乙方须在甲方办理付款手续前10个工作日内,提供等额的正式发票给甲方,以便甲方及时办理付款手续。
七、甲方的权利和义务
1、甲方有权随时检查乙方的服务履行情况,并向乙方提出修改。
2、当发生服务违约时,则甲方有权按“服务违约处理标准”在支付乙方工程款项中进行扣款。
3、在乙方提供服务时,如对甲方的设备造成了损坏,甲方有权要求乙方赔偿。
4、甲方应按合同规定向乙方支付服务费用。
八、乙方的权利和义务
1、乙方应按招标文件的要求和投标文件的承诺进行服务,发生任何服务的变更均须向甲方提出交书面报审报告。
2、乙方有权要求甲方按时支付服务费用。如甲方不按时支付乙方有权要求甲方支付滞纳金。
3、乙方在提供服务时如损坏了甲方的设备,乙方应照价赔偿或更换同等设备。若因设备的损坏而引起其它损失的,乙方应作出合理赔偿(以甲乙双方协商或行政仲裁的结果赔偿)。
九、保密条款
见附件一 《保密协议》。
十、合同纠纷的解决
在履行合同的过程中,甲、乙双方如产生合同纠纷,协商不成的情况下,可向合同履行地人民法院提起诉讼。
十一、合同书的有效期间
本合同书一式四份,具有同等法律效力,甲、乙双方各执一份,广州公共资源交易中心一份、广州市财政局一份。合同自双方签字的最后一个签字之日起生效。
十二、约定事项的变更
由于出现不可预见的情况,影响项目工作的如期完成,甲乙双方可要求变更约定事项,但应及时通知对方,并由双方协商解决。
十三、本合同书未尽事宜,由甲乙双方依照《中华人民共和国合同法》协商处理。
十四、签约地点为:
甲方: 乙方: 地址: 地址: 法定代表人: 法定代表人: 委托代理人: 委托代理人:: 开户银行: 开户银行: 银行帐号: 银行帐号: 项目负责人: 联系人: 电话:
电话:
10.运维服务实施方案 篇十
作为一个运维人员,遇到服务器故障是在所难免的,要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆。当出现此类问题时,应该如何处理?本文给大家详尽的分析了一下,一起来看看。
我们团队为上一家公司承担运维、优化和扩展工作的时候,我们碰到了各种不同规模的性能很差的系统和基础设备(大型系统居多,比如CNN或者世界银行的系 统)。要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆。
遇到服务器故障,问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手:
一、尽可能搞清楚问题的前因后果
不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。不然你很可能就是在无的放矢。
必须搞清楚的问题有:
故障的表现是什么?无响应?报错? 故障是什么时候发现的? 故障是否可重现?
有没有出现的规律(比如每小时出现一次)
最后一次对整个平台进行更新的内容是什么(代码、服务器等)?
故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)? 基础架构(物理的、逻辑的)的文档是否能找到?
是否有监控平台可用?(比如Munin、Zabbix、Nagios、New Relic… 什么都可以)
是否有日志可以查看?.(比如Loggly、Airbrake、Graylog…)
最后两个是最方便的信息来源,不过别抱太大希望,基本上它们都不会有。只能再继续摸索了。
二、有谁在? $ w$ last 用这两个命令看看都有谁在线,有哪些用户访问过。这不是什么关键步骤,不过最好别在其他用户正干活的时候来调试系统。有道是一山不容二虎嘛。(ne cook in the kitchen is enough.)
三、之前发生了什么? $ history
查看一下之前服务器上执行过的命令。看一下总是没错的,加上前面看的谁登录过的信息,应该有点用。另外作为admin要注意,不要利用自己的权限去侵犯别人的隐私哦。到这里先提醒一下,等会你可能会需要更新 HISTTIMEFORMAT 环境变量来显示这些命令被执行的时间。对要不然光看到一堆不知道啥时候执行的命令,同样会令人抓狂的。
四、现在在运行的进程是啥? $ pstree-a$ ps aux
这都是查看现有进程的。ps aux 的结果比较杂乱,pstree-a 的结果比较简单明了,可以看到正在运行的进程及相关用户。
五、监听的网络服务
$ netstat-ntlp$ netstat-nulp$ netstat-nxlp
我一般都分开运行这三个命令,不想一下子看到列出一大堆所有的服务。netstat-nalp倒也可以。不过我绝不会用 numeric 选项(鄙人一点浅薄的看法:IP 地址看起来更方便)。找到所有正在运行的服务,检查它们是否应该运行。查看各个监听端口。在netstat显示的服务列表中的PID 和 ps aux 进程列表中的是一样的。
如果服务器上有好几个Java或者Erlang什么的进程在同时运行,能够按PID分别找到每个进程就很重要了。
通常我们建议每台服务器上运行的服务少一点,必要时可以增加服务器。如果你看到一台服务器上有三四十个监听端口开着,那还是做个记录,回头有空的时候清理一下,重新组织一下服务器。
六、CPU 和内存
$ free-m$ uptime$ top$ htop 注意以下问题:
还有空余的内存吗? 服务器是否正在内存和硬盘之间进行swap?
还有剩余的CPU吗? 服务器是几核的? 是否有某些CPU核负载过多了? 服务器最大的负载来自什么地方?平均负载是多少?
七、硬件
$ lspci$ dmidecode$ ethtool
有很多服务器还是裸机状态,可以看一下:
找到RAID 卡(是否带BBU备用电池?)、CPU、空余的内存插槽。根据这些情况可以大致了解硬件问题的来源和性能改进的办法。
网卡是否设置好? 是否正运行在半双工状态? 速度是10MBps? 有没有 TX/RX 报错?
八、IO 性能
$ iostat-kx 2$ vmstat 2 10$ mpstat 2 10$ dstat--top-io--top-bio 这些命令对于调试后端性能非常有用。
检查磁盘使用量:服务器硬盘是否已满? 是否开启了swap交换模式(si/so)?
CPU被谁占用:系统进程? 用户进程? 虚拟机?
dstat 是我的最爱。用它可以看到谁在进行 IO: 是不是MySQL吃掉了所有的系统资源? 还是你的PHP进程?
九、挂载点 和 文件系统
$ mount$ cat /etc/fstab$ vgs$ pvs$ lvs$ df-h$ lsof +D / /* beware not to kill your box */
一共挂载了多少文件系统?
有没有某个服务专用的文件系统?(比如MySQL?)
文件系统的挂载选项是什么: noatime? default? 有没有文件系统被重新挂载为只读模式了?
磁盘空间是否还有剩余?
是否有大文件被删除但没有清空?
如果磁盘空间有问题,你是否还有空间来扩展一个分区?
十、内核、中断和网络
$ sysctl-a | grep...$ cat /proc/interrupts$ cat /proc/net/ip_conntrack /* may take some time on busy servers */$ netstat$ ss-s
你的中断请求是否是均衡地分配给CPU处理,还是会有某个CPU的核因为大量的网络中断请求或者RAID请求而过载了?
SWAP交换的设置是什么?对于工作站来说swappinness 设为 60 就很好, 不过对于服务器就太糟了:你最好永远不要让服务器做SWAP交换,不然对磁盘的读写会锁死SWAP进程。
conntrack_max 是否设的足够大,能应付你服务器的流量? 在不同状态下(TIME_WAIT, …)TCP连接时间的设置是怎样的? 如果要显示所有存在的连接,netstat 会比较慢,你可以先用 ss 看一下总体情况。
你还可以看一下 Linux TCP tuning 了解网络性能调优的一些要点。
十一、系统日志和内核消息
$ dmesg$ less /var/log/messages$ less /var/log/secure$ less /var/log/auth
查看错误和警告消息,比如看看是不是很多关于连接数过多导致? 看看是否有硬件错误或文件系统错误?
分析是否能将这些错误事件和前面发现的疑点进行时间上的比对。
十二、定时任务
$ ls /etc/cron* + cat$ for user in $(cat /etc/passwd | cut-f1-d:);do crontab-l-u $user;done
是否有某个定时任务运行过于频繁? 是否有些用户提交了隐藏的定时任务?
在出现故障的时候,是否正好有某个备份任务在执行?
十三、应用系统日志
这里边可分析的东西就多了, 不过恐怕你作为运维人员是没功夫去仔细研究它的。关注那些明显的问题,比如在一个典型的LAMP(Linux+Apache+Mysql+Perl)应用环境里:
Apache & Nginx;查找访问和错误日志, 直接找 5xx 错误, 再看看是否有 limit_zone 错误。
MySQL;在mysql.log找错误消息,看看有没有结构损坏的表,是否有innodb修复进程在运行,是否有disk/index/query 问题.PHP-FPM;如果设定了 php-slow 日志, 直接找错误信息(php, mysql, memcache, …),如果没设定,赶紧设定。
Varnish;在varnishlog 和 varnishstat 里, 检查 hit/miss比.看看配置信息里是否遗漏了什么规则,使最终用户可以直接攻击你的后端?
HA-Proxy;后端的状况如何?健康状况检查是否成功?是前端还是后端的队列大小达到最大值了?
结论
经过这5分钟之后,你应该对如下情况比较清楚了:
在服务器上运行的都是些啥?
这个故障看起来是和 IO/硬件/网络 或者 系统配置(有问题的代码、系统内核调优, …)相关。
这个故障是否有你熟悉的一些特征?比如对数据库索引使用不当,或者太多的apache后台进程。
【运维服务实施方案】推荐阅读:
运维服务简介08-13
运维服务调查问卷11-16
运维服务系统用户手册01-17
机房与办公平台运维服务07-23
用电信息采集系统运维服务报告09-19
服务项目实施方案06-17
景区保洁服务实施方案07-11
服务承诺实施方案07-12
居家养老服务实施方案10-30
服务窗口实施方案11-08