linux服务器故障之运维经验总结(共4篇)(共4篇)
1.linux服务器故障之运维经验总结 篇一
运维工程师的职责和前景
一、什么是网站运维?
首先明确一下,全文所讲的”运维“是指:网站运维,与其它运维的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂
性角度考虑,如网站规范、知名度、服务器量级、pv量等考虑,其它因素不是重点;因此,我们先定义服务器规模大于1000台,pv每天至少上亿(至少国内排名前10),如sina、baidu、QQ,51.com等等;其它小型网站可能没有真正意义上的运维工程师,这与网站规范不够和成本因素有关,更多的是集合网络、系统、开发工作于一身的“复合性人才”,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。所以,非常重要一定需要明白:运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等;我在这里所讲的运维工程师就是指专职运维工程师。我们再来说说一般产品的“出生”流程:
1、首先公司管理层给出指导思想,PM定位市场需求(或copy成熟应用)进行调研、分析、最终给出详细设计。
2、架构师根据产品设计的需求,如pv大小预估、服务器规模、应用架构等因素完成网络规划,架构设计等(基本上对网络变动不大,除非大项目)
3、开发工程师将设计code实现出来、测试工程师对应用进行测试。
4、好,到运维工程师出马了,首先明确一点不是说前三步就与运维工作无关了,恰恰相反,前三步与运维关系很大:应用的前期架构设计、软/硬件资源评
估申请采购、应用设计性能隐患及评估、IDC、服务性能安全调优、服务器系统级优化(与特定应用有关)等都需运维全程参与,并主导整个应用上线项目;运维工程师负责产品服务器上架准备工作,服务器系统安装、网络、IP、通用工具集安装。运维工程师还需要对上线的应用系统架构是否合理、是否具备可扩展性、及安全隐患等因素负责,并负责最后将产品(程序)、网络、系统三者进行拼接并最优化的组合在一起,最终完成产品上线提供用户使用,并周而复使:需求->开发(升级)->测试->上线(性能、安全问题等之前预估外的问题随之慢慢就全出来了)在这里提一点:网站开发模式与传统软件开发
完全不一样,网站一天开发上线1~5个升级版本是家常便饭,用户体验为王嘛,如果某个线上问题像M$需要1年解决,用户早跑光了;应用上线后,运维工作才刚开始,具体工作可能包括:升级版本上线工作、服务监控、应用状态统计、日常服务状态巡检、突发故障 处理、服务日常变更调整、集群管理、服务性能评估优化、数据库管理优化、随着应用PV增减进行应用架构的伸缩、安全、运维开发工作:
a、尽量将日常机械性手工工作通过工具实现(如服务监控、应用状态统计、服务上线等等),提高效率。
b、解决现实中服务存在的问题,如高可靠性、可扩展性问题等。
c、大规模集群管理工具的开发,如1万台机器如何在1分钟内完成密码修改、或运行指定任务?2000台服务器如何快速安装操作系统?各分布式IDC、存储集群中数PT级的数据如何快速的存储、共享、分析?等一系列挑战都需运维工程师的努力。
在此说明一下其它配合工种情况,在整个项目中,前端应用对于网络/系统工程师来说是黑匣子,同时开发工程师职责只是负责完成应用的功能性开发,并对
应用本身性能、安全性等应用本身负责,它不负责或关心网络/系统架构方面事宜,当然软/硬件采购人员等事业部其它同事也不会关心这些问题,各司其职,但项 目的核心是运维工程师~!所有其它部门的桥梁。上面说了很多,我想大家应该对运维有一些概念了,在此打个比方吧,如果我们是一辆高速行驶在高速公路上的汽车,那运维工程师就是司机兼维修工,这个司机不简单,有时需要在高速行驶过程中换轮胎、并根据道路情况换档位、当汽车速度越来越快,汽车本身不能满足高速度时对汽车性能调优或零件升级、高速行进中解决汽
车故障及性能问题、时刻关注前方安全问题,并先知先觉的采取规避手段。这就是运维工作!最后说一下运维工程师的职责:”确保线上稳定“,看似简单,但实属不容易,运维工程师必须在诸多不利因素中进行权衡:新产品模式对现有架构及技术的
冲击、产品高频度的升级带来的线上BUG隐患、运维自动化管理承度不高导致的人为失误、IT行业追求的高效率导致流程执行上的缺失、用户增涨带来的性能及
架构上的压力、IT行业宽松的技术管理文化、创新风险、互联网安全性问题等因素,都会是网站稳定的大敌,运维工程师必须把控好这最后一关,需具体高度的责
任感、原则性及协调能力,如果能做到各因素的最佳平衡,那就是一名优秀的运维工程师了。
二、运维工作师需要什么样的技能及素质
做为一名运维工程师需要什么样的技能及素质呢,首先说说技能吧,如大家上面所看到,运维是一个集多IT工种技能与一身的岗位,对系统->网络
->存储->协议->需求->开发->测试->安全等各环节都需要了解一些,但对于某些环节需熟悉甚至精通,如系统
(基本操作系统的熟悉使用,*nix,windows..)、协议、系统开发(日常很重要的工作是自动运维化相关开发、大规模集群工具开发、管理)、通用应用(如lvs、ha、web server、db、中间件、存储等)、网络,IDC拓朴架构; 技能方面总结以下几点:
1、通用应用方面需要熟悉:操作系统(目前国内主要是linux)、数据库(mysql,oralce)。
2、开发能力,这点非常重要,开发语言:perl、python、php(其中之一)、shell(awk,sed,expect….等).所以有开发底子对学运维是个优势。
3、系统、网络、安全,存储,CDN,DB等需要相当了解,知道其相关原理。个人素质方面:
1、沟通能力、团队协作:运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;这应该是现代企业的基本素质要求了,不多说。
2、工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;心细,运维工程师是网站admin,最高线上权限者,一不小心就会遗憾终生或打入十八层地狱。
3、主动性、执行力、精力旺盛、抗压能力强:由于IT行业的特性,变化快;往往计划赶不上变化,运维工作就更突出了,比如国内各大公司服务器进行搬迁的时候,时间紧迫,如限1周内完成,这种情况下,运维工程师的主动性及执行力就有很高的要求了:计划、方案、服务无缝迁移、机器搬迁上架、环境准备、安全评估、性能评估、基建、各关联部门扯皮,7X24小紧急事故响应等。
4、其它就是一些基本素质了:头脑要灵光、逻辑思维能力强、为人谦虚稳重、亲和力、乐于助人、有大局观。
5、最后一点,做网站运维需要有探索创新精神,通过创新型思维解决现实中的问题,因为这是一个处于发展中的职业(国外起步比国内早)。
三、怎样才算是一个合格的运维工程师
1、保证服务达到要求的线上标准,如99.9%;保证线上稳定,这是运维工程师的基本责职所在。
2、不断的提升应用的可靠性与健壮性、性能优化、安全提升;这方面非常考验主动性和创新思维。
3、网站各层面监控、统计的覆盖度,软件、硬件、运行状态,能监控的都需要监控统计,避免监控死角、并能实时了解应用的运转情况。
4、通过创新思维解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预,需要尽可能的解放双手。
5、运维知识的积累与沉淀、文档的完备性,运维是一个经验性非常强的岗位,好的经验与陷阱都需积累下来,避免重复性范错。
6、计划性和执行力;工作有计划,计划后想法设法达到目标,不找借口。
7、自动化运维;能对日常机械化工作进行提炼、设计并开发成工具、系统,能让系统自动完成的尽量依靠系统;让大家更多的时间用于思考、创新思维、做自已喜欢的事情。以上只是技术上的一些层面,当然个人意识也是很重要的。
四、运维现状和发展前景 运维现状:
优秀运维人才的极度缺乏:目前各大公司基本上都靠自已培养,这个现状导致行业内运维人才的流动性非常低,非常多好的技术都局限在各大公司内部,如 google 50万台机器科学的管理,或者国内互联公司top 10的一些运维经验,这些经验是非常有价值的东西并决定了一个公司的核心竞争力;所以具有丰富经验的运维工程师在公司里面相当抵钱,这是一个越老越值钱的职业!发展前景:
1、从行业角度来看,随着中国互联网的高速发展(目前中国网民已跃升为全球第一)、网站规模越来越来大、架构越来越复杂,对专职网站运维工程师、网站架构师的要求会越来越急迫,特别是对有经验的优秀运维人才需求量大,而且是越老越值钱。目前国内公司基本上都是选择毕业生培养,培养成本高,而且没有经验人才加入会导致公司技术更新缓慢、影响公司的技术发展;当然,毕业生也有好处:白纸一张,可塑性强,现在国内一些经过在校运维培训的毕业生受到了各大公司的青睐,主要还是可以为公司省略培养成本,能更快融入和适应工作。
2、从个人角度,运维工程师技术含量及要求会越来越高,同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。
3、网站运维将成为一个融合多学科(网络、系统、开发、安全、应用架构、存储等)的综合性技术岗位,给大家提供一个很好的个人能力与技术广度的发展空间。
4、运维工作的相关经验将会变得非常重要,而且也将成为个人的核心竞争力,具备很好的各层面问题的解决能力及方案提供、全局思考能力等。
5、特长发挥和兴趣的培养;由于运维岗位所接触的知识面非常广阔,更容易培养或发挥出个人某些方面的特长或爱好,如内核、网络、开发、数据库等方面,可以做得非常深入精通、成为这方面的专家。
6、如果真要以后不想做运维了,转到其它岗位也比较容易,不会有太大的局限性。当然了,你得真正用心去做。
7、技术发展方向:网站/系统架构师。管理发展方向:运维总监/CEO
附与目前比较热的JAVA工程师对比:
Java工程师目前确实比较火,关键的一点在于它易学,学习难度不大,甚至java语言中的某些代码都可以copy,所以导致一些学历比较低的人士也趋之若鹜,高中生,专科生更是比比皆是。目前国内比较热的培训机构北大青鸟,想必大家都听过吧,他们的java生源主要就是没考上大学的高中生或没读高中的初中生,加上这么多的本科院校,几乎90%的大专本科院校都开设了计算机相关专业,只要是计算机相关专业,都会开java程序设计的专业课,这就导致大学本科院校出来的生源计划90%走的都是java方向(愿意从事IT行业的),这么多人才,加上外面那么多培训机构培养的人才,出去就业,稍微好一点的单位java岗位,都会遇到千里挑一的现象,甚至出现了某个一线互联网企业的校招现场,7个考场,90%都是java的井喷现状,最后很多学生都成了炮灰,现在最尴尬的现状就是二本院校的学生,他们出来就业,工资低一点的岗位都被高中生专科生抢了,工资高一点的岗位又竞争不赢211,,985的,最后只能勉为其难的进入一些小型企业趴着干那么几年,搞几年上不去或者跳槽不理想,基本上就告别了IT行业。所以给那些二本院校的学生们提个建议,如果你只是想学个技术,不想人云亦云的话的呢,还是选择一个竞争小,优势更大的方向比较好,linux运维,C/C++等方向是目前各大公司极度缺乏的人才,java人才真心不缺!
2.linux运维工程师简历 篇二
个 人 简 历
基本信息 姓 名: 工作经验:
性 别: 联系电话: 年 龄: 电子邮件:
求职意向 Linux工程师 系统工程师
专业技能 1.熟练搭建linux/windows系统各类服务,如WEB、Mail、Puppet、DNS、Vsftp、svn等;
2.熟悉Linux shell环境,熟练使用shell脚本编程,并熟悉运用awk、sed等脚本辅助工具;
3.熟悉Iptables、Cacti、Nagios、Ntop、Nessus、zabbix等配臵; 4.熟悉Mysql、Ldap、Oracle RAC集群搭建配臵和基本的sql语句; 5.熟悉Oracle的冷热备份、闪回技术及基本管理;
6.熟悉配臵常见的web集群,软件LVS+keepalived等;
7.熟悉F5、IDP、Cisco、h3c路由器、交换机、防火墙的常用配臵;
8.熟悉虚拟化vmware搭建及管理,了解KVM,XEN虚拟技术和云计算平台; 教育背景 2008-09至 2011-07 北京外事研修学院 2010-03 至2012-06 北大青鸟APTECH 所获证书 OSTA高新技术认证 红帽RHCE认证 信息系统专家
北京外事研修学院专科毕业证
工作经历 时间/公司 2011/7 至今 北京市致远科技有限公司 岗 位: Linux工程师 岗位职责:
1.负责网站平台的更新升级和对用户使用的问题进行解决,协助分析系统bug跟踪处理进度,负责服务器日常维护,负责搭建及维护监控平台,编写并及时更新工作手册;
2.登录服务器检查数据库Oracle Rac、ogg运行情况;3.每日检查oracle、RSA、ldap、F5、IDP备份及Linux系统资源运行状况; 4.负责系统平台上线及更新并进行系统新功能的测试,并编写测试报告运维报告相关文档;
5.编写常用脚本提高运维的准确和效率率,如oracle rman、ldap备份脚本; 6.定期对存储Ibm v7000健康检查; 7.管理和维护RSA、ldap、WEB等服务; 8.定期对机房主机设备进行健康检查; 9.搭建监控平台nagios,并且负责后期的维护开发; 10.定期统计相关数据,比如系统访问量、访问人数;
项目经验 项目名称(一):金宏工程 岗 位:运维工程师 项目职责:
1.负责服务器的日常运维、应用调整和优化, 性能优化, 增强系统可用性; 2.负责部署如ftp、nomn、web、mail、apache等常用的服务器; 3.编写常用的shell与crontab结合实现一些任务自动化; 4.负责维护国家外会管理局网络核销系统和金宏系统; 5.负责通过电话解决客户所遇到的系统故障及问题; 项目名称
(二):构建高可用网络架构平台 软件环境:red hat enterprise linux 5.4 硬件环境:10台DELL R410 项目描述:由于公司服务器更新,所以需要重新构建网络环境。该项目的要求是:实现对公司网络服务的监控及管理,实现HA和LVS的高可用性负载均衡群集,mysql群集,SAN网络区域存储,使服务更安全高效。责任描述: 1.负责为服务器批量安装linux系统。
2.负责构建HA和LVS负载均衡和高可用性群集。3.负责搭建LNMP网站平台和mysql群集。4.负责iptables防火墙脚本编写及测试。5.对整个项目中遇到的问题进行分析和测试。
自我评价 兴趣爱好:象棋〃足球〃看书 自我评价:
3.linux服务器故障之运维经验总结 篇三
1、负责公司服务器、SAN网络和存储、虚拟化等基础架构平台的建设和运维;
2、负责系统的安装、部署、更新、优化、监控、日常运行维护,保障高质量的7*24小时运行,提升服务器的稳定性和负载能力;
3、负责对系统、应用、服务器等进行监控告警,故障定位分析处理,保证服务器的线上稳定运行,实现与运维相关的自动化工具或系统;
4、针对数据安全做出相应的同步、备份,提高系统的安全性,稳定性,并就一些可能发生的风险进行评估,规避以及预警;
5、配合开发团队,部署相关应用系统和应用发布。
任职要求:
1、精通Linux操作系统及系统环境配置、优化,对系统常见应用软件有深入理解,如nginx、tomcat、keepalived、lvs、mysql、oracle、Redis等应用配置、部署及性能调优;
2、熟练利用各种工具进行系统状态监控(cacti、Nagios、zabbix等)和优化;
3、熟练shell脚本编写,能够编写日常需求脚本;
4.linux服务器故障之运维经验总结 篇四
此文是人在逋局运维的第二篇、第一篇请参见:【人在运维逋_01】20个Linux系统内置监视工具:top
闲言少叙、看招哈O(∩_∩)O~
⑵ vmstat
写在前面的话、这里 Rocky 唠嗑一点、私下认为、vmstat 最佳实践也该是:
“到底哪个部分的资源被使用的最为频繁”
先瞧瞧 vmstat 的输出
[plain]
[root@Rocky ~]# vmstat 5 3
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
rbswpdfreebuffcachesisobiboincs us sy id wa st
000 124989229292 410624001432510120622 9420
100 124962829316 410624000609521023 9410
100 124964429316 41062400009318900 100 00
① 项目【procs】显示与进程相关
r:等待运行的进程数量
【linux服务器故障之运维经验总结】推荐阅读:
运维服务简介08-13
运维服务实施方案09-11
行政许可服务经验总结10-14
机房与办公平台运维服务07-23
用电信息采集系统运维服务报告09-19
发挥政协委员主体作用做好服务经验总结11-05
银行服务创新经验材料08-19
商业服务经验范文分享10-14
人才服务实践经验交流材料06-14
农机管理服务站建设经验11-06