保利彩票app-保利彩票平台「官网」
做最好的网站

昨日今日头条宕机与网站可靠性

图片 1

中小企业如何优雅的管理多机房服务器账号 

1月6号,像往常一样,在工作的间隙,我打开手机上的今日头条。点开了其中一个新闻,发现进去后页面提示网络不给力,请稍后重试。前两天我的4G网络上不去,折腾了半天正要打联通客服咒骂,在IVR语音提示时才发现已经欠费了。但现在话费可是本月刚充的啊,何况现在连的是公司的WIFI,难道公司网络有问题?这时通知中心弹出了其他应用的提醒,貌似其他应用是正常的。那么就是被头条的提示的忽悠了,任何错误提示给用户的都是你的网络不给力。

在祖国七十载的峥嵘岁月里,航空人的身影从来都是那么清晰,他们在广袤的大地上印下坚实的足迹。今天,我要讲述的是一群用指尖书写初心的航空人。

2017-03-29 许颖维 高效运维

果不其然,稍后其他的新闻看到头条的服务挂了许久的消息。

默默无闻,是一群人的奉献

许颖维    ---    中交兴路 运维总监

SRE - Site Reliability Engineering, Google提出的一个概念,综合了Google多年运维大规模服务器集群的经验演变出的一个职位。其目的就是为了最大限度的保障Google服务的可靠性,其演进方向是从运维工程师向开发工程师边界的扩展,要求运维工程师以软件工程的思路解决大规模运维的问题,用工具而不是人力来解决不断扩大的服务器集群对管理的需求。

这群人在他们的工作中,没有战旗猎猎的试验外场,也没有挥汗如雨的车间厂房;没有奋战在一线,却一直坚守在科研生产的底线。一台电脑配键盘,就是他们工作的主战场。这里,就是导弹院信息中心。

曾经就职于日 PV 超亿次的 WAP 搜索公司,后加入多次占领 Facebook 日活跃 Top10 的游戏公司(产品有开心水族箱、开心消消乐),负责搭建自动化运维平台。

如何保障网站可靠性,通常是在运维,基础架构,系统管理员的范畴。关注业务开发的软件工程师不关心这个,他们要忙着应付PD的最后期限,让飞速发展的平台支撑上层的业务需求。

在信息人的工作中,用户从来都是第一位的,这是他们一直坚守的承诺。

现在国内领先的商用车联网公司担任系统支持部负责人,同时负责并发百万级别的实时在线车联网平台运维工作。

在云计算基础设施还没成型时,互联网公司都会有个运维团队负责搞各种各样跟系统有关的活。在企业发展的不同阶段,这只团队可能会忙着提采购需求给财务;评估系统容量,要多少IOPS的SSD硬盘, 多大的内存才能满足应用需求;写各种各样的发布脚本,将开发提供的war包(如果是java应用)批量分发服务器的目录上并启动tomcat;搭LVS为机房入口提供热备的负载均衡设施;用keeplived提供VIP去单点,为后端服务提供故障迁移能力;跑到机房去为机器上架,布设机架网线,甚至配合容灾演练去拔网线测试;还要制定线上应用的发布规范,保证成千上万的应用能按照统一的规范发布,秉着约定优于配置的原则,让整个公司的人可以不加思索的找到应用的启动脚本,log目录;新机器上线需要初始化系统,随着虚拟化大潮物理机都要切分成虚拟机才交付给开发部门;出了个紧急安全漏洞得给系统或应用打补丁;线上生产机的权限要管好,别被黑客提权出了篓子;往往可能还要客串一把网络工程师粗排一下千奇百怪的运营商到IDC网络丢包,缓慢问题。

大到整个网络的运行,小到一台交换机的连通,尽在他们的掌握中。每天几千人的同时使用,每秒上千次的点击量,整个网络的运行不能出一丁点儿岔子,否则蝴蝶效应便接踵而至。

前言

以上还不是最累的,运维团队还要为线上故障排查负责,软件工程师半夜只会收到自己应用的报警,运维团队是要接受自己管理全部应用的报警的,出了问题往往开发和运维都要一起排查,一个高速发展的公司都会经历那么一段故障频发的苦逼日子,运维成天到晚在忙着救火。

晨曦和日暮从来不是他们划分工作时间的标准。无论是整个信息网络的改造、系统版本的升级还是一个小小的插件安装,所有的运维工作都必须在用户不在线的时候进行,加班和熬夜是他们再平常不过的事情。

本文内容大致分成四部分:

由于运维与开发部门不在一个部门,且各自关注的目标不同,伴随着长期的冲突和博弈。开发只关心功能上线,运维部门关心应用稳定运行。从前,开发可以快乐的自己登录到线上机器上发布代码,scp个本地的war包过去,就跑起来了;自从xxx日出了故障导致网站宕机1小时,错过了促销的黄金时间后,发布就被套上了流程的管控,层层审批,就是为了减少发布的次数,因为理论上发的越多,越容易出问题,一个一年只发布一次的系统,基本没什么可能出问题。

为了适应院信息化的深入与扩大,数据中心机房需要进行配电改造,所有服务器责任人和系统管理员必须随时待命。改造只是几小时的事,但前期的准备工作却覆盖方方面面,提前部署配电箱和机柜电缆以及文件与数据库的备份,网络组和所有系统管理员不知熬了多少个夜晚。改造的当天下午一下班,所有人员来不及吃晚饭便悉数到场。改电工作的顺利结束也意味着最紧张的时刻刚刚开始,机房里安静的只剩下键盘敲击声,当所有系统的服务恢复正常时,已经到了深夜。对他们来说,这只是一个普通的不能再普通的晚上。

选择,我们初步选择的时候会考虑哪些问题。

Devops理念是伴着云计算理念出来的,在amazon的云计算成熟后,以上说的传统运维已经可以通过买云服务实现了,不用自己采购机器,买个EC2,数据库服务也可以直接买RDS,对象存储用S3, Load Balancing也可以买。开发人员自助在上面操作一下,部署上自己的应用就可以提供服务了,买个域名将DNS直接A记录指向服务器就行了。可以说是中小公司的福音,互联网创业不用考虑太多的服务器问题了,把有限的人力投入到至关重要的业务功能开发商,其他的服务器运维工作交给专业的云计算公司来做。

信息中心里的每一个人都在努力成长,他们是幕后的保障者,是黑暗里的夜行侠,他们用指尖敲下的航空蓝,正是他们火热初心中那片最纯的底色。

需求分析,分析我们的主要需求是什么,如何与服务进行紧密结合。

网络视频租赁商Netflix就是个知名的例子,其服务都运行在AWS上。由于其多年跑在云上的分布式经验,还在github上开源了不少分布式处理的组件,回馈了社区。其迁移的路程也算长的,从2008年到2015年,7年,完成了全部应用到AWS的迁移。他们认为AWS提供了更可靠的服务。

践行使命,是一组人的坚守

如何实施,因为运维人员比较关注工具的落地过程,所以我也重点讲讲这块,但是不会像很多文章一样讲详细部署过程,我会着重分享部署过程中容易出错的地方。

有迁入也有迁出的,著名的网络存储提供商Dropbox由于嫌AWS太贵,将自家服务重新移到了自家机房运维。

15人的运维组,肩负着研究院所有研发与生产业务相关的信息化。无论在研发还是生产中,没有一桩问题是小事,研发和生产的信息化作为院科研生产的重要保障显得尤为关键。这里,运维的电话铃声通常是此起彼伏。

演变历程,以我在这家公司的经历为例,从一个最简单的需求发展到能够满足不同业务的需求,并最终满足比较苛刻安全的一个过程。

很有意思不是吗?

他们是科研信息化的实践者。无论PDM与CAD集成平台的实施推进,设计/仿真/试验数据一体化管理平台的开发,还是软件配置管理模块的开发测试、型号项目管理看板的开发与型号全三维MBD设计的技术支撑,伴随着烦琐、发散、创新的科研业务,与之相关的研发信息化往往也是难度极大、极复杂的。系统管理员们往往一天要接近百个电话,细心、耐心、用心是对他们基本的要求。

1、选择

那么
想体验自己的服务被上亿人使用的感觉吗?
想参与每年双11的技术狂欢吗?
想了解一线大厂的分布式技术如何抗住海量流量吗?

他们是生产信息化的践行者。他们紧跟生产现场,用户的需求在哪里,他们就到哪里。面对庞大的数据量和工作量,他们积极处理、勇于担当;面对生产现场出现的各种复杂问题,他们抖擞精神,迎难而上。为了满足外协任务需求,解决生产外协管理方面存在的突出问题,他们积极联合业务单位技术人员对外协业务进行梳理和优化。去业务单位调研的脚步、挑灯梳理业务的背影,是他们忙碌工作的真实写照。

整个故事要从一台老旧的服务器开始

阿里集团客户体验事业群旨在建立更高的客户服务标准,让客户在阿里享受到最“爽”的服务,让“客户第一”成为阿里的百年口碑。

无论是否在工位旁,他们都坚守初心、践行承诺,只要用户有需求,无论身在何处他们都以最快速度奔赴战场。

那年,我们的集群规模有400多台服务器,部分是很稳定地,大家慢慢就忽略掉它了。突然有一天监控系统上发现一台边缘很老的服务器负载太高,影响了主站的稳定性。

CRM产品技术部作为支撑全网服务的产品技术团队,希望通过我们的产品、数据、技术去提升阿里集团服务几亿客户的能力,提升全网客户体验。这里是最能听到“炮火”的地方,可以通过我们的努力,最直接的看到产品的改善。

精诚奋斗,是一个人的担当

我的第一反应就是让业务运维登陆上去处理,结果过了5分钟业务运维反馈说“密码错误”。因为我们有业务运维和系统运维区分,所以我让系统工程师去登录一下。

在这里可以接触第一手的大数据。

MES装配系统里每一个功能的开发,都是由成千上万行代码和无数的日与夜堆积起来的。作为一个系统的管理员,稳坐如钟和夜以继日的超长待机是他的看家本领。

结果不幸的是,系统管理员反馈“这个服务器比我们所有的工程师都早出现在这个公司,大家都不知道他的密码”。这个时候就非常着急了,我们收到大量的用户投诉。一个本来五分钟就可以解决的问题,但是我们却花了两个小时。

这是一个以用户为中心的多角色无边界团队,一个有梦想的欢乐团队,一个能近距离感受用户温度的团队。无论你是何种角色,只要站在用户的角度思考问题,你的意见都有机会被采纳实施,去产品中落地。

郭冬阳,这个名字听起来不帅不酷,可他写出来的代码很帅很酷。一双充满魔力的手,是他与计算机直接对话的桥梁。在信息中心,几乎没有他的代码解决不了的问题。他是青年突击队的主力军,更是大家公认最坐得住的人。六年前的春天,他怀揣航空报国的梦想来到这里,如今已成为一名年轻而又老练的工作狂人。

最后我们开总结会的时候,大家都认定这个问题得必须重视了,业务的扩展非常快,我们不可能每一个服务器都记录一个帐号,我们需要有一套统一的身份认证。

关于用户体验的经验和妙想会得到重视,可以站在集团层面,推动与解决难以落地的用户问题。

他的工作就是在电脑前敲数不尽的代码,他经常被人调侃,不是在写程序,就是在准备写程序的路上。每一个开发方案的确定都需要反复的推敲与考量,每一个需求的实现都需要反复迭代与深究。一个小小的需求变更就意味着又要多几个夜晚,但他从来都是以严慎细实的工作态度来面对每一个挑战。对用户的需求,他总是有求必应、有难必解,是一线用户的救急兵与好战友。

2、最初的需求诞生了

如果你来到我们团队,那么你的职责可能包括但不限于:

信息中心的每一个人,都有着不同的奋斗历程,但他们的心中都怀揣着相同的航空梦。没有人能够脱离时代而成长,同样,也没有人能够脱离时代而追梦。我们每个人的身上都铭刻着时代的重任,铭刻着我们奉献的记忆和铸就的图腾。在祖国广袤大地上的某个角落,每一个信息人,都在用一串串代码践行着自己最初的诺言,用指尖敲出他们心中最纯的那片底色。

当我们还在使用 SSH 跟 SCP 的时候,每个员工只需要一个密码,不管是登陆生产环境还是测试环境。我更改密码的时候也立即生效,而且我不想让 SA 知道我的密码,这就是我们最初的需求。

  1. 负责Alibaba客户服务相关的产品研发
  2. 深入发掘和分析业务需求,撰写技术方案和系统设计
  3. 核心代码编写、指导和培训工程师、不断进行系统优化
  4. 参与或领导跨团队的研发项目

图片 2

岗位要求:

明确了需求之后,我们就开始考虑选择什么工具合适。有一种方案很简单就是我们用一个配置管理工具把这个服务器上面的 shadow/passwd 文件管理起来。

  1. JAVA基础扎实,理解io、多线程、集合等基础框架,对JVM原理有一定的了解;
  2. 3年及以上使用JAVA开发的经验,对于你用过的开源框架,能了解到它的原理和机制;对Spring,ibatis,struts等开源框架熟悉;
  3. 熟悉分布式系统的设计和应用,熟悉分布式、缓存、消息等机制;能对分布式常用技术进行合理应用,解决问题;
  4. 掌握多线程及高性能的设计与编码及性能调优;有高并发应用开发经验;
  5. 掌握Linux 操作系统和大型数据库(Oracle、MySql);对sql优化有丰富的经验;
  6. 学习能力强,适应能力好;具备耐心/细心的品质;
  7. 喜欢去看及尝试最新的技术,追求编写优雅的代码,从技术趋势和思路上能影响技术团队

但是这样很被动,我所有的操作都依赖于它,我很多的操作生效期都会受到影响。还有另一个解决方案就是身份认证系统,我们知道这个是人人一直在用的  Kerberos,还有 OpenLDAP 也是一个比较热门的,最后就是商业产品堡垒机。

简历尽情发送到kunrong.zkr@alibaba-inc.com

而创业公司的我们认为成本是第一要素,毋庸置疑首选就是开源。究竟是选择 kerberos 还是 OpenLDAP 呢?

我们请教了一个以前用过这方面的大拿,他推荐使用 OpenLDAP,因为使用起来很简单,就是用账户密码登陆。而 Kerberos 他可能会比较复杂一些,因为它有 Ticket 的认证过程。

所以我们就初步选择 OpenLDAP 了。同时我们发现国外的大厂 Facebook 和 谷歌都要使用 OpenLDAP,这就给了我们很大的信心。

同时,我们与商业产品进行对比,主要是价格和功能上有大的差异。

图片 3

价格方面: 一个机房我只要一台服务器,甚至是半台就可以搭建 OpenLDAP 服务,大约成本不到2万,而这个商业的堡垒机需要将近20万的成本。

架构模式: 差不多,一个 CS 一个 BS。

授权模式: 就是我们在对用户的权限管理方式,商业会比较有优势,这方面考虑的还是不错。还有操作回放是商业比较好的一个特征,因为他们支持这种审计功能,他们知道每一个用户登陆上去都在做什么。

 但是后面这个开源也有,我们是通过 script 命令,就是可以把一个用户所有的操作包括回显都可以记录。这个还是挺不错的。

最主要的就是价格,老板说 OK 就可以了,毕竟老板对钱都是非常敏感的。

3、如何实施 OpenLDAP

我介绍一下 OpenLDAP,它是轻量级目录访问协议,它特别适用于查询多但写入少的场景,可以做到毫秒级响应,但是如果是变更多的场景就不合适了。

图片 4

然而它是怎么工作的呢?我们需要在需要认证的服务器上安装一个 OpenLDAP 的客户端,这个客户端其实是系统级别就已经是绑定了,我们就从这个图来看,我们是首先处于左下角。

图片 5

本文由保利彩票app发布于保利彩票平台,转载请注明出处:昨日今日头条宕机与网站可靠性

TAG标签:
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。