您好、欢迎来到现金彩票网!
当前位置:棋牌娱乐 > 物理故障 >

邱模炯:为什么说云主机比物理机故障率更低?

发布时间:2019-06-08 10:25 来源:未知 编辑:admin

  UCloud平台开发中心总监,北京大学计算机系研究生毕业,擅长操作系统、虚拟化和数据中心自动化等云平台的基础技术。

  很多朋友对云平台可用性有所担心,认为用物理机更加放心。今天我想就这个话题抛出个人看法。希望对大家有参考意义。先抛出结论:

  从业务程序的角度,云主机的可用性可以做到比物理机高,即故障率更低(可用性和故障率接近但不是一个概念,为了便于阐述,下面只讨论故障率)。

  我见过很多客户抱怨云主机的故障率。同时,我也见过并且帮好几个使用物理机的客户解决问题:

  他们没有专业团队及大规模环境,对于复杂点的软硬件故障几乎束手无策,有时甚至解决的过程把小问题变成大问题。

  这也是我今天分享这个话题的动力。下面进入正题,下图是云主机和物理机软硬件层次对比:

  从上面的对比看,云主机比物理机故障率貌似要高,因为虚拟化层和宿主机内核非常复杂,引入额外的故障率。这是直觉,而且很有道理:

  AWS 去年就因为虚拟化层内核的安全漏洞大规模重启了物理机,多数AWS 用户受影响。虚拟化层和宿主机内核的BUG 也会同样造成宕机及重启。

  备注:这里我是从终端用户的角度看的,“从厂商购买的”物理机,来对比“从云平台购买的”云主机。

  原因在于:简单来说,云平台厂商往往管理几万几十万台物理服务器,并有比较专业的基础运维团队和内核团队,可以在故障率上做大量的工作,以达成这样的效果:

  承载业务程序的Linux内核,云平台可以帮助用户进行维护。并解决BUG,修复安全漏洞等。

  有人会说,我自己购买的物理机也能做上述优化,效果比云主机更好。真的是这样的么?现实情况是:

  绝大部分公司管理的服务器数量不多,不足以建立相应的团队;同时因为服务器数量少(比如不到万台),做软硬件优化的环境不理想。

  商业Linux发行版(如RHEL6.X)的内核其实有不少BUG,因为内核太庞大、太复杂,BUG 修之不尽而且不断涌现,只要内核有人在改动,更多的BUG就还在路上。

  但我们自己维护的Linux内核,我们可以迅速修复并应用进实际环境,不像商业Linux要等待较长的发布周期。

  我们还可以预先研究别人犯过的错误,把更新补丁打入现在的内核;还可以屏蔽不必要的特性和改动避免BUG的引入。

  简单讲,自主维护内核很灵活,最终质量不低于商业Linux发行版。国内有海量服务器的公司如腾讯和阿里都运行自主维护的Linux内核。

  结合自主维护Linux内核,如果发现了BUG并制作修复补丁后,可以免重启应用到生产环境的Linux内核里。

  这三点的综合效果,使得某些云厂商,因为内核原因造成的宕机低到可以忽略。几万台服务器半年可以减少到一两次。

  可能有些早期用户应该比较有感觉,几年软件宕机不少,给客户推送的故障报告不时就和内核有关,但经过一年半载的工作后,现在几乎没有了。

  服务器硬件故障率的影响因素有厂商品牌、机型、服务器运行时间、以及部件型号的故障率。

  这里的工作需要海量服务器来做,比如上万台才有意义,而几百上千台意义不大。

  一般来说,小厂的服务器故障率会高一些,但大厂即使DELL、联想的个别机型也会有较高故障率。

  这主要和机型设计和生产质量管控有关,就不阐述了。我们能做的是选择故障率低的厂商和机型。

  对于云平台厂商,可以监控这一切故障发生前的征兆,并主动采取措施,通过热迁移手段避免云主机受影响。

  我们的统计发现,部件种类里,硬盘故障故障率最高,其次内存硬件、RAID卡等。

  对于硬盘故障,可以通过RAID方式规避。对于内存硬件,可以通过内存故障隔离等内核手段,大幅度减少其硬件故障造成的宕机及影响。

  总的来讲,通过上述这些工作,云平台厂商可以让服务器硬件故障率逐步降低。其实,可以做的更多,篇幅原因就不讲了。而这样的工作,对于没有海量环境的公司是很难做的,效果也不佳。

  另外,云平台厂商可以替用户修复云主机内核的BUG和安全漏洞,降低内核故障率。

  我们在这方面做了一些工作,内核版本会及时更新,关键漏洞会提供免重启热补丁修复包。

  云主机相比物理机,虚拟化层和宿主机内核的额外复杂性及故障率可以被优化至接近0即可以忽略。

  服务器硬件故障,云平台可以不断降低其故障率,主要手段通过内核隔离硬件故障、热迁移规避故障隐患,以及监控故障率并主动下架不良厂商机型等。

  上述这些工作都需要非常专业的运维团队和内核团队才能实施,如果没有足够大的服务器数量是很难开展的。

  而大型云厂商往往管理几万、几十万服务器,因此具备这样的条件。也因此,云主机故障率能低于物理机(当然,如果什么都不做,云主机故障率一定是高于物理机的)。

http://danielle-streiff.com/wuliguzhang/92.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有