通过有效的故障管理提高系统可靠性(上)
摘要:对电信运营商服务质量问题的关注以前仅限于通信系统供应商,而现在扩展到整个通信设备制造商。运营商提供服务需要高可靠产品,这类产品对故障应具有容错能力,能够在不中断服务的条件下进行维护和升级。本文介绍如何利用有效的故障管理来提高系统可靠性,使其达到"五个九"质量水平。
电信业中的高可靠性又称为高可用性(High Availability),它是一种分类,一般在通信业中用于运营商系统,表示系统具有99.999%正常运行时间(即所谓的五个九),或者说每年的停机时间小于315秒(平均每天不到1秒)。 系统可用性可按下式计算: 可用性=MTTF/(MTTF+MTTR) 其中MTTF为平均无故障时间,MTTR为平均修复时间。 根据该关系式可得出一些有趣的特性。从数学上讲,为了提高可用性,我们可以或者增加MTTF,或者降低MTTR。把MTTF增加N倍和把MTTR降低成1/N是一样的,但如果我们进一步看一下公式,就能发现将MTTR降低50%(MTTR变成0.5MTTR)要比将MTTF增加50%(MTTF变成1.5MTTF)更好,而对这两个参量来讲,还有其它更重要的系统特性。下面用一些简化的假设来看一个系统实例。
假设一个系统由N个部件组成,每个部件的MTTF都相同,记为MTTFcomp,其中部件的失效相互之间独立,且不具有记忆性(即与以前的失效无关),同时每个部件的MTTR也一样,那末系统MTTF为: MTTFsystem=MTTFcomp/N 假设有100个不同的部件,则系统的可用性为: 可用性=(MTTFcomp/100)/((MTTFcomp/100)+MTTR) 如果每个部件都具有五个九的质量,即 MTTFcomp=99,999·MTTR 带入公式可得: 可用性=0.999001,或者说是三个九的可用性。 所以要想使系统达到HA或者五个九的质量,那么每个部件就必须具有七个九的可用性。这是一个简化的说明,但我们可以看到,MTTF是系统每个部件的函数,并且系统MTTF大致与系统中独立的部件数成反比。当部件数目增大时,提高一个部件的MTTFcomp对整个MTTFsystem影响不大(图1)。
MTTR一般随系统的复杂性(如系统部件数)增加而增加,但对于好的设计来讲,MTTR并不直接与部件数成正比(图2)。如果我们能基本独立地对每个部件进行修复,那么MTTR应该是最长系统部件(或部件组)修复时间的函数。所以这就是真正的目标,即找出一个能显示该MTTR模型的设计方法,从而得到较高系统可用性。我们可以构想一个数量较少的修复操作(每一次为一个MTTR),这种操作能满足绝大多数部件失效情况,这样整个问题就变得便于管理了。