|
ITIL4 可用性管理实践【中文】关键信息 可用性管理实践的目的是为了确保服务达到约定的可用性级别,以满足客户和用户的需求。 可用性管理实践确保了服务和资源的可用性需求得到有效的理解和满足,并符合组织的战略和承诺。为了实现这一点,此实践应贯穿于组织产品从构思到运营的整个服务生命周期。 在产品的计划和设计过程中,此实践极为重要。在此阶段做出的决定将影响可用性的级别和相关约束,以及组织监控和管理等方面的能力。 从消费者的角度来看,可用性是服务的重要特性,因此它受到谈判、协议、监控和报告的制约。这些活动涉及多种实践(包括业务分析,关系管理,服务设计,服务级别管理(SLM)以及度量和报告实践等),当可用性管理实践与这些实践结合使用,可以确保可用性得到充分、一致的解决。 定义 可用性:IT服务或其它配置项在需要时执行其约定功能的能力。 从理论上讲,可用性易于度量和理解。这取决于服务发生故障的频率,以及故障恢复的速度。这些特性通常表示为平均故障间隔时间(MTBF)和平均恢复服务时间(MTRS):
在实践中,可用性是一个复杂的特性。要被度量和理解,多次度量和通过服务上下文中理解这些度量的协议是必需的。可用性取决于服务体系结构、服务组件或服务操作的重要性、不可用性标准、服务时间以及其他参数。 从单个用户或群体用户的角度来看,用户理解的可用性可能与提供者或客户角度衡量的可用性不同。例如,在有200个用户的组中,有5个用户无法使用某个服务。这将被五个用户视为中断,但仍可以满足该组其它用户约定的可用性目标。 可用性管理实践应确保所有相关方对可用性(预期的、约定的、计划的和实际的)的理解透明、一致、实际。 当服务提供给数千甚至数百万人时,通常不会与客户签订单个通用可用性协议,但总体服务可用性对服务提供者来说是至关重要。这种服务通常是为高可用性设计的,其中可靠性(高MTBF)与快速恢复(短MTRS)保持平衡。 可用性与服务性能、容量、连续性和信息安全密切相关。ITIL 管理实践指南在论述这些领域时通常涉及配置项和服务的相同特征,但着重于质量的不同方面。这些实践可以从共享所有服务管理四维模型的资源中受益匪浅;但是,在某些情况下,尤其是在服务连续性和信息安全等严格监管的领域中,需要明确区分责任。 2.2术语和概念服务可用性是业务成功的关键,服务可用性与客户和用户满意度直接相关。然而,当服务失败时,也是有可能达到客户满意的。服务提供者在故障情况下的反应方式对客户感知有很大的影响。 如果不了解服务如何支持使用者,就很难提高可用性。 2.2.1关键业务功能关键业务功能(VBF)是一个术语,用于反映服务中对组织的成功至关重要的部分。服务还可能支持许多不是至关重要的业务功能。 例如,电子邮件服务的VBF是发送和接收电子邮件,并访问已归档的消息。访问日历的能力可能不是至关重要的。 关键功能和非关键功能之间的区别非常重要,它将会影响可用性设计和相关成本。通常,业务功能越重要,它就需要越有弹性和可用性。 2.2.2 不同类型服务的可用性对于不同类型的服务产品,可以定义不同的可用性。例如,如果服务提供:
2.2.3 可用性标准定义服务的可用性需求通常很复杂。一个服务可能有多个功能和客户,每个客户可能对每个功能有不同的可用性需求。 通常,对于非功能性需求,性能低下(服务缓慢、不安全、不兼容,等等)和不可用性之间的界限很难确定。 在定义服务可用性时,必须考虑以下几点:
这些因素反映了服务提供者和客户如何定义不可用性。在服务级别协议中记录约定的服务可用性标准是一种好的做法。 2.2.4可用性指标可用性是服务质量的最重要指标之一,因此服务提供者必须能够度量、评估和报告可用性。普遍接受的做法是报告可用性的百分比,可用一个简单的公式计算: 可用性= (约定的服务时间-停机时间) / 约定的服务时间 该公式可能很有用,特别是对于资源提供服务,但它不能反映复杂的服务中断场景对业务的影响。 理想的可用性指标是度量(由于服务不可用而造成的财务)损失。不幸的是,通常很难或不可能度量或估计这样的指标。因此,服务提供者和客户应该定义一组可接受的度量标准,以反映客户如何因服务中断而损失财物,即使这些度量标准可能不太准确。 应考虑以下因素: 累计服务中断时间越长,损失越大。 单次服务中断时间越长,损失越大。在大多数情况下,停机期间的经济损失成倍增长。服务提供者可能会面临罚款、监管惩罚、竞争优势减弱、声誉受损等问题。 故障越频繁,损失就越大,因为管理损失事件和重新启动业务运营相关的费用很高。 可用性可以通过各种方式进行测量,评估和报告。这些包括但不限于以下指标:
在定义度量可用性的指标时,反映服务中断的业务影响而不是服务组件的技术可用性是至关重要的。 2.2.5可用性度量可用性度量基于精确跟踪的停机时间。因此,可用性管理实践最重要的目标之一是设计和管理可用性监视工具,并将结果数据转换为有意义的服务可用性信息。 事件管理记录是服务中断数据的一个来源。然而,基于事件日志的可用性数据通常不可靠,并且很难与约定的服务可用性指标相一致。 基础设施监控工具是可用性数据的常见来源。然而,尽管来自这些工具的信息在度量资源提供服务的可用性时很有用,但是在度量支持业务运营服务的可用性时就不那么有用了。诸如真实用户监控和业务交易监控之类的工具对这些服务更有用。 表2.1进一步概述了可用性度量方法。 表2.1 可用性度量方法 2.3 适用范围可用性管理实践确保服务交付约定的可用性级别,以满足客户和用户的成本效益需求。为了实现这一点,实践包括可用性的定义、度量、分析和改进,并为可用性事件提供一个知识库,以支持其他服务管理实践。 可用性管理实践的适用范围非常广泛。几乎每一个ITIL实践都直接或间接地对服务可用性做出了贡献。表2.2中列出了与可用性管理实践密切相关的其他实践的活动。重要的是要记住,ITIL实践只是在价值流环境中的一个工具的集合;根据情况,应将它们结合起来使用。 表2.2与其他实践指南中描述的可用性管理实践相关的活动
2.3.1可用性与连续性之间的界线服务连续性和可用性管理之间的界限很细微。这两种做法都涉及对可能导致服务失效的事件的风险、识别和准备的概念。在这两种情况下,都需要了解VBFs、风险评估和服务故障的业务影响分析(BIA)。最终,这两种实践都确保了组织的抗故障能力。 一些组织更倾向于不区分可用性和连续性管理。但是,两者之间还是存在些差异,如表2.3所示。 表2.3 可用性管理和服务连续性管理之间的区别
服务连续性管理实践对轻度或对组织没有严重影响的短期故障不感兴趣。它关注与重大损害相关的风险,而不考虑其发生的可能性。这些通常是紧急情况;火灾、洪水、停电、数据中心或站点故障等灾难。尽管可用性管理实践没有忽略故障对服务提供者和使用者的负面影响,但是在此过程中也会考虑单个组件的轻微中断。 可用性规划专注于满足当前和未来已约定的客户要求,并避免出现偏差。可用性管理实践通常是通过实现主动的对策和减少不需要的事件的可能性来发现和消除单点故障。服务连续性管理实践侧重于计划管理破坏性事件的严重后果。服务连续性管理活动通常不会影响事件发生的概率。 可用性管理实践的目的是:通过合理的成本确保所提供服务的可用性,以满足客户当前和将来已约定的需求。通过优化,从业人员试图利用可用资源来达到最大程度的可用性。连续性管理活动几乎总是在发生紧急情况时创建冗余(例如备份站点,更换设备资金,外部协议等)。这两种做法的目标之间存在着矛盾。 最后,可用性管理实践使用统计数据并分析趋势,而连续性管理实践关注的是如何响应破坏性事件。 2.3.2可用性管理在服务风险管理中的作用风险的概念是可用性管理实践的核心。为了达到服务可用性目标,实践需要关于风险的信息,这些信息可以由风险管理实践提供。 因此,有效的可用性管理实践可以为风险管理做出重要贡献。大部分风险缓解措施在某种程度上与可用性控件相关。 可用性管理通常侧重于在成本允许的范围内识别和消除单点故障或不可靠或脆弱的组件。(详细信息见2.4.3)。 2.4实践成功因素定义 实践成功因素:实践的复杂功能型组件,是实践实现其目的所必需的。 实践的成功因素(PSF)不仅仅是一项任务或活动,因为它包括所有服务管理四维模型的组件。活动的性质和实践中PSF的资源可能有所不同,但它们共同确保实践有效。 可用性管理实践包含以下PSF:
2.4.1确认服务可用性需求为了有效管理可用性,服务提供者应该识别服务可用性的需求。这些需求应反映服务客户可能如何受到服务中断的影响。 确认服务的可用性需求可能是单独的实现价值,但它通常是SLM实践中服务级别协商的一部分,或者与服务连续性管理实践共同执行的更广泛的BIA。 确认服务可用性的需求包括:
2.4.1.1了解客户对服务可用性的需求业务分析和SLM实践通常涉及与客户进行沟通,以了解他们对IT服务的可用性需求,并协商服务级别需求。可用性管理实践为SLM、业务分析、服务设计实践提供了重要的支持和输入。可用性要求总是需要平衡成本和质量之间的关系;可用性管理实践可以在优化服务的可用性,满足不断增长的可用性需求,延迟成本增长这三方面发挥关键作用。 2.4.1.2确定可用性标准可用性和不可用性之间的界限应明确定义。确定服务可用性标准时应考虑以下因素:
更多细节见第2.2.3节 2.4.1.3确定可用性指标并设置目标可用性是最关键的服务质量指标,因为服务客户通常会因为服务中断而蒙受损失。可用性指标和目标应该准确地反映消费者如何受到服务不可用性的影响(有关详细信息,请参阅第2.2.4节)。 2.4.2测量、评估和报告服务可用性服务提供者必须能够正确地测量,评估和报告可用性。以百分比报告可用性是一种被广泛接受的实践,可以基于正常运行时间和停机时间的简单公式计算可用性。尽管它适用于许多情况(特别是资源提供服务),但是这种方法缺乏对复杂服务中断场景的业务影响的可见性。 重要的是要考虑各种度量、评估和报告可用性的方法,包括但不限于以下度量(请参阅2.2.4 有关详细信息):
无论哪种度量标准都适合服务,重要的是要反映服务中断的业务影响,而不是服务组件的技术可用性。 可用性管理实践的最重要目标之一是设计并确保有充分的可用性监控。然后,将监控数据转换为有意义的服务可用性信息。 事件记录是服务中断数据的一个直接来源。但是,通常很难基于事件记录获得可靠的可用性数据,尤其是对于用户报告的事件。数据也很难与商定的服务可用性指标进行匹配。 基础设施监控工具是更可靠的可用性数据来源。然而,尽管它们可以很好地度量资源提供类服务,但是很难度量基于基础架构监控数据正确支持业务运营的服务的可用性。诸如真实的用户监控,业务交易监控之类的工具可以对此提供帮助(请参阅第2.2.5节)。 2.4.3服务可用性风险处理可用性管理实践不仅与规划和监控有关,该实践还包含控件的定义和管理,以管理可能对影响服务可用性造成的一系列风险。为此,它与风险管理实践和其他关注风险的实践(包括服务连续性管理、容量和性能管理以及信息安全管理实践)结合使用。有效的可用性管理实践可以为风险管理做出重大贡献. 表2.4中概述的措施可以作为整体风险缓解计划的一部分来设计和实施。 表2.4 可用性管理的四个维度
选择可用性控件时应评估每个选件的效果和效率。持续控制和验证可用性部署的效果和效率也很重要。
从一开始就将正确的服务可用性级别设计到服务中,而不是试错后添加服务,这样做的成本通常较低。而且,一旦服务被大家认为是不可靠的,重新获得大家的认可则变得非常困难。 以下是FAIR3提出的损失形式,在评估服务可用性风险时可能很有用:
了解影响如何随时间变化也很重要。服务中断造成的损失往往随时间呈指数增长。随着组织产生其主要价值主张的能力下降而造成的损失,声誉风险和财务制裁的威胁也随之产生。 商定的可用性控制是通过服务设计、软件开发和管理以及基础设施和平台管理实践来实现的。 2.5关键指标ITIL实践的有效性和性能应该在每个实践所贡献的价值流背景中进行评估。与任何工具的效果一样,实践的效果只能在其应用的范围内进行评估。然而,工具在设计和质量上可能有很大的差异,这些差异定义了工具的潜力或能力,当根据它们的目的使用时,它们是有效的。在度量和报告实践指南中可以找到关于度量、关键性能指标(KPI)和其他有助于实现这一点的工具的进一步指导。 可用性管理实践的关键指标已被映射到其PSF。它们可以用作价值流背景中的KPI,以评估实践对这些价值流的效果和效率的贡献。表2.5中给出了一些关键指标的示例。 表2.5 实践成功因素的示例指标
将度量指标正确汇总到复杂的标准中,将使数据更易用于价值流的持续管理,以及用于可用性管理实践的定期评估和持续改进。没有单一的最佳解决方案。度量指标将基于组织的整体服务策略和优先级,以及实践所贡献的价值流的目标。 ...... |