首页 >> 网友热议 >>ITIL >> ITIL4 可用性管理实践【中文】
详细内容

ITIL4 可用性管理实践【中文】

关键信息

可用性管理实践的目的是为了确保服务达到约定的可用性级别,以满足客户和用户的需求。

可用性管理实践确保了服务和资源的可用性需求得到有效的理解和满足,并符合组织的战略和承诺。为了实现这一点,此实践应贯穿于组织产品从构思到运营的整个服务生命周期。

在产品的计划和设计过程中,此实践极为重要。在此阶段做出的决定将影响可用性的级别和相关约束,以及组织监控和管理等方面的能力。

从消费者的角度来看,可用性是服务的重要特性,因此它受到谈判、协议、监控和报告的制约。这些活动涉及多种实践(包括业务分析,关系管理,服务设计,服务级别管理(SLM)以及度量和报告实践等),当可用性管理实践与这些实践结合使用,可以确保可用性得到充分、一致的解决。

定义

可用性:IT服务或其它配置项在需要时执行其约定功能的能力。

从理论上讲,可用性易于度量和理解。这取决于服务发生故障的频率,以及故障恢复的速度。这些特性通常表示为平均故障间隔时间(MTBF)和平均恢复服务时间(MTRS):

  • MTBF 度量服务发生故障的频率。例如,平均而言,MTBF为4周的服务每年会发生13次故障。

  • MTRS 度量故障后服务恢复的速度。例如,平均而言,MTRS为四个小时的服务将在四个小时内从故障完全恢复。

在实践中,可用性是一个复杂的特性。要被度量和理解,多次度量和通过服务上下文中理解这些度量的协议是必需的。可用性取决于服务体系结构、服务组件或服务操作的重要性、不可用性标准、服务时间以及其他参数。

从单个用户或群体用户的角度来看,用户理解的可用性可能与提供者或客户角度衡量的可用性不同。例如,在有200个用户的组中,有5个用户无法使用某个服务。这将被五个用户视为中断,但仍可以满足该组其它用户约定的可用性目标。

可用性管理实践应确保所有相关方对可用性(预期的、约定的、计划的和实际的)的理解透明、一致、实际。

当服务提供给数千甚至数百万人时,通常不会与客户签订单个通用可用性协议,但总体服务可用性对服务提供者来说是至关重要。这种服务通常是为高可用性设计的,其中可靠性(高MTBF)与快速恢复(短MTRS)保持平衡。

可用性与服务性能、容量、连续性和信息安全密切相关。ITIL 管理实践指南在论述这些领域时通常涉及配置项和服务的相同特征,但着重于质量的不同方面。这些实践可以从共享所有服务管理四维模型的资源中受益匪浅;但是,在某些情况下,尤其是在服务连续性和信息安全等严格监管的领域中,需要明确区分责任。

2.2术语和概念

服务可用性是业务成功的关键,服务可用性与客户和用户满意度直接相关。然而,当服务失败时,也是有可能达到客户满意的。服务提供者在故障情况下的反应方式对客户感知有很大的影响。

如果不了解服务如何支持使用者,就很难提高可用性。

2.2.1关键业务功能

关键业务功能(VBF)是一个术语,用于反映服务中对组织的成功至关重要的部分。服务还可能支持许多不是至关重要的业务功能。

例如,电子邮件服务的VBF是发送和接收电子邮件,并访问已归档的消息。访问日历的能力可能不是至关重要的。

关键功能和非关键功能之间的区别非常重要,它将会影响可用性设计和相关成本。通常,业务功能越重要,它就需要越有弹性和可用性。

2.2.2 不同类型服务的可用性

对于不同类型的服务产品,可以定义不同的可用性。例如,如果服务提供:

  • 保障业务运营(例如贷款审批流程或财务报告流程),可用性通常是根据业务操作的执行情况来定义的。

  • 提供对资源的访问(例如网络,打印或电子邮件服务),可用性是根据资源的可用性来定义和度量的。

  • 各种执行类操作(例如用户支持),可用性通常不是适用的措施。相反,重点应该放在及时完成请求上。


2.2.3 可用性标准

定义服务的可用性需求通常很复杂。一个服务可能有多个功能和客户,每个客户可能对每个功能有不同的可用性需求。

通常,对于非功能性需求,性能低下(服务缓慢、不安全、不兼容,等等)和不可用性之间的界限很难确定。

在定义服务可用性时,必须考虑以下几点:

  • 服务保障业务功能可用的临界状态

  • 各种形式的性能不佳和不可用的阈值;例如,在达到约定的阈值之前,发送或接收电子邮件的延迟可以视为服务级别降级,而不是服务不可用

  • 受影响的用户、业务单元或网站的数量;例如,只有在超过一定比例的用户受到影响时,才会认为该服务不可用

  • 某些重要用户、业务单元、网站等是否受到影响;例如,对于电子邮件服务,如果需要直接与客户和合作伙伴通信的用户能够使用服务,则认为服务可用

  • 服务的交付时间表和高峰时间:仅在夜间或周末出现中断的服务可能不会被视为不可用。

这些因素反映了服务提供者和客户如何定义不可用性。在服务级别协议中记录约定的服务可用性标准是一种好的做法。

2.2.4可用性指标

可用性是服务质量的最重要指标之一,因此服务提供者必须能够度量、评估和报告可用性。普遍接受的做法是报告可用性的百分比,可用一个简单的公式计算:

可用性= (约定的服务时间-停机时间) / 约定的服务时间

该公式可能很有用,特别是对于资源提供服务,但它不能反映复杂的服务中断场景对业务的影响。

理想的可用性指标是度量(由于服务不可用而造成的财务)损失。不幸的是,通常很难或不可能度量或估计这样的指标。因此,服务提供者和客户应该定义一组可接受的度量标准,以反映客户如何因服务中断而损失财物,即使这些度量标准可能不太准确。

应考虑以下因素:

累计服务中断时间越长,损失越大。

单次服务中断时间越长,损失越大。在大多数情况下,停机期间的经济损失成倍增长。服务提供者可能会面临罚款、监管惩罚、竞争优势减弱、声誉受损等问题。

故障越频繁,损失就越大,因为管理损失事件和重新启动业务运营相关的费用很高。

可用性可以通过各种方式进行测量,评估和报告。这些包括但不限于以下指标:

  • 平均故障时间

  • 两次故障之间的最短时间

  • 服务中断次数

  • 周期内总计停机时间

  • 最大单次中断时长

  • 平均修复时间

在定义度量可用性的指标时,反映服务中断的业务影响而不是服务组件的技术可用性是至关重要的。

2.2.5可用性度量

可用性度量基于精确跟踪的停机时间。因此,可用性管理实践最重要的目标之一是设计和管理可用性监视工具,并将结果数据转换为有意义的服务可用性信息。

事件管理记录是服务中断数据的一个来源。然而,基于事件日志的可用性数据通常不可靠,并且很难与约定的服务可用性指标相一致。

基础设施监控工具是可用性数据的常见来源。然而,尽管来自这些工具的信息在度量资源提供服务的可用性时很有用,但是在度量支持业务运营服务的可用性时就不那么有用了。诸如真实用户监控和业务交易监控之类的工具对这些服务更有用。

表2.1进一步概述了可用性度量方法。

表2.1 可用性度量方法

1642260015519-391.png

1642260045698-120.png

2.3 适用范围

可用性管理实践确保服务交付约定的可用性级别,以满足客户和用户的成本效益需求。为了实现这一点,实践包括可用性的定义、度量、分析和改进,并为可用性事件提供一个知识库,以支持其他服务管理实践。

可用性管理实践的适用范围非常广泛。几乎每一个ITIL实践都直接或间接地对服务可用性做出了贡献。表2.2中列出了与可用性管理实践密切相关的其他实践的活动。重要的是要记住,ITIL实践只是在价值流环境中的一个工具的集合;根据情况,应将它们结合起来使用。

表2.2与其他实践指南中描述的可用性管理实践相关的活动


活动实践指南
协商并同意客户的可用性要求SLM
将可用性控件设计为服务模型的一部分服务设计
将可用性控件与业务体系结构保持一致架构管理
识别与可用性相关的风险风险管理
分析变更对可用性目标的影响变更支持
监控服务的可用性监控和事态管理
验证新的可用性控件组合管理

实施风险缓解措施

变更IT基础设施以提高可用性

项目管理、变更支持
在服务转换期间测试可用性控件服务验证和测试

对可能影响组织达到可用性目标能力的事件做出反应

管理可用性事件

事件管理、监控和事态管理
持续管理和实施改进持续改进



2.3.1可用性与连续性之间的界线

服务连续性和可用性管理之间的界限很细微。这两种做法都涉及对可能导致服务失效的事件的风险、识别和准备的概念。在这两种情况下,都需要了解VBFs、风险评估和服务故障的业务影响分析(BIA)。最终,这两种实践都确保了组织的抗故障能力。

一些组织更倾向于不区分可用性和连续性管理。但是,两者之间还是存在些差异,如表2.3所示。

表2.3 可用性管理和服务连续性管理之间的区别

可用性管理服务连续性管理
专注于高概率风险重点关注高影响的风险(突发事件,灾难)
更主动更被动
减少不必要事件的可能性减少不必要事件的影响
专注于技术解决方案注重组织措施
专注于优化专注于创建冗余
不是公司职能的一部分通常是公司职能的一部分
常态不可抗力
MTRS、MTBF、平均服务事件时间恢复时间目标、恢复点目标

服务连续性管理实践对轻度或对组织没有严重影响的短期故障不感兴趣。它关注与重大损害相关的风险,而不考虑其发生的可能性。这些通常是紧急情况;火灾、洪水、停电、数据中心或站点故障等灾难。尽管可用性管理实践没有忽略故障对服务提供者和使用者的负面影响,但是在此过程中也会考虑单个组件的轻微中断。

可用性规划专注于满足当前和未来已约定的客户要求,并避免出现偏差。可用性管理实践通常是通过实现主动的对策和减少不需要的事件的可能性来发现和消除单点故障。服务连续性管理实践侧重于计划管理破坏性事件的严重后果。服务连续性管理活动通常不会影响事件发生的概率。

可用性管理实践的目的是:通过合理的成本确保所提供服务的可用性,以满足客户当前和将来已约定的需求。通过优化,从业人员试图利用可用资源来达到最大程度的可用性。连续性管理活动几乎总是在发生紧急情况时创建冗余(例如备份站点,更换设备资金,外部协议等)。这两种做法的目标之间存在着矛盾。

最后,可用性管理实践使用统计数据并分析趋势,而连续性管理实践关注的是如何响应破坏性事件。

2.3.2可用性管理在服务风险管理中的作用

风险的概念是可用性管理实践的核心。为了达到服务可用性目标,实践需要关于风险的信息,这些信息可以由风险管理实践提供。

因此,有效的可用性管理实践可以为风险管理做出重要贡献。大部分风险缓解措施在某种程度上与可用性控件相关。

可用性管理通常侧重于在成本允许的范围内识别和消除单点故障或不可靠或脆弱的组件。(详细信息见2.4.3)。

2.4实践成功因素

定义

实践成功因素:实践的复杂功能型组件,是实践实现其目的所必需的。

实践的成功因素(PSF)不仅仅是一项任务或活动,因为它包括所有服务管理四维模型的组件。活动的性质和实践中PSF的资源可能有所不同,但它们共同确保实践有效。

可用性管理实践包含以下PSF:

  • 识别服务可用性需求

  • 度量、评估和报告服务可用性

  • 处理服务可用性风险。


2.4.1确认服务可用性需求

为了有效管理可用性,服务提供者应该识别服务可用性的需求。这些需求应反映服务客户可能如何受到服务中断的影响。

确认服务的可用性需求可能是单独的实现价值,但它通常是SLM实践中服务级别协商的一部分,或者与服务连续性管理实践共同执行的更广泛的BIA。

确认服务可用性的需求包括:

  • 了解客户对服务可用性的需求

  • 确定可用性标准

  • 确定可用性指标并设置目标


2.4.1.1了解客户对服务可用性的需求

业务分析和SLM实践通常涉及与客户进行沟通,以了解他们对IT服务的可用性需求,并协商服务级别需求。可用性管理实践为SLM、业务分析、服务设计实践提供了重要的支持和输入。可用性要求总是需要平衡成本和质量之间的关系;可用性管理实践可以在优化服务的可用性,满足不断增长的可用性需求,延迟成本增长这三方面发挥关键作用。

2.4.1.2确定可用性标准

可用性和不可用性之间的界限应明确定义。确定服务可用性标准时应考虑以下因素:

  • 服务支持的业务功能可用的临界状态

  • 性能不佳和完全不可用的阈值(可能存在可接受的延迟,不应将其视为服务不可用)

  • 规模因素(用户数量,业务单元,受影响的站点)

  • 必然会被影响到的用户,业务单元,站点等

  • 服务的交付时间表和高峰时间。

更多细节见第2.2.3节

2.4.1.3确定可用性指标并设置目标

可用性是最关键的服务质量指标,因为服务客户通常会因为服务中断而蒙受损失。可用性指标和目标应该准确地反映消费者如何受到服务不可用性的影响(有关详细信息,请参阅第2.2.4节)。

2.4.2测量、评估和报告服务可用性

服务提供者必须能够正确地测量,评估和报告可用性。以百分比报告可用性是一种被广泛接受的实践,可以基于正常运行时间和停机时间的简单公式计算可用性。尽管它适用于许多情况(特别是资源提供服务),但是这种方法缺乏对复杂服务中断场景的业务影响的可见性。

重要的是要考虑各种度量、评估和报告可用性的方法,包括但不限于以下度量(请参阅2.2.4 有关详细信息):

  • 平均故障时间

  • 最短故障时间

  • 服务中断次数

  • 服务周期内总计停机时间

  • 最大单次中断时间

  • 平均恢复时间

无论哪种度量标准都适合服务,重要的是要反映服务中断的业务影响,而不是服务组件的技术可用性。

可用性管理实践的最重要目标之一是设计并确保有充分的可用性监控。然后,将监控数据转换为有意义的服务可用性信息。

事件记录是服务中断数据的一个直接来源。但是,通常很难基于事件记录获得可靠的可用性数据,尤其是对于用户报告的事件。数据也很难与商定的服务可用性指标进行匹配。

基础设施监控工具是更可靠的可用性数据来源。然而,尽管它们可以很好地度量资源提供类服务,但是很难度量基于基础架构监控数据正确支持业务运营的服务的可用性。诸如真实的用户监控,业务交易监控之类的工具可以对此提供帮助(请参阅第2.2.5节)。

2.4.3服务可用性风险处理

可用性管理实践不仅与规划和监控有关,该实践还包含控件的定义和管理,以管理可能对影响服务可用性造成的一系列风险。为此,它与风险管理实践和其他关注风险的实践(包括服务连续性管理、容量和性能管理以及信息安全管理实践)结合使用。有效的可用性管理实践可以为风险管理做出重大贡献.

表2.4中概述的措施可以作为整体风险缓解计划的一部分来设计和实施。

表2.4 可用性管理的四个维度

服务管理维度可用性风险对策
组织和人员通过培训提高人们的能力
信息和技术

利用容灾技术避免计划内或计划外组件停机对服务可用性的影响

提供冗余机制或提供备用IT基础设施组件,以允许一个组件接管另一个组件的工作

通过优化测试方法来改进组件可靠性

改进软件设计和开发过程

引入弹性通讯网络

运维中的数据保护:局域网服务器的RAID阵列和磁盘镜像可以避免数据丢失以确保数据的可用性持续有效

监控(提供提示告警)

合作伙伴和供应商改进外部提供的服务,合同或协议
价值流和流程

改进事件管理

改进测试

选择可用性控件时应评估每个选件的效果和效率。持续控制和验证可用性部署的效果和效率也很重要。

  • 效果:根据风险管理原则,应评估可用性控件的效果,并将其与事件造成的预期损失进行比较。

  • 效率:还应评估可用性控件的成本,并将其与效益进行比较。效益是通过估计控制实施后事件降低的可能性,然后乘以事件发生后可能产生的影响的严重程度来计算的。应将价值的成本与实施该措施的成本进行比较(此处可以使用成本效益分析)。

从一开始就将正确的服务可用性级别设计到服务中,而不是试错后添加服务,这样做的成本通常较低。而且,一旦服务被大家认为是不可靠的,重新获得大家的认可则变得非常困难。

以下是FAIR3提出的损失形式,在评估服务可用性风险时可能很有用:

  • 生产力:服务提供者提供服务能力的降低

  • 响应:与管理损失事件相关的费用

  • 替换:资产的固有价值,或者与替换被丢失或被损坏的资产相关的费用(例如购买替换服务器)

  • SLA:罚款和监管判罚 对服务提供者采取的法律或监管措施

  • 竞争优势:与竞争优势减弱相关的损失

  • 声誉:与服务提供者的外部评价相关的损失。

了解影响如何随时间变化也很重要。服务中断造成的损失往往随时间呈指数增长。随着组织产生其主要价值主张的能力下降而造成的损失,声誉风险和财务制裁的威胁也随之产生。

商定的可用性控制是通过服务设计、软件开发和管理以及基础设施和平台管理实践来实现的。

2.5关键指标

ITIL实践的有效性和性能应该在每个实践所贡献的价值流背景中进行评估。与任何工具的效果一样,实践的效果只能在其应用的范围内进行评估。然而,工具在设计和质量上可能有很大的差异,这些差异定义了工具的潜力或能力,当根据它们的目的使用时,它们是有效的。在度量和报告实践指南中可以找到关于度量、关键性能指标(KPI)和其他有助于实现这一点的工具的进一步指导。

可用性管理实践的关键指标已被映射到其PSF。它们可以用作价值流背景中的KPI,以评估实践对这些价值流的效果和效率的贡献。表2.5中给出了一些关键指标的示例。

表2.5 实践成功因素的示例指标

实践成功因素关键指标
识别服务可用性需求

产品和服务具有清晰的可用性标准的百分比

SLA中包含可用性需求的(关键的)产品和服务的百分比

在服务变更时及时更新服务可用性需求

度量、评估和报告服务可用性

具有确定的可用性指标的产品和服务的百分比

可用性和性能或绩效监控涵盖的产品和服务的百分比

服务可用性报告中包含的产品和服务的百分比

应对服务可用性风险

MTBF

两次故障之间的最短时间

服务中断次数

服务期内停机时间

最大服务中断时间

MTRS

有效可用性控件的百分比

实际损失与预期损失之间的比率

将度量指标正确汇总到复杂的标准中,将使数据更易用于价值流的持续管理,以及用于可用性管理实践的定期评估和持续改进。没有单一的最佳解决方案。度量指标将基于组织的整体服务策略和优先级,以及实践所贡献的价值流的目标。

......

点击阅读全文:http://itil4hub.cn/bin/view/ITIL%204%E5%8F%AF%E7%94%A8%E6%80%A7%E7%AE%A1%E7%90%86%E5%AE%9E%E8%B7%B5%E4%B8%AD%E6%96%87%E7%89%88/


CALL US
4008060230

EMAIL
karen@itilxf.com

Weixin
18027379316

ADDRESS

深圳罗湖区宝安南路中航凯特大厦

深圳市艾拓先锋企业管理咨询有限公司   Copyright 2017   粤ICP备17056641号

技术支持: 聚成网络科技 | 管理登录
seo seo