可信赖的云服务：Office 365 的可用性

由

2013年8月8日

我们将 Microsoft Office 365 视为“云端的功能完备的办公室”。虽然我们对 Office 拥有 10 亿用户深感自豪，但我们也深切体会到自己必须承担的责任，每天努力满足和超越客户的期望。我们认识到生产力应用是任务关键型应用；使用它们是提高工作效率的关键。我们必须确保服务是值得信赖和可靠的，同时我们需要不断为 Office 365 添加新功能。我们的对策是服务可用性。

Office 365 的可用性

自两年前发布 Office 365 起，我们不断增加对基础结构的投资，确保服务的高可用性。虽然我们当前的客户可以获得详细信息，但是现在我们希望向所有考虑使用 Office 365 的客户提供此信息。我们使用 Office 365 服务在一个日历月中可用的分钟数与该月份总分钟数的百分比来衡量可用性。我们称这种可用性衡量标准为运行时间数。该计算中包括企业、政府和教育服务。2012 年 7 月至 2013 年 6 月的最近四个季度中，Office 365 全球运行时间数分别为 99.98%、99.97%、99.94% 和 99.97%。将来，我们会在 Office 365 信任中心公布每季度的运行时间数。

以下是有关运行时间数的详细信息：

运行时间数包括 Exchange、SharePoint、Lync 和 Office Web 应用，根据使用服务的人数加权。如果客户同时使用这些服务，则计算运行时间时会考虑所有服务。
此运行时间数适用于 Office 365 企业版、教育版和政府版。此计算不包括使用者服务。
Office 365 专业增强版是服务产品中必不可少的部分，但不包括在此运行时间计算中，因为它们主要在用户设备上运行。
个人客户的运行时间数可能会比全球运行时间数更高或更低，具体取决于位置和使用模式。

为了实现对服务运行高可用性的承诺，我们拥有具有财务支持的 99.9% 的服务水平协议。

可用性设计原则

几十年来，我们一直在构建企业级解决方案。此外，Microsoft 还运行多种云服务，如 Office 365、Microsoft Azure、CRM Online、Outlook.com、SkyDrive、Bing、Skype 和 Xbox Live 等。我们受益于这种服务多样性，利用各服务的最佳做法，改进软件设计和操作流程。

以下是 Office 365 的设计和操作流程中应用的一些最佳做法示例。

冗余。 每层的冗余 – 物理、数据和功能冗余：

我们在服务器的磁盘/卡级别、数据中心的服务器级别以及跨地理分隔的数据中心的服务级别构建物理冗余，防止出现故障。每个数据中心都有设施和电源冗余。我们有服务于每个地区的多个数据中心。
为了在数据级别构建冗余，我们不断跨地理位置分隔的数据中心复制数据。我们的设计目标是维护传输中数据或静态数据的多个副本并维护故障转移功能，以实现快速恢复。
除了物理和数据冗余之外，作为核心优势之一，我们还构建了 Office 客户端以提供功能冗余，使用户在无网络连接时通过脱机功能提高工作效率。

复原。 跨故障域的主动负载均衡和不间断恢复测试：

我们主动均衡负载，以自动化方式尽可能为最终用户提供最佳体验。这些机制还会动态设置优先级，使低优先级任务在低活动期间执行，而在高负载期间延迟执行。
在硬件或软件故障和监视警报期间，可以自动或手动故障转移到正常运行的资源。
我们跨故障域定期执行恢复，确保需要故障转移的环境的就绪性。

分布式服务。 功能分布式组件服务：

Office 365 中的组件服务（如 Exchange、SharePoint、Lync 和 Office Web 应用）为功能分布式，确保某个区域中的故障范围和影响仅限于该区域，不会影响其他区域。
我们会跨组件服务复制目录数据，因此如果某个服务出现问题，用户可以无缝登录和使用其他服务。
我们的运营和部署团队受益于服务的分布式特性，从而简化有关维护和部署、诊断、修复和恢复的各个方面。

监视。大量的监视、恢复和诊断工具：

内部监视系统会不断监视服务是否出现故障，并且可以自动执行服务恢复。
系统会分析服务行为的任何偏差，提醒待命工程师主动采取措施。
我们还从全球多个地点，通过受信任的第三方服务（对于独立 SLA 验证）和我们自己的全球数据中心发出警报，不断执行由外而内的监视。
对于诊断，我们有大量的记录、审核和跟踪。粒度跟踪和监视有助于从根本原因上排查问题。

简化。通过降低复杂性，增加可预测性：

我们尽可能使用标准化组件。这可降低部署和问题排查复杂性，提高故障和恢复的可预测性。
我们尽可能使用标准化流程。重点不仅在于自动化，而且还可确保关键流程的可重复性。
我们将软件组件架构松散耦合，使其部署和持续正常运行不需要复杂的编排。
变更管理在全球部署前，经过了渐进式、分阶段且经过检查的范围设定和验证环节。

人工备份。全天候通话支持：

除了可能情况下的自动恢复操作，我们还配备了提供全天候支持的专家团队。该团队包括支持工程师、产品开发人员、项目经理、产品经理和高层领导。
整个团队随时待命，可针对问题解决做出快速响应和信息收集。
随时待命的专家不仅会提供备份，还会在每次接到寻求帮助的呼叫后改进自动化系统。

持续学习

我们知道有时你可能会遇到服务中断。每次中断后，无论影响程度如何，我们都会进行彻底的事后检查。事后检查会分析发生的情况、我们的应对方式以及将来如何防止类似事件发生。如果你的组织受到影响，出于透明和问责考虑，我们会分享任何重大服务事件的事后检查结果。作为一个大型企业，Microsoft 也会首先试用自己的产品，即使用我们自己的预生产服务开展日常业务。持续改进是提供高可用性、世界一流服务的关键。

一致的沟通

透明度需要一致的沟通，特别是当你使用在线生产力服务开展业务时。我们有多种沟通渠道，如电子邮件，RSS 源和服务正常运行状况仪表板。作为 Office 365 客户，你可以详细了解与你的组织相关的服务的可用性。Office 365 服务运行状况仪表板是了解服务和许可证当前状态的窗口。我们将继续推动服务运行状况仪表板的改进，包括跟踪更新及时性，确保用户充分了解服务运行状况。

我们还有一些令人欣喜的新工具，可确保用户使用最新服务。上周，我们在管理门户上发布了一个名为“消息中心”的新功能。消息中心是管理员所需的服务通信、租户报告和操作中心。此外，今年年底，管理员可望获得一款新的移动应用，该应用将提供服务正常运行状况的信息以及其他关于服务的通信。

在不断增加的规模上运行全面的、不断发展的服务是一个挑战，尽管我们全力以赴，但是也会出现服务中断的情况。我们向你保证，我们将不断学习，不遗余力地践行我们的承诺 – 提供满足你预期的可靠的高可用性服务。服务连续性不仅是工程原则，也是我们在 SLA 中对客户的承诺，是 Office 365 信任中心的关键支柱之一（其他四个支柱是隐私、安全性、符合性和透明度）。此次公开 Office 365 正常运行时间证明了我们对服务连续性和透明度的不变承诺。