信頼できるクラウド サービス: Office 365 の可用性
“クラウドから提供される、すべての機能を備えた Office” – Microsoft では Office 365 をこのように捉えています。私たちは、10 億人のユーザーに Office をご利用いただいている現状をたいへん誇りに思うと同時に、日々お客様の期待に応え、それ以上のものを提供しなければならないという大きな責任も感じています。生産性アプリはミッション クリティカルであり、業務遂行の手段そのものとなっています。私たちの責務は、絶えず新しい機能を Office 365 に追加していくと同時に、提供するサービスが信頼するに値するものであるようにすることです。このことを測定する基準が、サービス可用性です。
Office 365 の可用性
2 年前に Office 365 を公開して以来、サービスの高度な可用性を実現するため、IT 基盤に多大な投資を続けています。 現在ご利用中のお客様には詳細情報をお伝えしてきましたが、本日はこの情報を Office 365 を検討しているすべてのお客様にご提供します。 可用性は、1 暦月に Office 365 サービスが利用可能である時間 (分数) を、その月の総分数で割ることで算出されます。 このように測定される可用性は “稼働率” と呼ばれ、企業向け、公共機関向け、教育機関向けのサービスが対象となります。過去の 4 四半期 (2012 年 7 月から 2013 年 6 月末) の全世界での Office 365 の稼働率はそれぞれ、99.98%、99.97%、99.94%、99.97% でした。 今後、稼働率の数値は四半期ごとに Office 365 セキュリティ センターで公表する予定です。
では、稼働率についてもう少し詳しく説明しましょう。
- 稼働率は Exchange、SharePoint、Lync、Office Web Apps を対象とし、これらの各サービスのユーザー数に応じて重みを付けています。これらのサービスは組み合わせて利用されているので、稼働率の計算ではすべてのサービスが考慮されています。
- この稼働率は、企業向け、教育機関向け、公共機関向けの Office 365 を対象として算出されるもので、コンシューマー向けサービスは含まれません。
- Office 365 ProPlus は Microsoft が提供するサービスの重要な一部ですが、大部分がユーザーのデバイス上で実行されるため、稼働率の計算には含まれません。
- 個人のお客様が実際に得られる稼働率は、場所や使用状況によって、全世界の稼働率を上回るまたは下回ることがあります。
高度な可用性を誇るサービスを提供することのお約束として、返金制度のあるサービス レベル アグリーメントの中で 99.9% の稼働率を保証しています。
可用性のための設計原則
Microsoft は法人向けのソリューションを長年にわたり構築してきました。さらに、Office 365、Windows Azure、CRM Online、Outlook.com、SkyDrive、Bing、Skype、Xbox Live をはじめ、多くのクラウド サービスも運営しています。このようにさまざまなサービスを提供していることで、各サービスのベスト プラクティスを他のサービスにも活用することができ、ソフトウェアの設計と運用プロセスの両面を向上させてきました。
Office 365 の設計と運用プロセスに適用されているベスト プラクティスの一部の例を以下に紹介します。
冗長性: 物理、データ、機能の全層における冗長性
- 物理対策として、物理的な冗長性を確保しています。これは、サーバー内ではディスク レベルおよびカード レベルで、データ センター内ではサーバー レベルで、地理的に分散されたデータ センター間ではサービス レベルで実施されます。各データ センターでは設備と電源を冗長化します。世界の各地域に複数のデータ センターがあります。
- データ レベルでの冗長性を確保するため、データは地理的に分散されたデータ センター間で常時複製されます。設計上の目標は、送信中も保管後もデータの複数のコピーを保持することと、短時間で復旧できるフェールオーバー機能を備えることです。
- 物理的な冗長性とデータの冗長性に加えて、Microsoft の大きな強みとなっているのが、機能的な冗長性を提供する Office クライアントです。ネットワーク接続がない場合、ユーザーはオフライン機能を使用して作業を続行できます。
回復性: 積極的な負荷分散と障害ドメイン間での継続的な復旧テスト
- エンドユーザーに優れたパフォーマンスをできる限り提供するため、自動化された負荷分散を積極的に実施します。このメカニズムには、動的な優先度付けも含まれます。優先度の低いタスクは、活動が少ない時間に実行され、負荷が高い時間には保留されます。
- ハードウェアまたはソフトウェアの障害時や監視アラートの発生時には、自動フェールオーバーと手動フェールオーバーの両方を使用して正常なリソースへの切り替えを実施します。
- フェールオーバーが必要な状況への対応に万全を期すため、障害ドメイン間での復旧を定期的に実施します。
分散サービス: 機能的に分散されたコンポーネント サービス
- Exchange, SharePoint、Lync、Office Web Apps など、Office 365 のコンポーネント サービスは機能的に分散されています。このため、1 つのエリアで障害が発生した場合、障害範囲はそのエリアに限定され、他のエリアに影響が及ぶことはありません。
- ディレクトリ データは、こうしたコンポーネント サービス間で複製されます。このため、1 つのサービスで問題が発生しても、ユーザーは問題なくログインして他のサービスを使用できます。
- サービスの分散により、運用チームおよび導入チームには、保守と展開、診断、修復と復旧などのすべての面が簡素化されるというメリットがもたらされます。
監視: 広範な監視、復旧、診断のためのツール
- Microsoft 内部の監視システムを使用して、サービスに障害が発生していないかどうかを絶えず監視しています。また、監視システムはサービスの自動復旧を実行するように作られています。
- システムによって、サービスの動作に異常がないかどうかを分析し、もし異常があれば、待機しているエンジニアに予防措置をとるようにアラートが通知されます。
- 世界各地の複数の場所で、外側からの監視を常に実行しています。信頼性の高いサード パーティ サービス (独立した SLA 検証のため) と、Microsoft の世界各地のデータ センターの両方を活用して、アラートが通知されるようにしています。
- 診断のために、詳細なログ記録、監査、トレースを実施しています。細部にわたるトレースと監視は、問題の根本原因の究明に役立ちます。
簡素化: 複雑さを抑え、予測可能性を向上
- できる限り、標準化されたコンポーネントを使用しています。これにより、展開や問題究明での複雑さが軽減され、障害復旧の予測可能性が向上されます。
- できる限り、標準化されたプロセスを使用しています。重視するべきポイントは自動化だけではありません。重要なプロセスは常に繰り返して実施し、また繰り返して実施することができるようにする必要があります。
- ソフトウェア コンポーネントは疎結合となるように設計されているため、展開時や稼働中の正常性維持に複雑な調整作業を必要としません。
- 変更管理は、各範囲で段階的かつ機械的に実施し、世界中に展開される前に検証が実施されます。
スタッフによるサポート: 24 時間年中無休で対応するサポート スタッフ
- 復旧処理をできる限り自動化する一方で、お客様をサポートするため、24 時間年中無休で専門チームのスタッフが待機しています。このチームには、サポート エンジニア、製品開発者、プログラム マネージャー、製品マネージャー、上級管理者が含まれています。
- チーム全体で、問題解決に向けた迅速な対応と情報収集ができる体制を整えています。
- 専門チームのスタッフは、サポートを提供するだけでなく、サポートが必要になったすべてのケースを基に自動化システムの強化に努めています。
継続的な調査と研究
サービスの中断は、今後も発生する可能性があります。問題が起きた場合には、影響の大きさにかかわらず、すべてのケースについて事後調査を徹底的に行います。事後調査では、発生した事象と実施した対応を分析し、今後の再発防止策を検討します。透明性と説明責任の観点から、重大なサービス障害でお客様の組織に影響が及んだ場合には事後調査の結果をご提供します。Microsoft は、大企業の一社として、”自社製品を社内で試験運用する” という原則にのっとっています。つまり、運用前のサービスを日常業務を使用しています。継続的な改善は、可用性の高い、世界トップレベルのサービスを提供するための重要な要素です。
一貫した情報伝達
透明性には、一貫した情報伝達が欠かせません。特に、オンライン生産性サービスを使用して業務を行っている場合にはこれが重要です。情報伝達の経路として、電子メール、RSS フィード、サービス正常性ダッシュボードなど、多くのチャネルを用意しています。Office 365 のお客様は、自身の組織に関係するサービスの可用性を細かく確認することができます。Office 365 サービス正常性ダッシュボードは、自身のサービスおよびライセンスの現在の状況を確認することができるウィンドウです。お客様がサービスの正常性を完全に把握できるよう、サービス正常性ダッシュボードには、タイムリーな更新の実行など、繰り返し改良を施しています。
また、お客様が常にサービスについての最新情報を得られるように、新しい魅力的なツールも提供しています。 先日、管理ポータルに “メッセージ センター” という新機能を追加しました。メッセージ センターは、サービスに関する情報の伝達やテナント レポート、管理者が行う必要のある操作に役立つ中心的な場所となります。 また、年内には、サービス正常性情報などのサービスに関する情報を提供する新しいモバイル アプリケーションを管理者向けに提供することも予定しています。
絶えず進化する包括的サービスを、かつてない規模に拡大しながら稼働させ続けることは容易ではありません。さまざまな対策を講じたにもかかわらず、サービスの中断は発生する可能性がありますが、Microsoft は、お客様のご期待に応えるような優れた信頼性と高度な可用性を誇るサービスを提供するため、継続的な調査、研究とたゆまぬ努力を続けることをお約束します。 サービスの継続性は、SLA でお客様に保証している技術的な基準以上に大きな意味を持っています。Microsoft では、Office 365 セキュリティ センターで掲げているプライバシー、セキュリティ、法令遵守、透明性の 4 つの項目と並ぶ重要な柱として、サービスの継続性を捉えています。 今回、Office 365 の稼働率を公表したことで、Microsoft がサービスの継続性と透明性の両方に継続的に取り組んでいることをご理解いただけると幸いです。