您可信任的雲端服務:Office 365 可用性
我們將 Microsoft Office 365 定位為「您的萬能雲端辦公室」。雖然我們對於 Office 已具有 10 億個之多的使用者感到無比光榮,我們也非常珍惜在每一天都必須滿足並超越客戶期待的重責大任。我們明白生產力 App 的重要性,畢竟使用者必須透過它們才能完成工作。在我們持續將新功能新增至 Office 365 的同時,我們必須確保自己所提供的服務都是可信任且可靠的。對此,我們是以服務可用性來做為基準。
Office 365 可用性
自 Office 365 於兩年前上市以來,我們持續在基礎結構上投注大量成本,以確保服務的高可用性。 這些先前僅提供給我們目前客戶參閱的資訊,將於今天開始供正在考慮使用 Office 365 的所有客戶參考。 我們會以每個行事曆月份的總分鐘數做為分母,並以 Office 365 服務於該月份處於可用狀態的總分鐘數做為分子,藉此計算可用性。 我們將此可用性的評量稱為上線時間。在此計算內,我們也包含了商務、政府及教育服務。Office 365 的全球上線時間,於前四季 (從 2012 年 7 月到 2013 年 6 月) 分別為 99.98%、99.97%、99.94% 及 99.97%。 接下來,我們將會在 Office 365 信任中心公佈每季的上線時間。
以下是其他關於上線時間的一些詳細資料:
- 上線時間包括 Exchange、SharePoint、Lync 及 Office Online,並會以這些服務的個別使用人數進行加權計算。客戶會同時使用這些服務,因此這些因素在計算上線時間時都會納入考量。
- 此上線時間適用於 Office 365 商務版、教育版及政府版。消費者服務並未列入計算。
- Office 365 專業增強版是我們所提供產品中不可或缺的一環,但因為它大部分都是在使用者的裝置上運作,所以並未列入上線時間的計算。
- 根據位置和使用模式的不同,和全球上線時間相比,個別客戶可能會體驗到較高或較低的上線時間百分比。
做為提供高度可用服務的承諾,我們具有含補償方案之 99.9% 上線時間的服務等級協定。
可用性設計原則
在過去數十年間,我們一直持續建置出各種企業級的解決方案。除此之外,Microsoft 具有數個雲端服務,例如 Office 365、Microsoft Azure、CRM Online、Outlook.com、SkyDrive、Bing、Skype 及 Xbox Live 等。我們透過如此多元的服務獲得許多優勢,並能利用來自每個服務的最佳做法截長補短,以進一步改善軟體設計及作業程序。
以下套用至 Office 365 設計及作業程序的幾個最佳做法範例。
備援。 於每個層級 (實體、資料及功能) 進行備援:
- 我們會在伺服器內的磁碟/卡片層級、資料中心內的伺服器層級,以及各地區資料中心內的服務層級建置實體備援,以預防發生失敗的情況。每個資料中心都具有設施及電力上的備援。每個區域皆設有多個資料中心。
- 為了建置資料層級的備援,我們會持續將資料複寫至位於不同區域的資料中心。我們的設計目標是維護資料 (無論是傳輸中還是待用) 的多個複本,以及提供能快速復原的容錯移轉功能。
- 除了實體和資料備援之外,做為我們核心實力的一部分,我們所建置的 Office 用戶端具有提供功能備援的能力,使您可以在沒有網路連線的情況下透過離線功能維持生產力。
復原。 針對失敗網域進行主動式負載平衡及持續性復原測試:
- 我們會主動進行負載平衡,以透過自動化的方式提供使用者最佳的體驗。這些機制也會動態調整優先順序,以在低活動率期間執行優先順序較低的工作,並在高負載期間延後執行這些工作。
- 在硬體或軟體失敗及監視到警示時,我們能以自動化及手動的方式容錯移轉至健康的資源。
- 我們會在失敗網域上例行性地執行復原,以針對需要進行容錯移轉的情況做好準備。
分散式服務。 依功能性分散的元件服務:
- Office 365 中的元件服務 (例如 Exchange、SharePoint、Lync 及 Office Online) 會根據其功能性進行散發,以確保於單一區域中發生之錯誤的範圍及影響不會波及其他區域。
- 我們會在這些元件服務上複寫目錄資料,以確保在其中一項服務發生問題的情況下,使用者仍然可以順暢地登入並使用其他服務。
- 我們的作業及部署小組也能從分散的服務中獲益,因為它能簡化維護與部署、診斷、修復及復原的所有層面。
監控。深入的監控、復原及診斷工具:
- 我們的內部監控系統會持續監視服務是否發生失敗,並能針對服務進行自動化的復原。
- 我們的系統能分析出服務行為中的異常情況並對待命工程師發出警示,以採取主動措施。
- 我們也會透過受信任的協力廠商服務 (以進行獨立的 SLA 驗證) 及我們自己位於世界各地的資料庫,從全球多個位置持續執行 Outside-In 監控。
- 針對診斷,我們具有深入的記錄、稽核及追蹤功能。細微的追蹤及監控功能,可協助我們隔離問題並找出根本原因。
簡化。透過降低複雜度來提升可預測性:
- 我們會盡可能地使用標準化的元件。這能減少部署及問題隔離的複雜度,也能減少可預知的失敗及復原次數。
- 我們會盡可能地使用標準化的程序。重點不只在於自動化,更在於確保重要處理程序能夠重複執行並可以重複執行。
- 我們的軟體元件是以鬆散耦合的形式建構,這能使它們的部署及持續的健全狀態無須複雜的協調流程。
- 我們的變更管理需經歷漸進、分段、檢測的範圍及驗證環節,才能順利部署至全球各地。
人力支援。全年無休的待命支援:
- 雖然我們提供能在可行的情況下執行的自動復原動作,我們也有待命的專業團隊能為您提供全年無休的支援。團隊成員包括支援工程師、產品開發人員、專案經理、產品經理,以及資深主管。
- 有如此完整的團隊隨時待命,我們將能夠快速地提供回應並收集資訊,以協助解決問題。
- 待命的專業人員在提供支援的同時,也能夠利用支援案例進一步改善自動化系統。
持續學習
我們明白有時候您可能會體驗到服務中斷的情況。無論事件的影響程度為何,每次發生事件時,我們都會進行詳盡的事件後續檢閱。事件後續檢閱包含針對所發生事件、我們的回應方式,以及我們應如何避免類似事件於未來發生,進行詳細的分析。基於透明度及責任上的考量,若貴組織受到任何重大服務事件所影響,我們都會和貴組織分享該事件的事件後續檢閱。做為一個大型企業,我們也會採取「使用內部版本」的做法,也就是利用我們自己的生產階段前服務,執行 Microsoft 的日常業務。持續性的改進是提供高度可用之世界級服務的關鍵。
一致的通訊
透明度取決於一致的通訊,特別是對於使用線上生產力服務來執行業務的情況。我們有數個通訊通道,例如電子郵件、RSS 摘要,以及服務健康情況儀表板。做為 Office 365 客戶,您將能詳細檢視與貴組織相關之服務的可用性。Office 365 服務健康情況儀表板能讓您查看服務及授權目前的狀態。我們會繼續改善服務健康情況儀表板,包括追蹤更新時刻表,以確保您能夠取得服務健康情況的完整深入解析。
我們也推出了幾個令人振奮的新工具,以協助您持續取得服務的最新資訊。 上週,我們在系統管理入口網站中發行了一項稱為「訊息中心」的新功能。訊息中心是針對服務通訊、租用戶報告,以及系統管理員所需進行之動作的中央樞紐。 此外,我們預計在今年年底為系統管理員推出新的行動裝置 App,該 App 將可以提供服務健康情況資訊,以及其他與服務相關的通訊內容。
運作一個全方位且持續進化並擴展的服務,無疑是項挑戰。無論我們做出多少努力,都一定會出現服務中斷的情況。我們向您保證我們會持續從中學習,並堅守為您提供能符合您期望、可靠且高度可用之服務的承諾。 服務連續性並不僅僅只是工程上的原則,也是我們在 SLA 中對客戶的承諾,更是 Office 365 信任中心的其中一個重要支柱 (其他四個支柱為隱私權、安全性、合規性及透明度)。 這份針對 Office 365 上線時間的公開揭露,便是我們持續致力於服務連續性及透明度的最佳證明。