신뢰할 수 있는 클라우드 서비스: Office 365 가용성
“클라우드의 완벽한 Office”가 Microsoft Office 365의 목표입니다. 10억 명의 사용자가 Office를 사용한다는 것에 큰 자부심을 갖고 있지만 매일 고객의 기대치를 충족해야 한다는 막중한 책임감도 느낍니다. 생산성 앱은 업무상 필수적임을 인식하며, 생산성 앱 사용은 작업이 수행되는 방식입니다. Office 365에 새로운 기능을 계속 추가하는 동시에 신뢰할 수 있고 안정적인 서비스를 제공해야 합니다. 관련된 측정 방법은 서비스 가용성입니다.
Office 365 가용성
2년 전에 Office 365가 런칭된 이후 고가용성 서비스를 보장하기 위해 인프라에 막대한 투자가 지속되었습니다. 현재 고객에 대한 자세한 정보는 이미 사용할 수 있지만, Office 365를 고려하는 모든 고객에게 오늘 이 정보를 제공하겠습니다. 가용성은 해당 월의 총 시간(분) 백분율로, Office 365 서비스가 한 달간 사용 가능한 시간(분)으로 측정됩니다. 이 가용성 측정값을 가동 시간이라고 합니다. 이 계산에는 비즈니스, 정부 및 교육 기관 서비스가 포함됩니다. 2012년 7월부터 2013년 6월까지 최근 4분기 동안 Office 365의 전 세계 가동 시간은 각각 99.98%, 99.97%, 99.94%, 99.97%였습니다. 앞으로 Office 365 보안 센터에서 분기별로 가동 시간을 공개할 예정입니다.
가동 시간에 대한 몇 가지 세부 정보는 다음과 같습니다.
- 가동 시간에는 Exchange, SharePoint, Lync, Office Web Apps가 포함되며, 각 서비스의 사용자 수에 따라 가중치가 적용됩니다. 고객은 이러한 서비스를 함께 사용하므로 가동 시간을 계산할 때는 모든 서비스가 고려됩니다.
- 이 가동 시간은 비즈니스, 교육 기관 및 정부용 Office 365에 적용됩니다. 소비자 서비스는 이 계산에 포함되지 않습니다.
- Office 365 ProPlus는 서비스 제품의 핵심 부분이지만 주로 사용자 장치에서 실행되므로 이 가동 시간 계산에 포함되지 않습니다.
- 개별 고객은 위치 및 사용 패턴에 따라 글로벌 가동 시간에 비해 더 높거나 낮은 가동 시간 백분율을 경험할 수 있습니다.
고가용성 서비스 실행 약속의 하나로, Microsoft는 재정적으로 지원되는 99.9% 서비스 수준 계약을 제공합니다.
가용성 디자인 원칙
Microsoft는 수십 년 동안 엔터프라이즈급 솔루션을 빌드해 왔습니다. 또한 Microsoft는 Office 365, Windows Azure, CRM Online, Outlook.com, SkyDrive, Bing, Skype, Xbox Live 등의 많은 클라우드 서비스를 실행합니다. 이러한 다양한 서비스를 활용하고 다른 서비스에서 각 서비스의 모범 사례를 이용하여 소프트웨어 디자인 및 운영 프로세스를 향상합니다.
Office 365 디자인 및 운영 프로세스에 적용되는 몇 가지 모범 사례의 예는 다음과 같습니다.
중복성. 모든 물리적, 데이터, 기능적 계층의 중복성:
- 서버 내의 디스크/카드 수준, 데이터 센터 내의 서버 수준, 지리적으로 분산된 데이터 센터의 서비스 수준에서 물리적 중복성을 빌드하여 오류로부터 보호합니다. 각 데이터 센터에는 시설과 전원 중복성이 있습니다. 각 지역마다 여러 데이터 센터가 서비스를 제공합니다.
- 데이터 수준에서 중복성을 빌드하기 위해 지리적으로 분산된 데이터 센터에서 데이터를 지속적으로 복제합니다. 디자인 목표는 전송 중이든 휴지 중이든 관계 없이 데이터의 여러 복사본을 유지 관리하여 신속한 복구를 위한 장애 조치(failover) 기능을 제공하는 것입니다.
- 물리적 및 데이터 중복성 외에도 Microsoft는 핵심 장점 중 하나로, 네트워크에 연결되지 않은 경우 오프라인 기능을 사용하여 생산성을 유지할 수 있도록 Office 클라이언트를 빌드하여 기능 중복성을 제공합니다.
복원력. 활성 부하 분산 및 오류 도메인에 대한 지속적인 복구 테스트:
- 적극적으로 부하를 분산하여 자동화된 방식으로 가능한 최상의 경험을 최종 사용자에게 제공합니다. 또한 이러한 메커니즘은 동적으로 우선 순위를 지정하여 낮은 우선 순위 작업은 활동이 적은 기간에 수행하고 부하가 높을 때는 지연합니다.
- 하드웨어 또는 소프트웨어 오류와 모니터링 경고 중 정상 리소스로의 자동화된 장애 조치(failover)와 수동 장애 조치(failover)가 둘 다 있습니다.
- 일상적으로 오류 도메인에 대한 복구를 수행하여 장애 조치(failover)가 필요한 상황에 대비합니다.
분산 서비스. 기능적으로 분산된 구성 요소 서비스:
- Exchange, SharePoint, Lync, Office Web Apps 같은 Office 365의 구성 요소 서비스는 기능적으로 분산되어 한 영역의 오류 범위 및 영향이 해당 영역으로만 제한되고 다른 영역에는 영향을 주지 않도록 합니다.
- Microsoft는 이러한 구성 요소 서비스 간에 디렉터리 데이터를 복제하여 한 서비스에서 문제가 발생할 경우 사용자가 로그인하고 다른 서비스를 매끄럽게 사용할 수 있도록 합니다.
- 운영 및 배포 팀은 서비스의 분산 특성을 활용하여 유지 관리 및 배포, 진단, 복구의 모든 측면을 간소화합니다.
모니터링. 광범위한 모니터링, 복구 및 진단 도구:
- 내부 모니터링 시스템이 서비스의 오류를 지속적으로 모니터링하며 서비스의 자동화된 복구를 유도하도록 빌드되었습니다.
- 시스템은 서비스 동작의 편차를 분석하여 대기 중인 엔지니어가 사전 예방적 조치를 취하도록 알립니다.
- 또한 신뢰할 수 있는 타사 서비스의 전 세계 여러 위치(독립 SLA 확인)와 고유한 전 세계 데이터 센터에서 받는 사람으로부터 모니터링이 지속적으로 실행되어 경고를 발생합니다.
- 진단을 위해 광범위한 로깅, 감사 및 추적 기능이 있습니다. 세부적인 추적 및 모니터링은 문제를 근본 원인으로 격리하는 데 도움이 됩니다.
단순화. 복잡성을 줄여 예측 가능성 향상:
- Microsoft는 가능한 경우 항상 표준화된 구성 요소를 사용합니다. 이렇게 하면 배포 및 문제 격리 복잡성이 감소하고 오류 및 복구 예측 가능성이 향상됩니다.
- Microsoft는 가능한 경우 항상 표준화된 프로세스를 사용합니다. 자동화뿐 아니라 중요한 프로세스가 반복되고 반복 가능한지에 중점을 둡니다.
- 소프트웨어 구성 요소를 느슨하게 결합되도록 설계하여 배포와 지속적인 상태에 복잡한 오케스트레이션이 필요하지 않도록 했습니다.
- 전 세계에 배포되기 전에 변경 관리가 범위 및 유효성 검사의 점진적 단계별 계측 링을 거치게 됩니다.
휴먼 백업. 24/7 대기 지원:
- 가능한 경우 자동화된 복구 작업이 있지만 지원을 위해 대기 중인 전문가 팀도 24×7 대기합니다. 이 팀에는 지원 엔지니어, 제품 개발자, 프로그램 관리자, 제품 관리자, 선임 책임자가 포함됩니다.
- 전체 팀이 대기 중이므로 문제 해결을 위한 신속한 대응 및 정보 수집을 제공할 수 있습니다.
- 대기 중인 전문가는 백업을 제공하는 동시에 도움이 요청될 때마다 자동화된 시스템을 향상합니다.
지속적인 학습
Microsoft는 서비스 중단이 발생하는 경우가 있음을 이해합니다. 영향의 규모에 관계없이 인시던트가 발생할 때마다 사후 검토가 수행됩니다. 사후 검토는 발생한 인시던트, 대응 방법, 이후 유사한 인시던트의 방지 방법으로 구성됩니다. 투명성과 책임성을 위해 조직이 영향을 받은 경우 주요 서비스 인시던트에 대한 사후 검토를 공유합니다. 대기업의 경우 고유한 프로덕션 전 서비스를 사용하여 Microsoft에서 매일의 업무도 수행합니다. 지속적인 향상은 세계 정상급의 고가용성 서비스를 제공하기 위한 주요 구성 요소입니다.
일관성 있는 통신
온라인 생산성 서비스를 사용하여 업무를 수행하는 경우 특히, 투명성을 위해 일관성 있는 통신이 필요합니다. 전자 메일, RSS 피드, 서비스 상태 대시보드 등 다양한 통신 채널이 있습니다. Office 365 고객은 조직과 관련된 서비스 가용성을 자세히 볼 수 있습니다. Office 365 서비스 상태 대시보드는 서비스와 라이선스의 현재 상태를 확인할 수 있는 창입니다. 서비스 상태를 완전히 파악할 수 있도록 업데이트 시기 적절성 추적 등 서비스 상태 대시보드를 지속적으로 개선합니다.
최신 서비스 상태 유지를 위한 뛰어난 새 도구들도 있습니다. 지난 주에는 관리 포털에 “메시지 센터”라는 새로운 기능이 릴리스되었습니다. 메시지 센터는 서비스 통신, 테넌트 보고 및 관리자에게 필요한 작업을 위한 중앙 허브입니다. 또한 관리자는 금년 말까지 서비스 상태 정보와 서비스 관련 다른 통신을 제공할 새로운 모바일 앱을 기대할 수 있습니다.
규모를 점점 늘려서 포괄적이고 발전하는 서비스를 실행하기란 쉽지 않으며 아무리 노력해도 서비스 중단이 발생합니다. 계속해서 학습하고, 기대에 부응하는 안정적인 고가용성 서비스를 제공하기 위해 노력할 것입니다. 서비스 연속성은 엔지니어링 원칙이라기보다 SLA 및 Office 365 신뢰 센터의 주요 기조 중 하나로 제공되는 고객과의 약속입니다(다른 네 가지 기조는 개인 정보, 보안, 준수, 투명성임). Office 365 가동 시간의 이러한 공개는 서비스 연속성과 투명성에 대한 지속적인 노력을 입증합니다.