[市場動向]

AWS東京リージョンで発生した大規模障害は冷却制御システムのバグが原因

2019年8月26日(月)日川 佳三(IT Leaders編集部)

米Amazon Web Services(AWS)が、2019年8月23日午後に発生したAWS東京リージョンの大規模なシステム障害について、障害発生・復旧の経過の詳細を報告した。空調設備の管理システム障害が原因としている。AWSでは再発を防ぐため、バグを引き起こした制御システムのフェイルオーバーモードを無効にしたほか、オペレータにトレーニングを実施した。

 日本時間の2019年8月23日12時36分から、AWS東京リージョンの1つのアベイラビリティーゾーン(AZ)において、データセンター内機器のオーバーヒートが原因で、一定割合のEC2サーバーが停止した。この結果、当該ゾーンのEC2インスタンスに影響が出たほか、EBSボリュームの性能が劣化した。オーバーヒートの原因は、サードパーティ製の冷却制御システムのバグである。AWSは同社のWebサイトで、障害の詳細を日本語で報告している(画面1)。

画面1:米Amazon Web Servicesが日本語で報告した、東京リージョンで発生したシステム障害の詳細(画面はAWSのWebサイト)画面1:米Amazon Web Servicesが日本語で報告した、東京リージョンで発生したシステム障害の詳細(画面はAWSのWebサイト)
拡大画像表示

 同社の報告によると、8月23日 15時21分に冷却装置が復旧し、室温が通常状態に戻り始めた。影響を受けたEC2インスタンスとEBSボリュームの大部分は、同日18時30分までに回復。少数のEC2インスタンスとEBSボリュームは過大な熱量の影響を受けたハードウェア上で動作しており、これらの復旧には時間がかかった。一部については基盤のハードウェアの障害によってリタイアが必要だったという。

 AWSは、現在もサードパーティベンダーと協力し、制御システムのバグや、バグによる影響の詳細な調査を進めている。並行して、事象の再発を防ぐため、バグを引き起こした制御システムのフェイルオーバーモードを無効にした。また、万が一事象が再現しても対策が取れるよう、オペレーターに今回の事象の検知方法と復旧方法のトレーニングを実施したという。

●Next:オーバーヒートの原因詳細

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
  • 1
  • 2
関連キーワード

AWS / システム障害 / サービス停止 / BCP/DR

関連記事

Special

-PR-

AWS東京リージョンで発生した大規模障害は冷却制御システムのバグが原因米Amazon Web Services(AWS)が、2019年8月23日午後に発生したAWS東京リージョンの大規模なシステム障害について、障害発生・復旧の経過の詳細を報告した。空調設備の管理システム障害が原因としている。AWSでは再発を防ぐため、バグを引き起こした制御システムのフェイルオーバーモードを無効にしたほか、オペレータにトレーニングを実施した。

PAGE TOP