エアライン, 解説・コラム — 2023年4月7日 21:09 JST
https://www.aviationwire.jp/archives/274165

 全日本空輸(ANA/NH)は4月7日、国内線旅客システム「エイブル」で3日午後に起きた不具合について、データベース(DB)サーバーからデータを抽出する際、偶発的な「予期せぬエラー」が発生したことが原因だったと発表した。社外からのサイバー攻撃ではないことや、データの外部への流出も起きていないことも確認したという。


国内線システム障害の原因を発表したANA=PHOTO: Tadayuki YOSHIKAWA/Aviation Wire

—記事の概要—
・データ抽出時に発生
・抽出処理を直列化で再発防止

データ抽出時に発生

 顧客情報や便情報などを扱うエイブルのシステム障害は、3日午後2時16分に発生。ANAによると、エイブルから社内のマーケティング部門が使う「予約管理支援システム」へデータを抽出する際、偶発的なエラーが発生し、
エイブルの2台あるDBサーバーのうち、1台(DB1)がフリーズした。この影響を受け、残り1台(DB2)も高負荷状態になったことで2台とも停止したことから、国内線全便の予約や販売、搭乗手続きができない状態になり、利用者へのメールやSMS、ANAアプリでの案内もできなくなった。


エイブルの構成図と障害箇所(ANAの資料から)

 エイブルは2015年に自社で構築。2016年にシステム障害が発生したことでバックアップ体制などの構成を見直し、2018年から現在の構成で運用しているという。現行システムは、同一構成のものを「A系」と「B系」の2系統用意し、通常は1系統を稼働させ、残り1系統を不具合などに対処するために待機させており、定期的に役割を入れ替えて運用している。

 各系統のシステム内には、同じデータが入ったDBサーバーが2台あり、内容を常に同期させているが、今回は稼働していたA系内のDBサーバーが2台同時に停止したことで不具合が発生。再起動を試みたが復旧しなかったことから、待機していたB系へ切り替えた。不具合発生から55分後に切り替えを完了し、予約・販売・搭乗手続きシステムは徐々に復旧した。


 ANAによると、不具合が発生したデータ抽出作業では、処理に使うプログラムに問題はなかったが、複数のデータ抽出処理を並列で同時に実行することで偶発的なエラーがデータベース上で発生したといい、特に負荷がかかる作業は行っておらず、現在の構成で稼働し始めた2018年から約5年間は、今回のような偶発的なエラーが起きたことはなかったという。