「ご迷惑、ご心配おかけし、改めてお詫び申し上げます」――KDDIの田中孝司社長は6月10日、4G LTEの通信障害が相次いだ問題について謝罪会見を開いた。障害は、「MME」(Mobility Management Entity)と呼ばれるLTE基地局制御装置のバグが起因となって発生。同社は総額300億円の設備投資を追加で行うなどしてバグやミスが起きても障害につながらない体制を整え、再発防止に努める。
●障害の起因となった2つのバグ
障害が発生したのは、4月27日、5月29日、30日。東京都、神奈川県、山梨県の一部のユーザー(それぞれ60万人前後)で、LTEデータ通信ができないか、利用できないか、利用しづらくなったほか、29日には音声通話がしづらい障害も発生した。
障害の影響時間と人数は、4月27日が6時間17分で最大約57万人、5月29日はデータ通信が18時間43分で最大56万人、音声通話が2時間52分で発信約2万8000、着信約8万6000。30日は9時間58分、最大約64万人。
障害の起因は、東京・多摩地区に設置した2台のMMEバグだ。60バイト以下の小さなパケットが届いた場合、通信カードがリセットしてしまう「リセットバグ」が含まれていた上、負荷が一定以上かかると処理できなくなる「リカバリー処理バグ」も発生。この2つのバグとハードウェア障害などの影響で2重化していたMMEが両系ともダウンし、障害につながった。
4月27日は、MMEに60バイト以下のパケットが立て続けに3つ届き、リセットバグが発生して片系がダウン。その結果、もう片系に負荷が集中してリカバリー処理バグが起き、両系ともダウンした。
5月29日の障害は、4月27日の障害を起こしたバグの修正ファイル投入中に起きた。片系に投入している最中、ハードウェア障害が発生。処理を切り戻したところ、もう片系に負荷が集中してリカバリー処理バグが発生、両系ともダウンした。LTEのダウンにより3Gへのハンドダウンが大量発生した結果、ユーザー情報のデータベース(HSS:Home Subscriber Server)とMMEとの通信が輻輳(ふくそう)し、音声発着信でも障害が起きた。
30日のデータ通信障害は修正ファイルの再投入準備中に発生した。MME片系の特定のプロセスが過負荷になってダウンし、もう片系に引き継ぐ処理中に輻輳が発生、リカバリー処理バグが起き、両系がダウンしてしまった。「一気に高負荷がかからないよう手順を変えて行ったが、少し焦っていたと指摘されても仕方がないだろう」
現在は、リセットバグが起きないようパケットを60バイト以上に調整。リカバリー処理バグにつながらないよう負荷をコントロールし、安定運用を行っている。全MMEでのバグの修正・対処は8月末までに完了させるとしている。障害の影響を受けたユーザーに対しては、7月以降700円を通信料の請求から割り引く
●「スマホ時代に合った考え方に変わり切れていなかった」
「スマートフォン時代に合った考え方に変わり切れていなかった」――田中社長はこう反省する。田中社長によると、3G時代との大きな違いは、常時接続であることと、通信が集中する「スパイク」が発生すること。「人は間違うし、トラフィックは“予定外”が起きる」。バグやオペレーションミスがあっても、安定運用できるような設計思想が必要と反省する。
フェールセーフの確立に向け、田中社長を本部長とする全社横断組織「LTE基盤強化対策本部」を新設。ソフト・ハードの品質向上や、運用品質の向上、スマートフォン時代に合った設計思想の確立を進める。
総額300億円を追加投資を行い、全国に19台あるMMEを58台に増設、2系統を3系統に冗長化するなど設備を増強。LTE監視要員も20人から42人に増員する。「ネットワークをつなげることが自分たち自身の存在価値。体制を作り、しっかり対策していきたい」
http://headlines.yahoo.co.jp/hl?a=20130610-00000074-zdn_n-sci