大乱闘障害復旧バトル2020/08/01-2020/08/02

ということで学科システムに障害が発生していました。具体的に言うと学科内から外に行けない、一部VMに学内からでもアクセスできないなどでした。

この障害は突然発生したものではなく琉大工学部で定期的に発生する計画停電によるものです。 原因としては3つあるL3スイッチのうち1つが故障。その結果としてネットワークが死んだという感じでした。 今回の計画停電はエレベーターも破壊したのでなにか良からぬ事をした可能性があります。

これはそのときの解決のログです(記憶力が無いので間違ってるかも...)

2020/08/02

8:50

停電発生

id:anatofuzが学科サイトを静的にダウンロードするツールをテストしていたところ、突如ホストの応答が無くなる。 mattermostに「停電したわw」的な内容を書き込む。

だいたい同時刻

id:unimarimoが悪い予感がしたらしく、停電対応でサーバー室に入る。 時既に遅しで既にサーバーは死んでいたらしい。この時に新規システムにつないでたケーブルを抜くのを忘れる。

9:40

mattermostにフラグを貼る

f:id:anatofuz:20200803205109j:plain

16:00

id:anatofuzが17時に復電しそうだなと思いサーバー室に到着。時既に遅しで既に復電しており、エアコンが付いていない30度の部屋の中サーバーが元気に稼働している。

基幹システムはa,b,c,dの4台あるが、bとcだけなぜか立ち上がっていた。新規システムはつないでいた2台が起動していた。

とりあえず新規システムを落としつつエアコンをいれる。このときサーバー室から変な音がする。

予備のエアコンも稼働して冷えたのでaとd起動する。起動した所livbirtdが立ち上がってないので一旦全員落とす。その後相変わらずlivbirtdが立ち上がってないのでsystemctlで立ち上げる。

16:25

kvmが立ち上がったのでVMを立ち上げていく。

立ち上げたが踏み台サーバーにssh出来ないなどの報告が出る。よくよく見ると学科のwebサイトも見れないわwifiが外に行けないわの症状が出ている。

8.8.8.8にpingを飛ばした所外に行けてなさそう。

17:00

id:unimarimoと合流。仲良くサーバーの調子を見る。 学内ネットからだと学科サイトが見れそう。内向きDNSは元気そう。

systemctlでstatusを確認していたらnetwrokが一部立ち上がってない。startしても変化が見られない。

ぐむ〜と言いながら色々試したがダメそう。エレベーターが動いてなかったので「電気が完全に復旧してないのでは?」みたいな話になる。工学部周辺が停電という話だったので総情(琉大のネットワークの大本を管理している場所)が停電していたら外にいけないよね〜と話し、一旦帰宅することに。

階段を降り1Fにつくとエレベーターに「故障しました」のガムテープが。ひょっとしたら電気は完全に復旧している?などと思いながらおなか空いたので一旦家帰ってご飯。

18:00

ご飯食べながら色々考えていたが、そもそも総情のオンプレで配信している総情のページは見えているのだからやはり電気は復旧している。電気がだめじゃなくて我々が悪そう.......。

外に行けないサーバーのことを「内向的な性格」などと呼びつつ大学に戻る。

18:50

内向きが解決できるかと思っていたがなんかアクセスできなくなっている。 大学戻った所4Fのwifiが死んでいた。

先日UTMのアップグレードをしたこともありUTMを疑うが、UTMは見る限り元気に稼働している。 VMの状態を確認するなら有線持ってくるか〜と言いながらUTMの下に目を向けると、L3スイッチ3つのうちの1つが息をしていないことが発覚。 f:id:anatofuz:20200803204750j:plain

ラックの後ろに回ると動いていないL3スイッチのランプが赤色に光っている… しかも焦げたような匂いが漂っている。

f:id:anatofuz:20200803204814j:plain

型番からググってマニュアルを見ると、PS OKが赤色の場合は出力が停止しましたとのことらしい。障害じゃん…。

念のために電源を抜き差ししても変わらず。こいつが原因そうだったので電源を抜いて業者さんとの連絡用のMLに投稿。翌日の9時から作業をすることに。

f:id:anatofuz:20200803205243j:plain

22:40

業者さんから「火災防止でスイッチのケーブル抜いといて」と言われる。抜いたか覚えてなかったのでid:unimarimoに頼んで抜いてもらう。

実は既に抜いていたのでただサーバー室まで歩いて行かせたムーブをした。

2020/08/03

9:10

業者さんとこんにちは。 コンソールケーブルは持ってきていただいた…。申し訳ない。

9:30~10:00

スイッチの電源を交換したりしたところ、相変わらず赤ランプだったので物理障害が確定。代替機の手配をしてもらいつつ今後の方針を決める。

L3スイッチ3つのうちに生き残った2つのスイッチに空いているポートがあったので、configを空いているポートに移す作業をすることになる。

その前に他のネットワーク機器が大丈夫かを調べた所、故障したスイッチに接続していた各研究室のフロアスイッチ及びEPS室に置いてあるスイッチがpingが通らないことが発覚。これらも治す必要がある。

またwifiアクセスポイントも赤色点灯しておりエラーが発生している。どうもwifiが全体的に調子が悪いらしい。

10:30?~

L3スイッチに接続していたフロアスイッチやルームスイッチの様子を見に行く。どうも自己防衛かなんかで落ちていたらしい。エレベーターやL3スイッチ、フロアスイッチまで障害が発生しているので計画停電で電気業者がなにかやらかした説が出てきた。一部スイッチの調子を見に行くためにid:unimarimoが脚立を借りに行く。ショムニっぽい。

各スイッチにはコンソール接続してconfigure terminalしたあとにshutdownno shutdownをl3に接属していたport-channleで実行して解決して回る。

研究室はこのコロナ騒ぎで人がいないのでマスターキーを借りる。しばらくしたらエレベーターの修理で使うらしいので別のマスターキーを借りに行くなどをした。

wifiアクセスポイントは再起動時はよくなったがしばらくするとエラーがでる。つらい

11:30~

スイッチの設定等は業者の方に頼みつつ、基幹システムの状況をリカバリしにいく。 radiusとかが立ち上がってないのを立ち上げていく。一部VMが立ちあがってもvirsh consoleでいけないので泣きながらshutdown。shutdownしても落ちないのでdestroy.........

wifiコンパネにアクセスしようとしたが相変わらずwifiが死んでいる。つらみ。

12:00~

疲れたのでお昼休憩。家帰ってご飯を食べる。

鮭を3切れ焼いた。

13::00~

頑張ってwifiアクセスポイントのwebコンパネにアクセスしようとする。 L3スイッチからVLANを切って有線でアクセスしようとしたが失敗する。

研究室のサーバーからアクセスしようとしたがこれも失敗。むむむ.....とか言ってたら突然wifiでアクセスできるようになった。webコンパネが表示しているスイッチなどの情報が少なすぎてウケるという感じ。まだどっかで障害が起きてそう。

基幹サーバー及びシステムともに、突然外部にいけるようになったりいけなくなったりする。 systemctlやnmcliなどを使っても原因が断定出来ない。基幹サーバーにtracerouteが入って無くて辛い気持ちになる

13:20~

業者さんが原因を特定。生き残ったL3スイッチ2台がともにActiveになっていたらしい。 いわゆるダブルアクト状態というもの。

L3スイッチは冗長化としてActive/Standbyの状態を持つ手法があるらしいが、両方Activeだとゲートウェイが2つ存在することになりコンフリクトするらしい。 この設定を正常にした所、ネットワークが改善され外に行けるようになった。

業者さんがスイッチの設定を書き換え、及び取り外しを行っている間に、相変わらずダメそうな各フロア/ルームスイッチを再起動して回る。

14:30

すべてのスイッチの設定を生存していたスイッチに移しスイッチ側の復旧は完了。

僕とid:unimarimoも基幹システムのmountやデーモンの障害を一通り解決し終了。 ネットワークでトラブっていたためか微妙にNFSが調子悪そう。まぁ治るか....。 代替機がきたタイミングで交換作業をしましょうという話になり今日は終了。

感想

ちょうど来月システム更新なんですが、システム更新前に障害が発生してウケるwという感じでした。 (今回代替機のL3スイッチは30日後に引き取られるスイッチになってしまった)

業者の方の対応力がすごくて、一緒にフロアスイッチを床から取り出す作業や、原因の特定、設定の書き換えまでしていただきました。ありがとうございます。

あとは一家に一台コンソールケーブルはあったほうがいいですね。シリアルケーブルも...。

あわせてよみたい

seeker-s-eye.blogspot.com

ie.u-ryukyu.ac.jp