Loading...
IT

試される「一人情シス」、Zenlogicの障害を受け

こんにちは、エンジニアのszkです。

先週金曜日からITエンジニアの中で熱い事案が一つ。
yahoo JAPAN子会社であるファーストサーバが提供するホスティングサービス「Zenlogic」の大規模障害です。




◆状況

6月19日から断続的な障害が続いていた
運営会社であるファーストサーバはそれに対し原因の特定作業と改善作業を実施
「冗長化されたストレージに対する高負荷」と「片系に負荷が寄ったこと」を原因とし、作業を行うも
改善が見られず、先週末にシステムダウンを伴うメンテナンスを実施。

当社3日間を予定したメンテナンスは7月9日の8時までを予定していましたが現在はそれを大きく延長。
現在復旧未定となっています。

2018/07/10 更新
断続的に復旧を行っている様子です。

◆相次ぐ運営会社への避難

構成を見てないので何とも言えませんが、おそらく運用するシステムに対して設計の甘さや、設計的な欠陥があったのだと思われます。
もちろんファーストサーバはこの事象に対してシステムダウンを起こしたわけですし、非難を浴びるのは言うまでもありません。

ただ、その反面でZenlogic上で動作させていたサービスをこの数日で移行した組織もあります。
ただ指をくわえてみて「これ以上の停止は・・・」というには長すぎる時間ではないかと思う気持ちも反面あるわけです。

◆問題は「これを予想できたかどうか」

まず、この事故に巻き込まれた方は大変不幸であると思います。
大きな損害を出した方も中にはいると思います。
ただし、一方でもし、仮に損害を出し続けている立場なのであればそれは回避できたのではないかという意見も同様に存在します。

Zenlogicを使用するWebサービスをこの週末で差をつけたのは「運用としてこの事態を予測できたか」だと思っています。
あらかじめ定期的なバックアップを取っていた、httpdのバックアップやサイトデータのスナップショットを保持していた。
そういった組織は土曜日の時点で移行作業を始めていたはずです。
一方、何もせずにZenlogicを動向を見るしかなかった人もいました。

もちろん、他社に開発を丸投げしてZenlogicに乗っていたことすら知らなかった人もいるかもしれません。
一方、よくわからないままIT基盤を利用している人は国内にかなり多数存在するはずです。

クラウドにも物理層は存在します。そして物理層は必ず壊れる、いかなる場合でも
サービスに対し、特にそれが利益が上がるサービスなのであれば、今後サービスダウンリスクを強く考慮する必要があるのではないでしょうか。

そして、この意見は「情報システム部」の方に贈る言葉ではありません。
情報システムを商売道具として使うのであれば、(特に小さい組織なのであれば)その部署を抱える役員や経営層もこの事実は把握し、対策し、予算を出さなければいけないと思いこの記事を執筆した次第です。

◆各種対応について

以下szkの所感。

現在ITインフラ、そしてそのアプリケーションを取り巻く環境の変化は非常に目まぐるしいものです。
セキュリティやパフォーマンス、自身が提供するサービスへの理解。
そしてのそのアプリケーション基盤は何か、バックアップとは、監視とは、運用とは。。。
一つ一つ考えて、それをつぶし、新たなトレンドを抑え、脅威に対応する。

それは、農耕を行い、災害へ対処し街を活性化させ、自らの懐を固める
ITシステムとはこういった一つの城を、国を守るのともはや同義であり、それを執り行えるだけの軍将しか生き残れない実情があります。

オンプレミス※1の時代からクラウドへの移行が済み、小規模システムが大量に生まれたからこそ
世の様々な会社で、組織で小規模な運用を淡々と続ける「一人情シス」が増えたからこそ、その運用を執り行う人たちは自身のITリテラシーを高め
そして組織全体のITリテラシーを高め、この状況を戦い抜く軍師として自信を鍛えていかないとならないのだと感じました。

大企業にはナレッジがあります。
その出身であるエンジニアにも同様のナレッジがあるはずです。
しかし、よくもわからず「簡単だから」となりゆきでサーバ管理を任され、よくわからないまま運用を続ける「一人情シス」はどうでしょうか。
この大規模障害を回避できなかったという責任をただただ押し付けられるのは非常に心苦しいです。

IT基盤の運用管理者はその上のサービスの理解をしていく必要があります。
ただ、サービスを運用する経営者やプロデューサーは同じくその基盤となるITを理解するべきです。

 

最後に
“日本は技術者に厳しい” 近日よく耳にする言葉ではございますが、身近な彼らもまたその一人。
彼らの良心に頼ってはいないでしょうか、運用者も立派な技術者です。
こういうところから、変えていけないとこの国のIT事情は一向に良くならないのでは。と感じた今日この頃でした。
という安易なオチをつけましてこの分を締めさせていただきます。



※1:オンプレミス 通称オンプレ、物理サーバを資産として自社で持ち、その上でサービスやシステム構築を行うIT基盤の方式。
※2:クラウド 上記の物理サーバ資産を他社から借用しサービスやシステム構築を行うIT基盤の方式の一つ。近年の流行。