前号: No 366 / 次号: No 368 / 一覧(note.com)へ / ブログページに戻る

メールマガジン「がんばりすぎないセキュリティ」No367 (24/08/04)

サーバ故障に備える(367号)


皆さんの組織ではサーバをお使いではないかと思います。
ですが、それが故障した時の備えは大丈夫でしょうか?

使い方にもよりますが、サーバ故障により業務ができなくなる事態も考えらえます。

今回は、サーバ故障への備えについてお話します。


1. サーバ故障の復旧には時間が要る

サーバを便利に利用しているほど、故障時の影響は大きくなります。場合によっては、サーバが故障すると全く業務が進められないという事態も考えられます。 翌日に復旧できればいいですが、機材の手配など復旧までに時間がかかるケースも考えられます。 その場合は、復旧するまでの代替手段も考えなければなりません。 一般に、事業の継続にも影響があるような事象については、BCP(事業継続計画)が作られます。 その意味では、サーバ故障もBCPの一部に組み込むことはオススメできます。 パソコンが壊れたくらいなら、その日のうちに家電量販店に行って購入することもできますが、サーバはそうはいきません。 まず、故障の状況確認をするために、メーカの人に見てもらう必要があります。 また、修理となると、部品の手配が必要ですので、それにも時間がかかります。 故障の程度によってはサーバの買い換えになりますが、これも注文してからメーカ側で作る受注生産が一般的ですので、数週間かかることも珍しくありません。 要するに、サーバの修理には時間がかるのです。 また、後述しますが、データ復元などメーカ側で対応できず、自分達で行わなければいけない作業もあるのがサーバ復旧作業です。

2. サーバがなくなった時の業務回復の手順を考える

サーバ故障に対しては、いくつか事前に備えておくべき項目があります。 まずは、サーバ故障したら何に困るかを抽出することです。 サーバと一言でいっても、実に様々な形態があります。 利用目的で考えると、○○管理システムなどを導入した時にベンダが提供してくれるサーバがあります。 こういったものはアプリケーションサーバと呼び、特定のシステム専用にベンダがセットアップした上で提供してくれるサーバです。 また、ファイルサーバというものもあります。これは組織内でのファイル共有に有用なサーバです。量販店では20cm角くらいの立方体(サイコロ形)のものがよく販売されています。 余談ですが、様々なシステムを異なるベンダから購入すると○○管理サーバが増えてきます。 利用者側としては1つにまとめて欲しいところですが、多くの場合ベンダ側にお断りされます。これは各ベンダの責任分解点が不明瞭になることを嫌うためですので、やむを得ないことといえます。 さて、アプリケーションサーバが壊れますと、得意先とのEDI(受発注管理)ができなくなったり、見積書作成や売上処理ができなくなるといったことが起きます。 また、ファイルサーバが壊れますと、得意先の情報(所在地、担当者名、仕切り率、取引履歴など)がわからなくなる、現在の受発注状況や販売状況がわからなくなる、作成中の設計データがなくなるといったことが起きます。 このようにサーバによって壊れた時の業務へのインパクトは大きく違ってきます。 ですので、まずは各サーバが故障した時に「どんなことで困りそうか?」を洗い出さないといけません。 特に業務が進められなくなるような大きな課題を抽出します。 サーバ毎に「困りそうな点」が抽出できたら、それぞれについて対処方法を考えます。 といっても、サーバが動いていない状況では対応不可な課題もたくさん出てくるはずです。 どうにもならないものは放置して、まずは対処できそうな点に絞って考えましょう。 ここでの対応策は、緊急避難的なものですので、事業を回すことが最重要であり、手間がかかったり、一部実現できない(後でフォローできる)作業があっても構いません。 システムが使えないために何倍もの時間がかかる点なども、やむなしと考えます。 それでも対処できないものについては、取引先に連絡するなどして復旧後の対応とすることで合意を取っておきます。 このあたりの手順は書きだすとキリがなく、今回の本題からズレますので、このあたりに留めておきます。

3. サーバ故障の復旧にかかる時間

さて、今回の主題は、サーバ復旧の手順についての話になります。 最初に申し上げておきたいのは、サーバ復旧には時間がかかるということです。 最初にお話するのは、サーバの部品交換のお話です。 サーバの保守契約には、オンサイト契約とセンドバック契約があります。 オンサイト契約では、メーカの技術者がサーバ設置先に出向いて修理対応してくれます。部品が手元にあれば、即日交換にも応じてくれます。 一方、センドバック契約は、故障時は自分達で箱積めしてメーカに送付します。到着後にメーカ側で修理を行って返送してくれる形です。 オンサイト契約なら通常は翌日までに対応してくれます(その分保守契約費は高額)が、故障の状況によっては部品の取り寄せなどで復旧までに時間を要する場合もあります。 センドバック契約ですとサーバの送付時間と返送時間が必要になりますので、さらに遅くなり3日程度は最低でもかかります。 サーバの修理完了だけでも数日という日数がかかってしまいます。 この間サーバなしで業務を回す必要があります。 ですが、サーバの故障が直っても、スグに利用できないケースも多いのです。

4. サーバデータの復元にかかる時間

サーバで一番トラブルになりやすい部品は記録装置(SSDやHDD)です。記録装置というのはデータを覚えておく装置ですので、これを交換するということは、新品になったわけで、データが全く入っていない状態になります。 この場合、元のデータを新しい記録装置に書き込まないといけません。 バックアップデータを新しい記録装置に書き戻す作業(リストアと言います)が必要です。 皆さんの組織ではサーバのバックアップを採取しているでしょうか? バックアップを作っていない場合、サーバの故障が直ってもデータがありませんから結局サーバは元に戻せません。 バックアップデータをお持ちであっても、それが何ヶ月も前の状態ですと、使いものになりません。 リストア作業でミスをしてしまって、せっかくのバックアップデータを壊してしまう二重事故も実際に起きています。 さらに、バックアップの方式によっては、データ復元に意外な時間がかかる場合もあります。 こういった処理に要する時間はやってみないことにはわかりようがありません。

5. だから災害訓練

多くの企業(特に製造業)では、防災訓練や避難訓練を行います。 その防災訓練に上記のリストア訓練を組み込むことを強くオススメします。 でも、訓練で何をすれば良いのでしょうか? これも防災訓練と同じです。サーバが故障した想定でリストア作業を実際に行うのです。 さすがに稼働中のサーバをリストアして元に戻せないとシャレになりませんので、稼動中のものと同等のサーバを短期レンタルして、その機械を使ってリストアの検証を行います。 サーバレンタルを活用するのが一般的です。 この訓練ですが、いくつかのポイントがあります。 最大の目的はリストアの実施手順の検証にあります。 まず、防災訓練に向けてリストア作業の実施手順書を準備しておきます。 災害訓練の場ではその手順書通りに作業を行うのです。 それで、問題がなければOKですし、手順の誤りや抜けが見つかれば、それはそれでラッキーです。 次の目的はリストア経験者を増やす点にあります。 リストア作業というのは日常的にやらない割には非常に重大な作業です。 こういった作業を「ぶっつけ本番」でやるのはさすがに危険すぎます。 だから、手順書を見ながら操作をすることが非常に重要なのです。 三つ目の目的はリストア作業の所要時間を知ることです。 データ復元に要する時間が5分か1時間か1日かによって後の段取りが変わってきます。 ですので、実際にリストア作業を行ってみて、所要時間を知ることはとても大切です。

6. まとめ

多くの組織ではサーバを利用しています。 サーバといっても、ファイルサーバもあればアプリケーションサーバもあり、利用用途は様々です。 業務に使う機器ですので、サーバが故障した時のことも考えておく必要があります。 そのためには、故障時にサーバなしで乗り切る方法と、サーバ復旧の方法という2つの視点が必要になります。 サーバなしで乗り切るためには、BCP(事業継続計画)の視点が有用です。 また、サーバの復旧のためには、復旧に要する手順の確認と日数の見込みが必要になります。 特にサーバ復旧で必要となるリストアについては、防災訓練を利用するなどして、手順の確認と所要時間の測定を行うことをオススメしておきます。 なお、サーバが故障するまで待たずに、保守作業として故障していない機材を敢えて交換する予備保守(予備保全)という方法を採る組織もあります。 もっとも、予備保守を行ったからといって絶対壊れないというわけではないのですが。 今回は、サーバの故障とその対策についてお話しました。 次回もお楽しみに。

前号: No 366 / 次号: No 368 / 一覧(note.com)へ / ブログページに戻る