死活監視は、ITインフラ運用に欠かせない基本的な監視手法です。しかし、設定を誤ったり監視範囲が不十分だったりすると、障害の検知漏れや対応遅延という深刻なリスクを招きます。本記事では、死活監視の基本・実施方法・限界と補完策を整理し、IT運用担当者がより安定した運用体制を構築できるよう解説します。
死活監視とは何か
死活監視とは、監視対象のホスト・サービス・ネットワーク機器が「正常に応答しているか(生きているか)」「応答していないか(死んでいるか)」を定期的に確認する監視手法です。
監視システムは対象ホストに対して定期的にリクエスト(PingやHTTP/TCPチェックなど)を送信し、一定時間内に応答が返れば「正常」、返らなければ「障害発生」と自動判定します。障害と判定された場合は、担当者へアラートが自動送信されます。この二値判定こそが、システムダウンを即時検知する仕組みの核心です。
この「応答するか・しないか」という二値判定がシステムダウンの即時検知を可能にし、インシデント対応の初動を早める基盤となります。
死活監視と他の監視手法との違い
運用監視には死活監視のほかにも複数の手法が存在し、それぞれ検知できる範囲が根本的に異なります。死活監視が「応答するか・しないか」の外形確認に特化している一方、パフォーマンス監視やログ監視はシステム内部の状態を把握します。この差異を理解することが、自社環境に適した監視体制設計の前提となります。
| 監視手法 | 定義 | 検知できること | 検知できないこと | 代表ツール例 |
|---|---|---|---|---|
| 死活監視 | ホスト・サービスの応答有無を確認 | サーバーダウン、サービス停止、ネットワーク断 | パフォーマンス劣化、エラー率上昇、異常ログ | Zabbix、Nagios、Prometheus |
| パフォーマンス監視 | CPU・メモリ・レイテンシなどの性能指標を計測 | 性能劣化、リソース枯渇の予兆 | サービスが止まっているかどうか | Datadog、New Relic、CloudWatch |
| ログ監視 | アプリ・OSのログからエラー・異常を検知 | アプリ内エラー、セキュリティ異常、処理失敗 | 外形的な応答有無 | Elasticsearch、Splunk、Fluentd |
| リソース監視 | ディスク使用率・ネットワーク帯域などを監視 | リソース枯渇による障害の予兆 | サービスレベルの異常 | Zabbix、Grafana、CloudWatch |
| セキュリティ監視 | 不正アクセス・脆弱性・異常通信を検知 | サイバー攻撃の兆候、不審なアクセス | 通常の稼働状態の異常 | Splunk SIEM、AWS GuardDuty |
表1: 主なシステム監視手法の比較(検知範囲・代表ツール)
上表の通り、死活監視が答えるのは「システムが動いているか」という問いのみです。パフォーマンスの劣化やログに記録されたエラーは、死活監視では検知できません。この限界については後述の「死活監視の限界と注意点」で詳しく解説します。
なぜ死活監視が必要なのか?
日本企業の80.6%がクラウドサービスを利用している現在(総務省『令和7年版 情報通信白書』2025年)、システムは24時間365日稼働し続けます。しかし夜間・休日に障害を即時検知できる体制を持つ企業は限られており、検知の遅延がそのままMTTR長期化・売上損失・SLA違反へと連鎖します。以下では、死活監視が欠かせない3つのリスク構造を整理します。
図3: 死活監視が必要とされる3つのビジネスリスク構造
システムダウンが引き起こす売上損失・SLA違反・顧客離脱
システムのダウンタイムは、売上損失・顧客信頼の低下・SLA違反など、直接的なビジネスリスクに直結します。システム障害による業務停止は、基幹システム・ECサイト・社外向けAPIを運用する企業において特に深刻なリスクとなります。
New Relicと調査会社ETRの共同調査(2024年)によると、ビジネス影響の大きいシステム停止による年間ダウンタイムの中央値は77時間にのぼり、1時間あたりのビジネスコストの中央値は190万ドルに達することが示されています。障害が発生してから復旧までの平均時間(MTTR)が長いほど、売上損失・顧客離脱・SLA違反のリスクが累積します。死活監視による早期検知(MTTD短縮)は、こうした連鎖的な損害を最小化するための第一手です。
検知遅延が障害復旧コストを数倍に膨らませる構造
障害が発生してから検知・対応までの時間(MTTD:Mean Time to Detect)が長いほど、影響範囲は広がります。たとえば、Webサービスが深夜にダウンした場合、死活監視なしでは翌朝の始業時まで誰も気づかないケースが起こりえます。数時間にわたるサービス停止は、ユーザーの離脱・問い合わせ件数の急増・ブランドイメージの毀損につながります。定期的なPingチェックやHTTP監視によりアップタイムを継続的に確認する死活監視は、MTTDを大幅に短縮するための最初の防衛線です。
夜間・休日の無人時間帯に障害が拡大するリスク
多くの企業では、夜間や休日にIT担当者が常駐していません。しかし、システムは24時間365日稼働し続けます。総務省『令和7年版 情報通信白書』(2025年)によると、2024年には80.6%の企業がクラウドサービスを利用しており、この割合は約10年で倍増しています。クラウド上のシステムは夜間・休日も稼働し続けるため、IT担当者が不在の時間帯こそ障害が検知されないまま拡大するリスクがあります。死活監視を導入することで、無人の時間帯でも自動的にアラートが発報され、初動対応を即座に開始できます。
死活監視の種類
死活監視は、監視の実施方式によって大きくアクティブ監視とパッシブ監視の2種類に分類されます。それぞれの仕組みと特徴を理解することで、自社のシステム環境に適した監視方式を選択できます。
アクティブ監視
アクティブ監視とは、監視システム側から対象ホスト・サービスに対して定期的にリクエストを送信し、応答の有無・内容を確認する方式です。監視システムが能動的(アクティブ)に動作するため、対象側に特別な設定が不要な場合が多く、導入のしやすさが特徴です。
主なチェック手法:
- Pingチェック(ICMP):ホストへのネットワーク到達性を確認
- HTTPチェック:WebサーバーやAPIエンドポイントへのHTTP/HTTPSリクエストで応答コードを確認
- TCPポートチェック:特定ポートへの接続可否を確認
適した用途:
- 外部公開しているWebサーバー・APIエンドポイント
- クラウドインスタンス(AWS EC2、Azure VMなど)
- 定期的な外形監視が必要なサービス全般
注意点:重要度の高いシステムほど短い監視間隔が推奨されており、一般的な目安として1〜5分間隔が採用されるケースが多くあります。監視間隔の設定が長すぎると、障害発生から検知までのタイムラグが生じるため注意が必要です。
パッシブ監視
パッシブ監視とは、対象システム側からログやトラップ(通知)を監視システムへ送信する方式です。監視システムは受信待ちの状態(パッシブ)で動作します。対象システムが能動的に情報を送信するため、ファイアウォールの内側にある内部システムや、外部からのアクセスが制限された環境でも監視が可能です。
主なチェック手法:
- SNMPトラップ:ネットワーク機器から異常発生時に通知を送信
- Syslog転送:OSやアプリのログを監視サーバーへリアルタイム転送
- エージェント型監視:対象サーバーにエージェントをインストールし、内部情報を収集・送信
適した用途:
- 内部ネットワーク上のサーバー・ネットワーク機器
- ログ集約基盤と連携する環境
- アクティブ監視が到達できないセグメント
重要な注意点:パッシブ監視は対象システムが動作していることを前提として通知を送信します。システムが完全にダウンした場合、通知自体が送信されないため障害を検知できないリスクがあります。このため、アクティブ監視との併用が推奨されます。
図1: アクティブ監視とパッシブ監視の特徴・注意点まとめ
死活監視の対象範囲
現代のITインフラは、サーバー・ネットワーク機器・アプリケーション・クラウドサービスが複雑に連携して稼働しています。いずれかひとつが停止するだけで、システム全体に影響が及ぶ可能性があります。適切なシステム監視体制を構築するには、監視対象の範囲を正しく把握することが重要です。
| 対象カテゴリ | 具体例 | 死活監視で確認できること |
|---|---|---|
| サーバー | 物理サーバー、仮想マシン(VM)、クラウドインスタンス(AWS EC2、Azure VM、GCE) | サーバーへの到達性、OSレベルでの応答有無 |
| ネットワーク機器 | ルーター、スイッチ、ファイアウォール、ロードバランサー | 機器の応答有無、ネットワーク経路の疎通確認 |
| アプリケーション・サービス | Webアプリ、REST API、データベース(MySQL、PostgreSQL)、メールサーバー | サービスポートの応答、HTTPステータスコード、DB接続可否 |
| クラウドサービス | AWS(ELB、RDS、Lambda)、Azure、GCP、SaaSツール | エンドポイントへの到達性、サービス稼働状態 |
表2: 死活監視の主な対象カテゴリと確認できる内容
監視対象の漏れがインシデントを招く
よくある失敗例として、「Webサーバーは監視しているが、その背後にあるデータベースサーバーは監視対象外だった」というケースがあります。Webサーバー自体は応答していても、DBへの接続が切れていればサービスはユーザーにエラーを返し続けます。死活監視の設計段階で、システム全体の依存関係を整理し、エンドユーザーへの影響につながるすべてのコンポーネントを監視対象に含めることが重要です。
クラウド環境における注意点
総務省『令和7年版 情報通信白書』(2025年)によると、2024年には80.6%の企業がクラウドサービスを利用しており、オンプレミスとクラウドが混在するハイブリッド構成が多くの企業に広がっています。クラウド環境では、マネージドサービス(AWS RDSやLambdaなど)の死活確認にはプロバイダー提供のAPI・ヘルスチェック機能を活用する必要があります。オンプレミス向けのPingチェックはネットワーク到達性しか確認できず、クラウドサービスのエンドポイント異常やマネージドDB接続障害は検知できません。ハイブリッド構成の監視設計では、オンプレとクラウド双方に対応したツール選定が前提となります。
死活監視の実施方法
死活監視の実施方法は、手動確認・監視ツール導入・アウトソーシングの3つに大別されます。自社の運用体制が整っているほど高度な方法を選べる一方、IT担当者が限られる環境では専門サービスへの委託がMTTD短縮の近道となります。
手動で実施する
最もシンプルな方法は、担当者が手動でシステムの死活を確認する方法です。
主な手法:
- pingコマンド:ターミナルから対象ホストへICMPリクエストを送信し、応答を確認
- curlコマンド:HTTPエンドポイントへリクエストを送信し、レスポンスコードを確認
- ブラウザによる目視確認:対象URLにアクセスし、画面表示を目視で確認
適した場面:
- 開発・検証環境など小規模な環境での一時的な確認
- 障害発生時の緊急切り分け作業
限界:手動による死活確認は、監視間隔の保証ができません。担当者が離席・夜間・休日の時間帯は確認が途切れ、その間に発生した障害は検知されないまま放置されます。ダウンタイムの長期化はMTTDの悪化に直結し、SLA違反や業務損失のリスクを高めます。本番環境の継続的な稼働監視には、自動化されたツール導入が前提となります。
監視ツールを活用する
監視ツールを導入することで、死活確認を自動化・定期化し、障害検知からアラート通知までを一貫して行うことができます。
| カテゴリ | 代表ツール例 | 特徴 |
|---|---|---|
| OSS(オープンソース) | Zabbix、Nagios、Prometheus + Alertmanager | カスタマイズ性が高い。導入・運用に技術知識が必要 |
| クラウドネイティブ | Amazon CloudWatch、Azure Monitor、Google Cloud Monitoring | クラウド環境との親和性が高く、既存インフラと統合しやすい |
| SaaS型 | Datadog、New Relic、Mackerel | 導入が容易。サポートが充実。利用規模に応じたコストが発生 |
表3: 主な死活監視ツールのカテゴリ比較
重要な注意点:監視ツールを導入するだけでは十分ではありません。監視対象の設定・アラートしきい値の調整・通知先の管理など、継続的な運用設計が必要です。ツールを正しく設定・維持できる担当者の確保が、システム監視の実効性を左右します。
代行サービス・アウトソーシングを利用する
IPA(情報処理推進機構)の「DX動向2025」によると、日本企業の85.1%がDXを推進する人材の不足を抱えており、IT運用・監視業務を担う専門人材の確保が困難な状況が続いています。社内リソースが限られている場合や、24時間365日の監視体制が必要な場合は、監視業務を専門の代行サービスへアウトソーシングする選択肢があります。
アウトソーシングが適している場面:
- 夜間・休日の無人監視を自社で対応できない
- 障害発生時の初動対応まで含めた一貫したサポートが必要
- IT担当者が少なく、監視ツールの運用管理まで手が回らない
- SLAを伴うシステム運用が求められる
アウトソーシングのメリット:専門チームによる継続的な監視体制を確保できるため、担当者の負担を大幅に軽減できます。また、障害検知からインシデント対応までを一貫してサポートする体制を持つパートナーを選ぶことで、復旧までの時間(MTTR)を短縮することが可能です。
監視代行サービスの選定においては、対応可能な監視対象の範囲・SLAの水準・インシデント発生時の対応フロー・レポーティング体制などを事前に確認することが重要です。
「監視ツールを選んだが、自社環境への導入・運用に不安がある」方へ
カオピーズでは、死活監視を含むシステム運用の課題について、まずは無料でご相談いただけます。貴社の現状に合わせた監視体制の改善案をご提案いたします。
無料相談はこちら →死活監視の限界と注意点
死活監視はシステム運用の基盤となる重要な手法ですが、万能ではありません。「死活監視を導入しているから安心」という思い込みが、障害の見逃しや対応遅延につながるケースも少なくありません。死活監視でできることとできないことを正確に把握し、適切な補完策を講じることが安定運用への近道です。
死活監視でできること・できないこと
死活監視は「稼働しているか否か」の二値判定に特化しており、パフォーマンス劣化やアプリ内部エラーは検知範囲外です。この構造的な限界を把握することが、補完すべき監視手法を正しく選定する前提となります。
| 検知できること | 検知できないこと |
|---|---|
| サーバー・サービスの完全停止 | レスポンスタイムの劣化・遅延 |
| ネットワーク経路の断絶 | アプリケーション内部のエラー・例外処理 |
| 特定ポートへの接続不可 | CPU・メモリ・ディスクのリソース枯渇 |
| HTTPエンドポイントの応答コード異常 | ログに記録された業務エラー・データ不整合 |
| クラウドインスタンスの停止 | セキュリティ侵害・不正アクセスの兆候 |
表4: 死活監視で検知できること・できないことの整理
死活監視が返す答えは「動いているか・止まっているか」の二値のみです。「動いているが遅い」「動いているがエラーを返している」といった状態は、死活監視だけでは把握できません。
よくある落とし穴
図4: 死活監視の設定・運用でよくある3つの落とし穴と対策
1. Pingは通るがサービスは落ちている
死活監視でPingチェック(ICMP)のみを設定しているケースでは、サーバーへのネットワーク到達性は確認できますが、その上で動作するWebサーバーやアプリケーションプロセスが停止していても検知できません。Pingチェックに加え、HTTPチェックやポートチェックを組み合わせることが重要です。
2. 誤検知(False Positive)の多発
監視間隔が短すぎる・しきい値の設定が厳しすぎるなどの理由で、実際には障害が発生していないにもかかわらずアラートが頻発するケースがあります。誤検知(False Positive)が頻発すると、担当者はアラートを「またか」と判断するようになります(いわゆる「アラート疲れ」)。この状態では、本物の障害アラートが埋もれてインシデント対応が遅延するリスクがあります。監視ツールのしきい値設計と定期的な誤検知率レビューが、SLO達成のための前提条件です。
3. 監視間隔が長すぎる
重要度の高いシステムでは監視間隔を短く設定し、インシデント対応の初動を早める設計が必要です。監視間隔の設定は、対象システムの重要度・SLA要件・監視ツールの負荷を踏まえて決定することが推奨されます。
死活監視を補完するために
死活監視の限界をカバーするには、以下の監視手法と組み合わせることが有効です。特にセキュリティ監視の重要性は年々高まっており、、IPA(情報処理推進機構)の「情報セキュリティ10大脅威 2026(組織編)」では、ランサムウェア攻撃が4年連続で組織向け脅威の第1位を占め、サプライチェーンを狙った攻撃が2位と報告されています。死活監視だけではこうした攻撃の兆候を検知できないため、セキュリティ監視との組み合わせが求められます。
- パフォーマンス監視:レスポンスタイム・CPU・メモリなどの性能指標を継続的に計測
- ログ監視:アプリケーションログ・エラーログをリアルタイムに解析
- 外形監視(シナリオ監視):実際のユーザー操作を模したシナリオでサービス全体の動作を確認
- セキュリティ監視:不正アクセスや異常通信を検知
死活監視を「外形チェック」の基盤として位置づけ、パフォーマンス監視・ログ監視・セキュリティ監視を重ねることで、システム全体を多層的にカバーする運用体制が構築できます。どの手法を優先するかは、対象システムの可用性要件(SLA/SLO)と担当チームのリソースに応じて設計してください。
カオピーズの監視サービス導入事例
死活監視を含む多層的な監視体制を自社だけで構築・維持することは、多くの企業にとって容易ではありません。カオピーズでは、24時間365日のリモート監視体制と迅速なインシデント対応を組み合わせた監視サービスを提供し、お客様のシステム安定稼働を支援しています。
カオピーズの監視サービス概要
カオピーズの監視サービスは、アプリケーション・インフラ・ネットワークをワンストップでカバーします。AWS / GCP / Azure のクラウド環境からオンプレミス・ハイブリッド構成まで対応し、COBOL・VB6を含むレガシー構成の監視実績も有しています。グループ全体700名以上のエンジニアが、24時間365日のリモート監視体制を支えています。
図2: カオピーズ監視サービスのSLA・SLO主要指標
公式SLAとして、アラート発生から10〜30分以内に初期対応を実施。95%のインシデントで10分以内にアラート処理、30分以内に状況報告を送信する体制を維持しています。
導入事例:データパイプラインの監視・障害対応自動化
あるIT系企業では、GCP(Google Cloud Platform)上に構築したデータ収集・処理パイプラインの安定稼働に課題を抱えていました。記事データの自動収集・変換・BigQueryへのインポートを行う一連の処理において、エラー発生時の検知が遅れ、手動対応による業務負担とデータ活用の遅延が問題となっていました。
カオピーズは以下の対応を実施しました。
- Cloud Functionによるエラーハンドリングと、Slackなど外部通知ツールへのリアルタイムアラート連携を実装
- ログファイル・エラーファイルの自動出力による障害対応の迅速化
- GCPベースの拡張性の高い構成で、将来的な機能追加・運用変更にも柔軟に対応できる体制を構築
導入効果:データ取得・処理フローの自動化により作業時間を大幅削減。エラー発生時の即時通知により、障害対応の迅速化と安定運用を実現しました。
カオピーズは1,000件以上のプロジェクト実績と12年以上の日本市場経験を背景に、お客様のシステム安定稼働を継続的にサポートしています。
まとめ
本記事では、死活監視の基本から実施方法・限界・補完策までを解説しました。最後に要点を整理します。
この記事のポイント
- ✔ 死活監視とは、ホスト・サービスが「応答しているか・していないか」を定期的に確認する監視手法であり、システム安定運用の基盤となる
- ✔ 死活監視にはアクティブ監視とパッシブ監視の2種類があり、重要システムでは併用が推奨される
- ✔ 監視対象はサーバーだけでなく、ネットワーク機器・アプリケーション・クラウドサービスまで幅広くカバーする必要がある
- ✔ 死活監視単体では、パフォーマンス劣化・ログエラー・セキュリティ異常は検知できないため、パフォーマンス監視・ログ監視との組み合わせが有効
- ✔ 社内リソースが限られる場合は、24時間365日対応の専門パートナーへの相談も有効な選択肢となる
死活監視は、システム安定運用の出発点です。まず「動いているか・止まっているか」の自動検知体制を整え、その上にパフォーマンス監視・ログ監視を重ねることで、貴社のITインフラは障害に強い多層防御の構成へと近づきます。SLAを明確化した専門パートナーへの相談も含め、自社に最適な監視体制の構築をご検討ください。
よくある質問(FAQ)
Q1. 死活監視の導入・運用にかかるコストはどのくらいですか?
死活監視の導入コストは、選択する手法によって大きく異なります。OSSツール(ZabbixやNagiosなど)は無償で利用できますが、構築・運用に技術知識を持つ担当者が必要です。SaaS型監視ツールは比較的低コストで利用できるものが多く、導入・運用の手間を抑えられます。自社運用が難しい場合は、監視代行サービスへのアウトソーシングも費用対効果の高い選択肢のひとつです。
Q2. 死活監視と疎通確認の違いは何ですか?
疎通確認は特定のタイミングで手動または一時的にネットワークの到達性を確認する行為を指すことが多く、継続的・自動的な仕組みではありません。一方、死活監視は定期的かつ自動的に監視を繰り返し、障害発生時には即時アラートを発報する継続的な運用体制を指します。本番環境の安定稼働には、疎通確認ではなく死活監視の導入が必要です。
Q3. 死活監視ツールの選び方のポイントは何ですか?
死活監視ツールを選ぶ際は、①監視対象(オンプレミス・クラウド・ハイブリッド)への対応範囲、②アラート通知方法(メール・Slack・PagerDutyなど)、③導入・運用に必要な技術スキル、④コスト(OSS無料 vs SaaS有料)の4点を基準に検討することが重要です。社内の運用体制に合わせて、管理しやすいツールを選択してください。
Q4. 死活監視だけでシステムの安全は保証されますか?
死活監視だけでシステムの完全な安全を保証することはできません。死活監視は「動いているか・止まっているか」の二値判定のみを行います。パフォーマンス劣化・アプリケーション内部のエラー・セキュリティ侵害などは検知できないため、パフォーマンス監視・ログ監視・セキュリティ監視と組み合わせた多層的な監視体制の構築が推奨されます。
Q5. システム監視を外部に委託すべきケースはどのような場合ですか?
以下のような状況では、監視業務のアウトソーシングを検討することが推奨されます。①社内にIT専任担当者がおらず、夜間・休日の監視対応が困難な場合、②SLAが求められる本番環境を運用しているが、インシデント対応フローが整備されていない場合、③監視ツールの導入・設定・保守まで対応できる人材が不足している場合。専門チームに委託することで、障害検知から初動対応までを一貫してカバーでき、社内リソースをコア業務に集中させることが可能です。
- 総務省「令和7年版 情報通信白書(2025年)」
https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r07/html/nd111210.html - New Relic・ETR「2024 Observability Forecast Report」(マイナビニュース、2024年12月)
https://news.mynavi.jp/techplus/article/20241218-3088939/ - 独立行政法人 情報処理推進機構(IPA)「DX動向2025」(2025年6月)
https://www.ipa.go.jp/digital/chousa/dx-trend/dx-trend-2025.html - 独立行政法人 情報処理推進機構(IPA)「情報セキュリティ10大脅威 2026(組織編)」(2026年1月)
https://www.ipa.go.jp/pressrelease/2025/press20260129.html
よく読まれている記事
オフショア開発とは?意味やメリット、失敗しない進め方を紹介
24/365とは?システム安定稼働に必要な運用体制・コストを解説



