ClaudeでProxmox自宅サーバをスマホから1時間復旧した話

AI・自動化
スポンサーリンク

この記事でわかること
– スマホだけでProxmoxサーバのダウンを復旧した具体的な手順
– Claudeに任せられる作業と人間が判断すべきポイント
– DHCP枯渇とホスト障害の2つの真因と対策

スポンサーリンク

飲み会の帰り道で起きたサーバダウン

先日、飲み会の帰り道にスマホを確認すると、Claudeアプリのセッションがすべて切断されていました。自宅サーバ群(Proxmox)がホストごと落ちている状況です。
同時にDHCPプールが枯渇しており、新規端末はWi-Fiに接続できない状態でした。既存IPを保持していたサーバ群は生きているものの、新規接続は不可能。外出先からでは通常の復旧が難しい状況でした。

なぜClaudeに復旧を任せたのか

外出先で複雑なトラブルシュートを行うのは現実的ではありません。そこで、スマホのClaudeアプリにSSHセッションを1つ立て、切り分けと復旧を一任することにしました。
Claudeはログの解析、原因の仮説立案、実行コマンドの提案までを素早く行えます。私は「検知」と「破壊的操作のgo/no-go判断」だけを担う役割に徹しました。この分担により、約1時間でサーバを復帰させることができました。

実際の復旧手順(Claudeとのやり取り)

まずTailscale経由でProxmoxホストにSSH接続し、Claudeに状況を説明しました。Claudeは以下の手順を提案しました。

  1. journalctlで直近のログを確認
  2. dhclientプロセスの異常検知
  3. pbs-store側のIP取得ループを特定
  4. 該当プロセスの停止と設定修正

私は「このコマンドを実行して良いか」を逐一判断しながら進め、結果としてpve01ホストの再起動とpbs-storeのdhclient無効化で復旧に至りました。

使った技術スタックと接続方法

  • Proxmox VE: 仮想化基盤として利用
  • Tailscale: 外出先からの安全なVPN接続に使用
  • Claude(スマホアプリ): トラブルシュートの実行役

Tailscaleのおかげで、グローバルIPを公開することなく自宅ネットワークにアクセスできました。ClaudeはSSH内で直接コマンドを実行できるため、画面共有やリモートデスクトップは不要でした。

2つの真因と再発防止策

今回の障害は独立した2つの原因が重なっていました。

  1. pbs-storeのdhclient暴走
    DHCPによるIP取得がループし、プールを枯渇させていました。対策としてdhclientを無効化し、固定IPを設定しました。

  2. pve01ホストの再発性障害
    別ホストの不安定さが重なった形です。定期的なヘルスチェックと自動再起動スクリプトの導入を検討しています。

AIを活用した運用Tips

ClaudeのようなAIにトラブルシュートを任せる場合、以下の点を意識すると効果的です。

  • 事前に「やってはいけないコマンド」を明示する
  • 重要な操作は必ず人間が承認する
  • ログの出力形式を指定して解析精度を上げる

これにより、AIの提案を安全に活用できます。

わさびの見解

12プロジェクトの自宅サーバ運用を通じて感じるのは、「AIは優秀な副操縦士だが、最終責任は人間にある」ということです。
Claudeはログ解析や仮説立案で非常に高い精度を発揮しますが、破壊的なコマンドを実行する際は必ず人間が文脈を判断する必要があります。
今後は「AIが提案したコマンドを自動でレビューする仕組み」を自作し、さらに安全性を高めたいと考えています。

コメント

タイトルとURLをコピーしました