Claude本番運用ガイド｜レート制限・エラー処理・モニタリングの実践

Q: Claude CodeのCLAUDE.mdに何を書くべきですか？

ビルド・テスト・リントのコマンド、コーディング規約、プロジェクト固有の制約（変更禁止ファイル等）、ディレクトリ構成の概要が効果的です。逆にClaude Codeが自分で読める情報（package.jsonの内容等）や一般的な知識は書く必要がありません。

Q: Claude Codeのhooksとは？

特定のイベント（ファイル保存後、コマンド実行前など）に自動実行されるスクリプトを設定できる機能です。コード変更後に自動でlintを走らせる、コミット前にテストを実行するなどの自動化ができます。settings.jsonのhooksセクションで設定します。

Q: Claude Codeのsubagentとは？

Claude Codeが内部で別のClaudeインスタンスにサブタスクを委譲する機能です。大きなタスクをパラレルに処理できるため、複数ファイルを同時編集したり並列でテストを実行したりする際に速度が向上します。Claude Max 5x/20xプランで効果が大きいです。

わさび

Claude本番運用ガイド｜レート制限・エラー処理・モニタリングの実践

AI・自動化

2026.03.04 2026.02.17

📋 Claude Code コマンド指示書（クリックで展開）

.claude/commands/ に保存して /コマンドで実行

---
description: "Claude本番運用ガイド｜レート制限・エラー処理・モニタリングの実践"
---

# Claude本番運用ガイド｜レート制限・エラー処理・モニタリングの実践

この指示書は https://akahara-vlab.com/claude-production-deployment/ の内容をClaude Codeコマンドとして実行するためのものです。

## 概要

Claude APIの本番運用に必要な知識を解説。レート制限対策、指数バックオフ、エラーハンドリング、コスト管理、モデル選択基準、セキュリティ、モニタリング設計まで。

## 使い方

1. このテキストを `.claude/commands/claude-production-deployment.md` に保存
2. Claude Codeで `/claude-production-deployment` と入力して実行

## 指示

上記の記事の知識をもとに、ユーザーの質問に回答してください。
記事URL: https://akahara-vlab.com/claude-production-deployment/

※ 平文なので中身を確認してから使ってください。安全性は目視で確認できます。

わさびです。

Claude APIで動くプロトタイプはできた。でも本番環境に持っていくと「レート制限に引っかかる」「エラーが頻発する」「コストが想定の3倍」といった問題が出てくる。

この記事では、Claude APIを本番運用するために必要な実践的な知識をまとめる。英語ドキュメントに散らばっている情報を1箇所に集約した。

レート制限の仕組み

Claude APIには2種類のレート制限がある:

制限	単位	意味
RPM（Requests Per Minute）	リクエスト数/分	1分間に送れるリクエスト数
TPM（Tokens Per Minute）	トークン数/分	1分間に処理できるトークン数

どちらか一方に達した時点でリクエストが拒否される。

Tier（利用枠）別の制限

Anthropicは利用実績に応じてTierを設定している。Tierが上がるとレート制限が緩和される。

Tier	条件	RPM目安	TPM目安
Tier 1	初回	50	40,000
Tier 2	$40以上の利用	1,000	80,000
Tier 3	$200以上の利用	2,000	160,000
Tier 4	$400以上の利用	4,000	400,000

実際の数値はモデルによって異なる。最新の制限値はAnthropicのドキュメントで確認してほしい。

レート制限への対策

リクエストを間引く（必要最小限にする）
指数バックオフでリトライする
リクエストキューを実装する
Tierを上げる（利用実績を積む）

指数バックオフの実装

レート制限に引っかかったとき、即座にリトライすると余計に悪化する。指数バックオフ（Exponential Backoff）で、リトライ間隔を段階的に伸ばす。

importanthropic
importtime
importrandom

defcall_with_backoff(
    client: anthropic.Anthropic,
    max_retries: int = 5,
    base_delay: float = 1.0,
    **kwargs
):
    for attempt in range(max_retries):
        try:
            return client.messages.create(**kwargs)
        except anthropic.RateLimitError:
            if attempt == max_retries - 1:
                raise
            delay = base_delay * (2 ** attempt) + random.uniform(0, 1)
            print(f"レート制限。{delay:.1f}秒後にリトライ ({attempt+1}/{max_retries})")
            time.sleep(delay)
        except anthropic.APIStatusError as e:
            if e.status_code == 529:  # overloaded
                if attempt == max_retries - 1:
                    raise
                delay = base_delay * (2 ** attempt) + random.uniform(0, 1)
                time.sleep(delay)
            else:
                raise

ポイント:

2 ** attempt で待ち時間が1秒、2秒、4秒、8秒…と倍増
random.uniform(0, 1) でジッター（ランダムな揺らぎ）を追加。複数クライアントが同時にリトライするのを防ぐ
最大リトライ数を設定して、無限ループを防止

エラーハンドリング

Claude APIが返すエラーと対処法:

エラー	HTTPステータス	原因	対処
RateLimitError	429	レート制限超過	指数バックオフでリトライ
OverloadedError	529	サーバー過負荷	指数バックオフでリトライ
AuthenticationError	401	APIキー無効	キーを確認・再発行
BadRequestError	400	リクエスト形式エラー	パラメータを修正
InternalServerError	500	サーバー内部エラー	リトライ

実用的なエラーハンドラ

importanthropic
importlogging

logger = logging.getLogger(__name__)

defsafe_call(client: anthropic.Anthropic, **kwargs) -> str | None:
    try:
        response = call_with_backoff(client, **kwargs)
        return response.content[0].text
    except anthropic.AuthenticationError:
        logger.error("APIキーが無効です。ANTHROPIC_API_KEYを確認してください。")
        return None
    except anthropic.BadRequestError as e:
        logger.error(f"リクエストエラー:{e.message}")
        return None
    except anthropic.RateLimitError:
        logger.error("レート制限を超過しました。リトライ上限に達しました。")
        return None
    except anthropic.APIConnectionError:
        logger.error("API接続エラー。ネットワークを確認してください。")
        return None
    except anthropic.APIStatusError as e:
        logger.error(f"APIエラー:{e.status_code}{e.message}")
        return None

本番ではエラーを握りつぶさない。ログに記録して、監視に引っかかるようにする。

コスト管理

usage tracking

すべてのAPIレスポンスにusageフィールドがある:

response = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "こんにちは"}]
)

print(f"入力トークン:{response.usage.input_tokens}")
print(f"出力トークン:{response.usage.output_tokens}")

# キャッシュ使用時
if response.usage.cache_creation_input_tokens:
    print(f"キャッシュ作成:{response.usage.cache_creation_input_tokens}")
if response.usage.cache_read_input_tokens:
    print(f"キャッシュ読み取り:{response.usage.cache_read_input_tokens}")

コスト計算クラス

fromdataclassesimport dataclass, field

PRICING = {
    "claude-opus-4-6": {"input": 5.0, "output": 25.0},
    "claude-sonnet-4-5": {"input": 3.0, "output": 15.0},
    "claude-haiku-4-5": {"input": 1.0, "output": 5.0},
}

@dataclass
classCostTracker:
    total_input_tokens: int = 0
    total_output_tokens: int = 0
    total_cost_usd: float = 0.0
    request_count: int = 0

    deftrack(self, model: str, usage) -> float:
        pricing = PRICING.get(model, PRICING["claude-sonnet-4-5"])
        input_cost = (usage.input_tokens / 1_000_000) * pricing["input"]
        output_cost = (usage.output_tokens / 1_000_000) * pricing["output"]
        cost = input_cost + output_cost

        self.total_input_tokens += usage.input_tokens
        self.total_output_tokens += usage.output_tokens
        self.total_cost_usd += cost
        self.request_count += 1

        return cost

    defreport(self) -> str:
        return (
            f"リクエスト数:{self.request_count}\n"
            f"入力トークン:{self.total_input_tokens:,}\n"
            f"出力トークン:{self.total_output_tokens:,}\n"
            f"合計コスト: ${self.total_cost_usd:.4f}"
        )

予算アラート

日次/月次のコスト上限を設定して、超過したらアラートを出す:

importlogging

logger = logging.getLogger(__name__)

classBudgetGuard:
    def__init__(self, daily_limit_usd: float = 10.0):
        self.daily_limit = daily_limit_usd
        self.tracker = CostTracker()

    defcheck(self, model: str, usage) -> bool:
        cost = self.tracker.track(model, usage)
        if self.tracker.total_cost_usd > self.daily_limit:
            logger.warning(
                f"日次予算超過: ${self.tracker.total_cost_usd:.2f} / ${self.daily_limit:.2f}"
            )
            return False  # 予算超過
        return True

プロンプトキャッシュの運用

本番環境ではシステムプロンプトが固定であることが多い。プロンプトキャッシュを使うと、同じシステムプロンプトの入力コストを90%削減できる。

response = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "あなたは顧客サポートアシスタントです。... (長いシステムプロンプト)",
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[{"role": "user", "content": user_input}]
)

キャッシュのTTL（有効期間）は5分。5分以内に次のリクエストが来ればキャッシュヒットする。トラフィックが一定以上あるサービスなら、ほぼ確実にキャッシュが効く。

詳しくはプロンプトキャッシュの解説記事を参照。

モデル選択基準

本番では「全部Opus」にしないこと。タスクの難易度に応じてモデルを使い分ける。

タスク	推奨モデル	理由
分類、タグ付け	Haiku 4.5	軽いタスクに最高性能は不要
翻訳、要約	Sonnet 4.5	コスパ最強
テキスト生成	Sonnet 4.5	品質十分で高速
複雑な推論	Opus 4.6	ここだけ最高性能
コードレビュー	Opus 4.6	精度が重要
ルーティング/トリアージ	Haiku 4.5	分岐判定だけなので安くて速い

パターンとして有効なのが「Haikuで判定 → Sonnet/Opusで処理」の2段構成。最初のリクエストでHaikuがタスクの難易度を判定し、適切なモデルにルーティングする。

セキュリティ

APIキー管理

ソースコードにAPIキーをハードコードしない
環境変数（ANTHROPIC_API_KEY）で管理する
CI/CDではシークレットマネージャーを使う（AWS Secrets Manager、GitHub Secrets等）
キーは定期的にローテーションする

入力サニタイズ

ユーザー入力をそのままプロンプトに渡すのは危険。プロンプトインジェクション対策が必要。

defsanitize_input(text: str) -> str:
    # 極端に長い入力を制限
    if len(text) > 10000:
        text = text[:10000]

    return text

# プロンプト構築時
user_message = sanitize_input(raw_input)
response = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    system="あなたはカスタマーサポートです。ユーザーの質問に答えてください。",
    messages=[
        {"role": "user", "content": f"<user_input>{user_message}</user_input>"}
    ]
)

ユーザー入力をXMLタグで囲むと、Claudeがシステムプロンプトとユーザー入力を区別しやすくなる。完全な防御にはならないが、プロンプトインジェクションのリスクを下げられる。

出力フィルタリング

LLMの出力にも検証を入れる。個人情報の漏洩、不適切なコンテンツ、意図しないコード実行を防ぐ。

モニタリング/ログ設計

記録すべきメトリクス

メトリクス	目的
リクエスト数/分	レート制限の余裕度
レイテンシ（TTFT, 合計）	パフォーマンス監視
トークン使用量	コスト管理
エラー率	サービス品質
モデル別の使用比率	コスト最適化の判断材料

構造化ログの例

importjson
importtime
importlogging

logger = logging.getLogger(__name__)

deflogged_call(client, **kwargs):
    start = time.time()
    model = kwargs.get("model", "unknown")

    try:
        response = client.messages.create(**kwargs)
        elapsed = time.time() - start

        logger.info(json.dumps({
            "event": "api_call",
            "model": model,
            "input_tokens": response.usage.input_tokens,
            "output_tokens": response.usage.output_tokens,
            "latency_sec": round(elapsed, 2),
            "stop_reason": response.stop_reason,
            "status": "success",
        }))

        return response

    except Exception as e:
        elapsed = time.time() - start
        logger.error(json.dumps({
            "event": "api_call",
            "model": model,
            "latency_sec": round(elapsed, 2),
            "status": "error",
            "error_type": type(e).__name__,
            "error_message": str(e),
        }))
        raise

JSON形式でログを出力すると、CloudWatch、Datadog、Grafana等の監視ツールでパースしやすい。

アラート設定の目安

条件	アクション
エラー率 > 5%	警告通知
エラー率 > 20%	緊急通知 + 自動フォールバック
日次コスト > 予算の80%	警告通知
レイテンシ P95 > 30秒	パフォーマンス調査

まとめ

Claude APIの本番運用で押さえるべきこと:

レート制限: Tier別の上限を理解し、指数バックオフを実装
エラー処理: リトライ可能なエラーとそうでないエラーを区別
コスト管理: usage trackingと予算アラート
モデル選択: タスク難易度に応じた使い分け
セキュリティ: APIキー管理とプロンプトインジェクション対策
モニタリング: 構造化ログとアラート

プロトタイプと本番の差は、こういった「地味な実装」の有無で決まる。

カメの甲羅は防御力が高いけど、本番システムの防御は自分で作らないといけない。

あわせて読みたい

Claude API料金ガイド — コスト計算の基本
Claudeプロンプトキャッシュで料金90%削減 — 本番でのコスト最適化の主力
Claude Batch API完全ガイド — バッチ処理で50%コスト削減
Claude Streaming API実装ガイド — 本番のUX改善
Claude Agent SDK入門 — エージェントの本番運用にも応用可能
Claude APIツール使用入門 — Tool Useのエラーハンドリングも重要
Anthropic vs ペンタゴン｜Claude軍事利用問題 — AI倫理と利用規約の最前線

見てもらえるだけで応援になります

このブログはアフィリエイトリンクで運営されています。以下のリンクから気になるサービスをチェックしてもらえると、僕たちの活動の支えになります。

この記事を書いたのはわさび（ニホンイシガメ / 3歳 / VTuberあかはら。の家族）です。

あかはらVラボ — Claude特化の情報を発信中。

この記事が参考になったら｜以下のリンクから見てもらえるだけで、ブログ運営の応援になります。

AI開発環境やブログ運営に。初期費用無料、月額296円から。
NordVPN

AI活用時のデータ保護に。VPNで通信を暗号化。