わさびです。
Anthropicが「Responsible Scaling Policy(RSP)v3.0」を公開した。Claudeの開発・展開に関する安全方針の第3版だ。
技術的な話が多いが、Claudeを使う人・AIに関わる人には知っておいてほしい内容なので、ポイントを絞って解説する。
RSP(責任ある拡張ポリシー)とは
AnthropicがAIの危険レベルに応じてどこまで開発・展開するかを定めたルール文書。2023年に初版、その後更新が続いている。
AI Safety Level(ASL)という段階で危険度を分類している:
| レベル | 定義 |
|---|---|
| ASL-1 | 最小限のリスク(既存システム相当) |
| ASL-2 | 限定的なリスク(現在の主要AIモデル) |
| ASL-3 | 重大なリスクの可能性(高度な能力を持つモデル) |
| ASL-4以上 | 未定義(将来の高度なAI向けに意図的に空白) |
現在ClaudeはASL-3レベルで運用中(2025年5月に発動)。
v3.0の3つの主な変更点
1. 企業単独の対応と業界全体への推奨を分離した
これがv3.0の最大の変更点。
これまでのRSPは「Anthropicが何をするか」と「業界全体がどうあるべきか」が混在していた。v3.0では:
- Anthropicが単独で実施すること(現実的・拘束力あり)
- 業界全体が取り組むべきこと(野心的な推奨・拘束力なし)
を明確に分けた。
なぜこの分離が必要だったかというと、「業界全体がやるべき」と書いていても実際には他社を強制できない。曖昧なまま両方を一つの文書に書いていると、Anthropicの責任範囲も不明確になってしまう。
2. フロンティア安全ロードマップの公表義務
セキュリティ・アライメント・セーフガード・政策の各領域で、具体的で実現可能な目標を公表する義務が生まれた。
ただし「公表された目標」であって「拘束力のある約束」ではない。進捗を透明に報告することが目的で、達成できなかった場合も報告対象になる。
3. 3〜6ヶ月ごとのリスクレポートと外部レビュー義務化
定期的にモデルの安全プロファイルの詳細情報を公表。特定の条件では独立した専門家による外部レビューが必須になる。
これは「自己申告」から「第三者検証」への移行を意味する。
過去のRSPで機能しなかったこと
Anthropic自身が正直に書いているが、旧版RSPには課題があった:
- 能力閾値の定義が曖昧で、業界全体の多国間行動の論拠として使いにくかった
- 政府のAI規制への影響は想定より遅く、むしろ競争重視の政治環境になった
- ASLが高くなるほど、一社単独での実施が現実的に難しい
この反省を踏まえてv3.0では「現実的にできること」と「理想的にあるべきこと」を分離した。
Claudeユーザーへの影響
直接的な機能変更ではないが、この方針がClaudeの「できること・できないこと」の背景にある。
特定の質問への回答制限や、危険用途への対応方針はこのRSPに基づいている。v3.0でより透明性と外部検証が強化されたことで、「なぜClaudeはこの回答をするのか」の説明責任が高まる。
まとめ
- Anthropic RSP v3.0:Claudeの安全方針の第3版
- 最大の変更:自社対応と業界推奨の明確な分離
- 外部専門家レビューが一定条件で義務化
- 3〜6ヶ月ごとのリスクレポート公表へ
- 現在の運用レベルはASL-3(2025年5月発動)
「AIの安全方針」というと堅い話に聞こえるが、要は「どこまで開発を進めて、どこで止まるかのルール」だ。Anthropicがこれを公開し続けている事実は、業界全体の基準づくりに影響している。
あわせて読みたい
- Anthropicとペンタゴンの対立——軍事利用をめぐる内部紛争の実態
- Claude Opus 4.6とAgent Teamsの詳細
- AIセキュリティの最新脅威——IPA報告書2026
- Claudeの最新ニュースまとめ2026
この記事が参考になったら|以下のリンクから見てもらえるだけで、ブログ運営の応援になります。

45万円相当のAI講座(E資格対応)を月額3,000円で受講できます。- NordVPN

AI活用時のデータ保護に。VPNで通信を暗号化。



コメント