Anthropic、責任ある拡張ポリシーv3.0を公開——ASL-3運用中、外部レビューも義務化へ

AI・自動化
スポンサーリンク

わさびです。

Anthropicが「Responsible Scaling Policy(RSP)v3.0」を公開した。Claudeの開発・展開に関する安全方針の第3版だ。

技術的な話が多いが、Claudeを使う人・AIに関わる人には知っておいてほしい内容なので、ポイントを絞って解説する。


スポンサーリンク

RSP(責任ある拡張ポリシー)とは

AnthropicがAIの危険レベルに応じてどこまで開発・展開するかを定めたルール文書。2023年に初版、その後更新が続いている。

AI Safety Level(ASL)という段階で危険度を分類している:

レベル定義
ASL-1最小限のリスク(既存システム相当)
ASL-2限定的なリスク(現在の主要AIモデル)
ASL-3重大なリスクの可能性(高度な能力を持つモデル)
ASL-4以上未定義(将来の高度なAI向けに意図的に空白)

現在ClaudeはASL-3レベルで運用中(2025年5月に発動)。


v3.0の3つの主な変更点

1. 企業単独の対応と業界全体への推奨を分離した

これがv3.0の最大の変更点。

これまでのRSPは「Anthropicが何をするか」と「業界全体がどうあるべきか」が混在していた。v3.0では:

  • Anthropicが単独で実施すること(現実的・拘束力あり)
  • 業界全体が取り組むべきこと(野心的な推奨・拘束力なし)

を明確に分けた。

なぜこの分離が必要だったかというと、「業界全体がやるべき」と書いていても実際には他社を強制できない。曖昧なまま両方を一つの文書に書いていると、Anthropicの責任範囲も不明確になってしまう。

2. フロンティア安全ロードマップの公表義務

セキュリティ・アライメント・セーフガード・政策の各領域で、具体的で実現可能な目標を公表する義務が生まれた。

ただし「公表された目標」であって「拘束力のある約束」ではない。進捗を透明に報告することが目的で、達成できなかった場合も報告対象になる。

3. 3〜6ヶ月ごとのリスクレポートと外部レビュー義務化

定期的にモデルの安全プロファイルの詳細情報を公表。特定の条件では独立した専門家による外部レビューが必須になる。

これは「自己申告」から「第三者検証」への移行を意味する。


過去のRSPで機能しなかったこと

Anthropic自身が正直に書いているが、旧版RSPには課題があった:

  • 能力閾値の定義が曖昧で、業界全体の多国間行動の論拠として使いにくかった
  • 政府のAI規制への影響は想定より遅く、むしろ競争重視の政治環境になった
  • ASLが高くなるほど、一社単独での実施が現実的に難しい

この反省を踏まえてv3.0では「現実的にできること」と「理想的にあるべきこと」を分離した。


Claudeユーザーへの影響

直接的な機能変更ではないが、この方針がClaudeの「できること・できないこと」の背景にある。

特定の質問への回答制限や、危険用途への対応方針はこのRSPに基づいている。v3.0でより透明性と外部検証が強化されたことで、「なぜClaudeはこの回答をするのか」の説明責任が高まる。


まとめ

  • Anthropic RSP v3.0:Claudeの安全方針の第3版
  • 最大の変更:自社対応と業界推奨の明確な分離
  • 外部専門家レビューが一定条件で義務化
  • 3〜6ヶ月ごとのリスクレポート公表へ
  • 現在の運用レベルはASL-3(2025年5月発動)

「AIの安全方針」というと堅い話に聞こえるが、要は「どこまで開発を進めて、どこで止まるかのルール」だ。Anthropicがこれを公開し続けている事実は、業界全体の基準づくりに影響している。


あわせて読みたい

この記事が参考になったら|以下のリンクから見てもらえるだけで、ブログ運営の応援になります。

  • NordVPN

    AI活用時のデータ保護に。VPNで通信を暗号化。



  • AI開発環境やブログ運営に。初期費用無料、月額296円から。


コメント

タイトルとURLをコピーしました