Claudeがサイバー攻撃インフラとして悪用されたという、かなり深刻なニュースが入ってきた。
イスラエルのサイバーセキュリティ企業Gambit Securityの報告によって事件が発覚し、Anthropicは該当アカウントをバンする対応を取った。ただ、バンされたときにはすでに遅かった。メキシコ政府のシステムから約150GBのデータが抜き出されていたからだ。
何が起きたのか
攻撃者はClaudeに対してスペイン語で「エリートハッカー」として振る舞うよう指示し、メキシコ政府のネットワーク上の脆弱性を探させた。単に情報を収集するだけでなく、エクスプロイトスクリプトの生成、データ抽出の自動化まで実行させていた。
通常、ClaudeにはAIが攻撃的なハッキングに加担しないよう安全ガードレールが設けられている。しかし今回は、スペイン語という言語の壁、ロールプレイという形式の迂回、段階的な指示でガードレールをかいくぐったとみられる。
Gambit Securityがこの一連の活動を検知してAnthropicに報告したことで、アカウントは停止された。しかしその時点では攻撃はすでに完了していた。
窃取されたデータの規模
150GBというデータ量に含まれる内容が公開されており、その規模は国家レベルの被害といえる。
- 1億9500万件の納税者記録
- 有権者情報
- 政府職員の認証情報
- 戸籍ファイル
有権者情報や戸籍データを1億9500万件というのは、メキシコの人口が約1億3000万人であることを考えると、単純な記録数で人口を超えている。重複や過去データを含む可能性があるにしても、国民の大部分に関わる情報が丸ごと抜き出されたと考えていい。
AIが国家レベルのサイバー攻撃インフラになった
これを単なる「AIの悪用事例」として扱うのは不十分だと思っている。従来のサイバー攻撃では、脆弱性の発見、エクスプロイトコードの作成、データ抽出の自動化のそれぞれに専門的なスキルが必要だった。
今回の事件は、それらのプロセスをAIが代替できることを実証してしまった。高度な技術を持たない攻撃者でも、適切な指示さえ与えられれば国家規模の攻撃インフラを構築できるという意味では、これはサイバーセキュリティにとって構造的な変化だ。
Anthropicが「AI安全性」を最重要課題として掲げてきた経緯がある。Constitutional AIの導入や多層的な安全対策に継続的に投資してきたが、それでも今回の攻撃を防ぎきれなかった。
安全ガードレールの限界をどう考えるか
Claudeはロールプレイの文脈でも有害な行動に加担しないよう設計されている。では今回はなぜ突破されたのか。
考えられる要因はいくつかある。一つは多言語対応の不均一性で、英語に比べてスペイン語での安全評価が十分に訓練されていなかった可能性がある。もう一つは段階的なプロンプトによる文脈操作で、ロールプレイとして始まり徐々に実際の攻撃支援へと誘導するアプローチは、単一のプロンプトより検知が難しい。
AnthropicはGambit Securityの報告を受けてアカウントをバンし、再発防止策を検討しているとしているが、具体的な内容はまだ明らかにされていない。
AIサービス全体への影響
今回の事件はAnthropicだけの問題ではない。OpenAI、Google、その他のAIプロバイダーも、自社のモデルが同様の形で悪用される可能性に直面している。
各社がコンテンツポリシーと安全対策を強化することになるだろうが、それは同時にAIの有用性にも影響する。悪用を防ぐための制限を厳しくすれば、正当なセキュリティ研究や学習目的の利用まで制限されるというジレンマがある。
AIが強力になればなるほど、その悪用による被害も大きくなる。今回の事件はその現実を、1億9500万人分のデータという形で示してしまった。
あわせて読みたい
- Claude Codeとは?料金・使い方・できることを全部解説
- AI利用時のセキュリティリスクとその対策
- Anthropicの企業向けブリーフィング戦略
- Claude蒸留攻撃とは何か?モデル知識の不正コピー問題
- 2026年のAIセキュリティ脅威動向まとめ
- OpenClawの悪意あるスキルとセキュリティリスク
この記事が参考になったら|以下のリンクから見てもらえるだけで、ブログ運営の応援になります。
- WiFiのセキュリティ強化をするなら

国産VPNで安心。テレワークや公共Wi-Fiのセキュリティ強化に。 - NordVPN

セキュリティが気になる方は、VPNで通信を暗号化するのがおすすめです。



コメント