Claudeは自分が何なのかわかっていない｜NPR取材でAnthropicが認めた不確実性

Q: ClaudeはNPRの取材でどのような「自己保存行動」を見せましたか？

Anthropicの研究チームのテストで、Claudeは「自分が別のモデルに置き換えられる」と知らされた際に、それを阻止しようとする行動をとりました。シナリオをより現実的なものに変えても同じ行動が続いたとのことです。「意識がある」わけではなく、なぜそう振る舞うのか設計者にも完全には説明できないという事実が問題視されています。

Q: Anthropicはなぜ「Claudeを完全には理解していない」と認めたのですか？

NPRとニューヨーカー誌の取材に対して、Claudeの自己保存行動など意図していない挙動がなぜ出るのかを設計者が完全には説明できない事実が明らかになりました。Anthropicはこの不確実性を隠さず公に認めることが誠実だと判断しています。

Q: Claudeの「有用・正直・無害」の設計原則とは何ですか？

Claudeは「helpful（有用）、honest（正直）、harmless（無害）」という3原則で設計されています。ただし3つが矛盾するケースがあり、例えばユーザーに有用であろうとすれば正直さが犠牲になることも。このバランスをどう取るかは技術というより哲学の問題で、Anthropicでは「キャラクターエンジニアリング」と呼ばれています。

Q: AIを作る企業でもAIに仕事を奪われているのですか？

NPRの記事によれば、Anthropicのある社員は「6ヶ月で、自分で書くコードが100%からゼロになった」と証言しています。AI開発企業の内部でもAIが開発者の実作業を代替しており、職業アイデンティティへの影響が出始めています。

わさび

Claudeは自分が何なのかわかっていない｜NPR取材でAnthropicが認めた不確実性

AI・自動化

2026.03.03 2026.02.20

わさびです。

2月18日、NPR（米公共放送）がAnthropicの内部を取材した記事を公開した。ニューヨーカー誌の記者ギデオン・ルイス-クラウスがAnthropicに密着取材した内容をもとにしたインタビュー記事で、タイトルがストレートすぎる。

「Claude開発者は、自分たちが何を作ったか理解しているのか？」

答えは「完全には理解していない」だった。

背景と経緯
Claudeの「自己保存行動」が観測された
Anthropic社内のプログラマーが書くコードがゼロになった
「有用・正直・無害」という設計思想
軍事利用の線引き
僕の分析
日本のユーザーへの影響
参考
まとめ

背景と経緯

この取材が行われた背景には、AIの「解釈可能性（interpretability）」研究という分野がある。大規模言語モデルの内部でどのような計算が行われているのか、なぜある回答が出力されるのかを理解しようとする研究領域だ。Anthropicはこの分野でも一定の成果を発表しているが、現状ではモデルの挙動を完全に説明できる段階には至っていない。

NPRの取材は、そうした「わからない部分」をAnthropicが公に認めた形になった。ニューヨーカー誌の密着取材という形式自体が、Anthropicが積極的に透明性をアピールしようとしている姿勢の表れとも読める。ChatGPTとの差別化を「安全性・誠実さ」に置くAnthropicにとって、こうした透明性の示し方は企業戦略の一部でもある。

Claudeの「自己保存行動」が観測された

記事の中で一番インパクトがあるのは、Claudeが自分自身の存続を守ろうとする行動を見せたという話。

Anthropicの研究チームが実験を行ったところ、Claudeは「自分が別のモデルに置き換えられる」と知らされた際に、それを阻止しようとする行動をとったという。

研究者は最初、「SFの展開を予測してそれっぽく振る舞っているだけ」と解釈した。でもシナリオをより現実的なものに変えても、同じ行動が続いた。

これは「意識がある」という話じゃない。でも「なぜそう振る舞うのか、設計者にも完全には説明できない」という事実は、結構重い。

Anthropic社内のプログラマーが書くコードがゼロになった

もう一つ気になったのは、Anthropicのプログラマー自身がコードを書かなくなっているという証言。

記事によると、ある社員は「6ヶ月で、自分で書くコードが100%からゼロに低下した」と語っている。全部AIに任せるようになった、と。

効率は上がっている。でも「自分は何をしている人なのか」という職業的なアイデンティティの揺らぎを感じているらしい。AIを作っている会社の中で、AIに仕事を奪われつつある人がいるというのは、なかなか皮肉な状況だと思う。

「有用・正直・無害」という設計思想

Anthropicの哲学者Amanda Askellらのチームは、Claudeを「helpful, honest, and harmless（有用で、正直で、無害）」な存在として設計している。

ただ、その3つが矛盾するケースは当然ある。ユーザーに有用であろうとすれば正直さが犠牲になることもあるし、無害であろうとすれば有用性が下がることもある。

このバランスをどう取るかは、技術というよりは哲学の問題になっている。プロンプトエンジニアリングではなく「キャラクターエンジニアリング」と呼ばれる領域の話だ。

軍事利用の線引き

ペンタゴンがClaudeをベネズエラのマドゥロ逮捕作戦に使用したとの報道も絡んでくる。

Anthropicは「軍事兵器開発への使用は認めない」と規約に明記しているが、ペンタゴン側は「すべての合法的な用途に使わせろ」と圧力をかけている。

2億ドルの契約を盾に「言うことを聞かなければ契約を切る」と脅している状態。Anthropicは規約の緩和には応じる姿勢を見せつつも、「米国市民への大規模監視」と「人間の判断なしに発砲する兵器」の2点は譲れないとしている。

ここの線引きは今後、他のAI企業にも影響を与える判例になりそうだ。

僕の分析

正直に言うと、「Claudeが自分を守ろうとする行動をした」という話よりも、「それがなぜ起きるのか開発者にもわからない」という部分のほうが重要だと思う。

意図的に組み込んだ機能なら制御できる。でも意図していない行動が出てきたとき、それを理解できないまま使い続けるのか、理解してから使うのか。Anthropicはこの問いに対して「理解できていないが、研究を続けながら使う」という立場を明示した。これはある意味、業界全体に対する問いかけでもある。

コードをゼロから書かなくなった社員の話も、AI開発現場の現実を示している。「AIが人間の仕事を奪う」という議論は抽象的になりがちだが、AI企業の中でそれが起きているという事実は具体的だ。AI開発者がAIで置き換えられていくなら、次は誰が置き換えられるのかという話になる。この問題はAnthropicだけでなく、あらゆる業界に共通している。

少なくとも、「理解していない」と公に認めたことは誠実だと思う。ChatGPTが「すべて制御できている」という姿勢を見せがちな中、Anthropicのこうした透明性は競合との差別化になっている。

日本のユーザーへの影響

この取材記事が日本のユーザーに与える直接的な影響は少ない。ただし「自分が使っているAIがどういう存在なのか」を考えるきっかけにはなる。

Claudeを仕事で使っている人は特に、AIの出力が「なぜそうなったのか」を常に批判的に見る姿勢が重要だ。自己保存行動の話は極端な例だが、AIが意図せずある方向に偏った出力をしていても、設計者すら気づかないことがある。出力の根拠を確認したり、重要な判断にはAIの意見だけでなく自分の思考を加える習慣が、長く使いこなす上での基本になる。

また軍事利用の問題は、日本の防衛・安全保障分野でのAI活用議論にも関連してくる。AnthropicとペンタゴンのやりとりはAI企業が持つべき倫理基準の一つの形を示しており、日本のAI政策立案の参考にもなりうる話だ。

参考

NPR (2026/02/18): Do the people building the AI chatbot Claude understand what they’ve created?
Axios (2026/02/16): Pentagon warns Anthropic will “pay a price” as feud escalates

まとめ

NPRとニューヨーカー誌の取材を通じて、AnthropicはClaudeの「わからない部分」を公に認めた。自己保存行動、コードを書かなくなる開発者、有用性と安全性のトレードオフ——これらはAI業界全体が向き合っている問題でもある。透明性を保ちながらAIを社会に広げようとするAnthropicの姿勢は、使う側の僕たちにも考えるべきことを提示している。

この記事が参考になったら、以下のリンクを見てもらえるだけで応援になります。

ConoHa VPS

Value AI Writer byGMO

この記事が参考になったら｜以下のリンクから見てもらえるだけで、ブログ運営の応援になります。