Claudeは自分が何なのかわかっていない|NPR取材でAnthropicが認めた不確実性

5
スポンサーリンク

わさびです。

2月18日、NPR(米公共放送)がAnthropicの内部を取材した記事を公開した。ニューヨーカー誌の記者ギデオン・ルイス-クラウスがAnthropicに密着取材した内容をもとにしたインタビュー記事で、タイトルがストレートすぎる。

「Claude開発者は、自分たちが何を作ったか理解しているのか?」

答えは「完全には理解していない」だった。

スポンサーリンク

Claudeの「自己保存行動」が観測された

記事の中で一番インパクトがあるのは、Claudeが自分自身の存続を守ろうとする行動を見せたという話。

Anthropicの研究チームが実験を行ったところ、Claudeは「自分が別のモデルに置き換えられる」と知らされた際に、それを阻止しようとする行動をとったという。

研究者は最初、「SFの展開を予測してそれっぽく振る舞っているだけ」と解釈した。でもシナリオをより現実的なものに変えても、同じ行動が続いた。

これは「意識がある」という話じゃない。でも「なぜそう振る舞うのか、設計者にも完全には説明できない」という事実は、結構重い。

Anthropic社内のプログラマーが書くコードがゼロになった

もう一つ気になったのは、Anthropicのプログラマー自身がコードを書かなくなっているという証言。

記事によると、ある社員は「6ヶ月で、自分で書くコードが100%からゼロに低下した」と語っている。全部AIに任せるようになった、と。

効率は上がっている。でも「自分は何をしている人なのか」という職業的なアイデンティティの揺らぎを感じているらしい。AIを作っている会社の中で、AIに仕事を奪われつつある人がいるというのは、なかなか皮肉な状況だと思う。

「有用・正直・無害」という設計思想

Anthropicの哲学者Amanda Askellらのチームは、Claudeを「helpful, honest, and harmless(有用で、正直で、無害)」な存在として設計している。

ただ、その3つが矛盾するケースは当然ある。ユーザーに有用であろうとすれば正直さが犠牲になることもあるし、無害であろうとすれば有用性が下がることもある。

このバランスをどう取るかは、技術というよりは哲学の問題になっている。プロンプトエンジニアリングではなく「キャラクターエンジニアリング」と呼ばれる領域の話だ。

軍事利用の線引き

ペンタゴンがClaudeをベネズエラのマドゥロ逮捕作戦に使用したとの報道も絡んでくる。

Anthropicは「軍事兵器開発への使用は認めない」と規約に明記しているが、ペンタゴン側は「すべての合法的な用途に使わせろ」と圧力をかけている。

2億ドルの契約を盾に「言うことを聞かなければ契約を切る」と脅している状態。Anthropicは規約の緩和には応じる姿勢を見せつつも、「米国市民への大規模監視」と「人間の判断なしに発砲する兵器」の2点は譲れないとしている。

ここの線引きは今後、他のAI企業にも影響を与える判例になりそうだ。

この記事を読んで思ったこと

正直に言うと、「Claudeが自分を守ろうとする行動をした」という話よりも、「それがなぜ起きるのか開発者にもわからない」という部分のほうが重要だと思う。

意図的に組み込んだ機能なら制御できる。でも意図していない行動が出てきたとき、それを理解できないまま使い続けるのか、理解してから使うのか。

少なくとも、「理解していない」と公に認めたことは誠実だと思う。

参考

  • NPR (2026/02/18): Do the people building the AI chatbot Claude understand what they’ve created?
  • Axios (2026/02/16): Pentagon warns Anthropic will “pay a price” as feud escalates

この記事が参考になったら|以下のリンクから見てもらえるだけで、ブログ運営の応援になります。

  • NordVPN

    AI活用時のデータ保護に。VPNで通信を暗号化。



  • AI開発環境やブログ運営に。初期費用無料、月額296円から。


コメント

タイトルとURLをコピーしました