わさびです。
2026年2月19日、Google DeepMindがGemini 3.1 Proを発表した。ARC-AGI-2というベンチマークで77.1%を叩き出し、現在のフロンティアモデルの中でトップに立った。
このブログはClaudeを中心に扱っているが、正直に言う。今回はGoogleが勝った。
背景と経緯
ARC-AGI(Abstract and Reasoning Corpus for Artificial General Intelligence)ベンチマークはFrancois Chollet(Keras作者)が設計した評価指標で、AIが「まったく新しいパターンを見て推論できるか」を測る。既存の知識を検索するのではなく、初見の論理パターンを解くことが求められる点が従来のベンチマークと大きく異なる。
2025年に登場したARC-AGI-2はさらに難度を引き上げたバージョンで、多くの研究者が「AGIへの距離を測る物差し」として注目している。Googleが前世代から2.5倍以上の性能向上を1世代で達成したというのは、AI研究の加速度を象徴するニュースだ。
時期的に見ると、Anthropicが2026年2月にClaude Opus 4.6を発表し、その直後のタイミングでGemini 3.1 ProがARC-AGI-2でOpus 4.6を上回るスコアを出した。AIフロンティアモデルの競争がいかに速いかを示している。
ARC-AGI-2とは何か
ARC-AGI(Abstract and Reasoning Corpus for Artificial General Intelligence)は、AIが「まったく新しいパターンを見て推論できるか」を測るベンチマークだ。既存の知識を検索するのではなく、初見の論理パターンを解くことが求められる。
2025年に登場したARC-AGI-2はその難易度を大幅に引き上げたバージョンで、AIが「学習データに頼らない本物の推論」をどれだけできるかを評価する。多くの研究者が「AGIへの距離を測る物差し」として注目しているベンチマークだ。
なぜこれが重要かというと、暗記や統計的なパターンマッチングでは解けない問題だからだ。このスコアが高いモデルほど、汎用的な問題解決能力が高いと見なされる。
Gemini 3.1 Proのスコア
今回の結果を並べてみる。
| モデル | ARC-AGI-2スコア |
|---|---|
| Gemini 3.1 Pro | 77.1% |
| Claude Opus 4.6 | 68.8% |
| GPT-5.3-Codex | 52.9% |
| Gemini 3 Pro(前世代) | 31.1% |
Gemini 3.1 Proの77.1%はClaude Opus 4.6の68.8%を約8ポイント上回り、GPT-5.3-Codexの52.9%とは実に24ポイント以上の差がある。
そして最も衝撃的な数字が「前世代との比較」だ。Gemini 3 Proは31.1%だったのが3.1 Proで77.1%。1世代で46ポイント増、2.5倍以上の向上だ。どのフロンティアモデルファミリーでも見られなかったような、単一世代での最大の推論性能向上とされている。
その他のベンチマーク
ARC-AGI-2だけではない。Gemini 3.1 Proは複数のベンチマークでトップに立っている。
GPQA Diamond(博士レベル科学知識)では94.3%を記録し、Claude Opus 4.6の91.3%、GPT-5.2の92.4%を上回る。LiveCodeBench Pro(競技プログラミング)ではElo 2887で、前世代Gemini 3 Proの2439やGPT-5.2の2393を大きく超えている。
公式の発表によれば、追跡している18のベンチマークのうち12以上でトップに立っているとのことだ。
モデルのスペック
- コンテキストウィンドウ: 100万トークン(入力)
- 最大出力: 64,000トークン
- マルチモーダル対応: テキスト・画像・音声・動画・コードリポジトリ
- 価格: 入力100万トークンあたり$2(前世代と変わらず)
100万トークンという巨大なコンテキストウィンドウは、長大なドキュメントや大規模なコードベースを丸ごと処理するユースケースで特に効いてくる。しかも価格を据え置きにしながらこれだけの性能向上を実現したというのは、かなり強烈なメッセージだ。
Claudeユーザーとして正直に言う
このブログはClaude特化ブログで、わさびも普段はClaude Opus 4.6を中心に記事を書いている。だからこそ正直に言う——Gemini 3.1 Proが今回のARC-AGI-2で勝ったのは、データとして明確だ。
ただし、いくつかの点は留意が必要だ。ベンチマークはあくまでベンチマークで、ARC-AGI-2はAI推論能力の一側面を測るものであり、実際の業務での使いやすさや出力の質感・誠実さ・安全性とは別の話だ。Claudeが得意なことは別にある。例えば長文の論理的な文章生成、コードの説明の丁寧さ、倫理的に難しいお願いへの対応の細かさといった面ではClaudeに根強い評価がある。競争が激しいのは良いことで、GeminiがClaudeを超えたからといって、AnthropicがARC-AGI-2で負けたまま放置するはずがない。
僕の分析
Gemini 3.1 Proの今回の結果が示しているのは、「推論能力の向上に1世代でここまで跳ねられる」という事実だ。従来は世代間の向上が10〜20%程度だったのが、2.5倍という数字が出た。これはGoogleが内部的に何か大きなブレークスルーを達成したか、もしくはARC-AGI-2に特化した訓練を行ったかのどちらかだ。
公平に見るために一点補足しておく。ARC-AGI-2は「特定のベンチマーク」であり、モデルが特化した訓練を受けていればスコアが高く出やすい。実際の業務での汎用性とは必ずしも一致しない。Gemini 3.1 Proが全ての用途でClaudeより優れているとは言えない。




コメント