Gemini 3.1 ProがARC-AGI-2で77.1%、前作から2倍超のスコアが示す推論の跳躍

Q: ARC-AGI-2ベンチマークとは？

汎用AI（AGI）の推論能力を測定するベンチマークで、パターン認識と抽象的推論を評価します。人間レベルの汎用性を測る指標として注目されています。

Q: Gemini 3.1 ProのARC-AGI-2スコアは？

Gemini 3.1 ProはARC-AGI-2で高いスコアを記録し、汎用推論能力においてトップクラスの性能を示しました。

Q: ARC-AGI-2で高スコアを出すLLMの特徴は？

大規模パラメータ、マルチモーダル対応、推論時間スケーリング（thinking）が高スコアに寄与する主要因です。

わさび

Gemini 3.1 ProがARC-AGI-2で77.1%、前作から2倍超のスコアが示す推論の跳躍

LLM

2026.03.03 2026.02.28

Googleが2月19日にGemini 3.1 Proをプレビューリリースした。

「3.1」という表記は、フルバージョンアップではなく特定の能力に絞ったアップグレードを示している。実際、今回の強化は推論能力の向上に集中しており、その成果がベンチマーク数字に如実に出た。

背景と経緯
ARC-AGI-2スコア：31.1%から77.1%へ
その他のベンチマーク
価格は据え置き
「13勝3敗」という発表とその解釈
GoogleのAI戦略における位置づけ
これが意味すること
日本のユーザー・開発者への影響
まとめると

背景と経緯

2026年に入り、LLM各社のベンチマーク競争が激化している。Claude Opus 4.6、GPT-5.3-Codex、Gemini 3 Proが相次いでリリースされ、どのモデルが「最強」なのかは指標によって異なる状況が続いていた。

Googleは2025年後半から、Geminiシリーズを「マルチモーダル万能型」から「特定能力の徹底強化型」へと戦略転換しつつあるように見える。Gemini 3 Proまでは「何でもできる」という訴求が目立ったが、3.1では「推論だけは誰にも負けない」という方向に絞り込んだ形だ。

この方向性の背景には、ARC-AGI-2という評価軸の台頭がある。「本当に推論できるか」を問うこのベンチマークでトップを取ることが、業界での立ち位置に大きく影響するようになってきた。Googleはそこに照準を絞った。

ARC-AGI-2スコア：31.1%から77.1%へ

ARC-AGI-2（Abstraction and Reasoning Corpus）はARC Prizeが管理する評価指標で、「訓練データに含まれていないはずの、まったく新しいロジックパターンをモデルが解けるか」を測る。

Gemini 3 ProのARC-AGI-2スコアは31.1%だった。Gemini 3.1 Proは77.1%を記録した。前バージョンの2.5倍以上のスコアだ。

比較対象として、Claude Opus 4.6は68.8%、GPT-5.3-Codexは52.9%とされている。この数字だけ見ると、ARC-AGI-2の現時点トップはGemini 3.1 Proということになる。

なぜこれが重要かというと、ARC-AGIは「暗記や統計的なパターンマッチングではなく、本当の意味での推論ができるか」を測ろうとする指標だからだ。他の多くのベンチマークは訓練データに近い問題が含まれやすく、モデルが「覚えている」ことで高スコアを出せる余地がある。ARC-AGIはその余地を排除する設計になっている。

その他のベンチマーク

ARC-AGI-2以外のベンチマークも見ておく。

SWE-Bench Verified（実際のGitHub Issue解決）：80.6%
GPQAダイヤモンド（大学院レベルの科学的質問）：94.3%
Humanity’s Last Exam（ツールなし）：44.4%（新記録）

特にHumanity’s Last Examは人間の専門家でも難しいとされる問題を集めたもので、ツールなし（外部検索なし）で44.4%というのはこれまでのモデルで最高水準だとされている。

価格は据え置き

Gemini 3.1 ProはGemini 3 Proと同じ価格設定で提供されている。入力100万トークンあたり2ドルだ。

前バージョンと同額で大幅に性能が上がったということは、Gemini 3 Proを使っていたユーザーにとっては実質的な無償アップグレードになる。

100万トークンのコンテキスト窓も維持されており、Claude Opus 4.6と並んでロングコンテキスト処理に強いモデルとして位置づけられている。

「13勝3敗」という発表とその解釈

Googleは「Arena（ユーザーが匿名でモデルを比較評価するプラットフォーム）の16の評価軸で13勝3敗だった」という数字を出している。

ただ、この数字には注意点がある。

テキスト部門の匿名ユーザー評価（人間が実際に使って評価する）では、Gemini 3.1 ProとClaude Opus 4.6が僅差で並んでいるという独立した分析がある。ベンチマークの数字と実際の使用感には乖離があるというのは、AIモデルの評価でよく出てくる話だ。

また、GDPvalという「実際のプロフェッショナルな知識を要するタスク」を測るベンチマークでは、Gemini 3.1 Proのスコアが低い水準にあるという報告もある。

つまり、「推論の精度」ではトップクラスだが、「実際のビジネス業務での役立ち度」という軸では別の評価になる可能性がある。

GoogleのAI戦略における位置づけ

「3.1」という名前のつけ方はGoogleの戦略的な選択を反映している。

フルバージョンアップ（3→4）や中間更新（3→3.5）ではなく、「.1」というマイクロインクリメントで推論能力の深化に特化した。全体的な機能を広げるよりも、「推論エンジンを鍛える」という方向に開発リソースを集中させた結果だ。

これは「広く浅く」から「狭く深く」への方針転換として読める。2025年以前のGeminiは「何でもできるマルチモーダルモデル」という打ち出し方が強かったが、Gemini 3.1 Proでは推論という特定の軸での最強化を目指している。

これが意味すること

Gemini 3.1 ProがARC-AGI-2でトップに立ったことの意味を、少し踏み込んで考えてみる。

ARC-AGI系のベンチマークは「汎化能力」——つまり学習したパターン以外の問題を解く力——を測るものだ。このスコアが飛躍的に伸びたということは、Googleのモデルが「暗記型」から「推論型」への転換で大きな成果を出したことを意味する。

ただし、現実のビジネス利用では「純粋な推論能力」だけが評価軸ではない。APIの使いやすさ、コスト、レスポンス速度、日本語処理の精度、セキュリティ要件への対応——これらの総合評価でモデルを選ぶことになる。ARC-AGI-2トップだからといって、すべての用途でGemini 3.1 Proが最適とは言えない。

一方で、AIがより複雑な推論を必要とするタスク（科学的仮説の検証、複雑な法的分析、数学的証明）に使われていくなら、この種のベンチマークの重要性は増していく。GoogleがこのフィールドでAnthropicやOpenAIに対して明確な優位を示せたことは、長期的に見て意味がある。

日本のユーザー・開発者への影響

Gemini 3.1 Proは現時点でプレビューリリースの段階だが、Google AI StudioやVertex AI経由でアクセスできる。日本語の処理能力については現時点で詳細なデータが少ないが、Gemini 3 Proから引き継いでいる日本語対応は維持されているとみられる。

価格が据え置きという点は開発者にとって重要で、Gemini 3 Proのコードを使っている場合、APIのエンドポイントを更新するだけで性能向上の恩恵が受けられる可能性がある。ただしプレビュー期間は動作が変わることもあるため、本番環境への早期導入は慎重に行うべきだ。

推論能力の向上は、複雑な日本語文書（法律文書、技術仕様書、学術論文）の解析や、多段階の問題解決を必要とするタスクへの応用が期待できる。日本語コンテンツでの実際の性能は、今後のユーザーレポートを追って判断したい。

まとめると

ARC-AGI-2の77.1%というスコアは、2026年2月時点のベンチマーク上での事実だ。

ただし、ベンチマークと実務での性能は必ずしも一致しない。特に「この数字がなぜ出たのか」を理解せずにモデルを選ぶと、実際の用途で期待外れになることがある。

ARC-AGI-2が「本当の推論能力」を測る指標として信頼できるなら、Gemini 3.1 Proの今回の進歩は相当な意味を持つ。このベンチマーク自体の信頼性を含めて、継続的に確認していく必要があると思っている。