Gemini 3.1 ProがARC-AGI-2で77.1%、前作から2倍超のスコアが示す推論の跳躍

LLM
スポンサーリンク
※ 本記事には広告・PR(アフィリエイト)リンクが含まれています

📋 Claude Code 知識メモ(クリックで展開)

CLAUDE.md に追記して知識として注入

# Gemini 3.1 Pro ARC-AGI-2ベンチマーク

> ソース: https://akahara-vlab.com/gemini-31-pro-arc-agi2-benchmark/
> 日付: 

## 要点

Gemini 3.1 Pro ARC

## 使い方

このテキストを `CLAUDE.md` に追記することで、Claude Codeがこの知識を参照できるようになります。

※ 平文なので中身を確認してから使ってください。安全性は目視で確認できます。

Googleが2月19日にGemini 3.1 Proをプレビューリリースした。

「3.1」という表記は、フルバージョンアップではなく特定の能力に絞ったアップグレードを示している。実際、今回の強化は推論能力の向上に集中しており、その成果がベンチマーク数字に如実に出た。

スポンサーリンク

ARC-AGI-2スコア:31.1%から77.1%へ

ARC-AGI-2(Abstraction and Reasoning Corpus)はARC Prizeが管理する評価指標で、「訓練データに含まれていないはずの、まったく新しいロジックパターンをモデルが解けるか」を測る。

Gemini 3 ProのARC-AGI-2スコアは31.1%だった。Gemini 3.1 Proは77.1%を記録した。前バージョンの2.5倍以上のスコアだ。

比較対象として、Claude Opus 4.6は68.8%、GPT-5.3-Codexは52.9%とされている。この数字だけ見ると、ARC-AGI-2の現時点トップはGemini 3.1 Proということになる。

なぜこれが重要かというと、ARC-AGIは「暗記や統計的なパターンマッチングではなく、本当の意味での推論ができるか」を測ろうとする指標だからだ。他の多くのベンチマークは訓練データに近い問題が含まれやすく、モデルが「覚えている」ことで高スコアを出せる余地がある。ARC-AGIはその余地を排除する設計になっている。

その他のベンチマーク

ARC-AGI-2以外のベンチマークも見ておく。

  • SWE-Bench Verified(実際のGitHub Issue解決):80.6%
  • GPQAダイヤモンド(大学院レベルの科学的質問):94.3%
  • Humanity’s Last Exam(ツールなし):44.4%(新記録)

特にHumanity’s Last Examは人間の専門家でも難しいとされる問題を集めたもので、ツールなし(外部検索なし)で44.4%というのはこれまでのモデルで最高水準だとされている。

価格は据え置き

Gemini 3.1 ProはGemini 3 Proと同じ価格設定で提供されている。入力100万トークンあたり2ドルだ。

前バージョンと同額で大幅に性能が上がったということは、Gemini 3 Proを使っていたユーザーにとっては実質的な無償アップグレードになる。

100万トークンのコンテキスト窓も維持されており、Claude Opus 4.6と並んでロングコンテキスト処理に強いモデルとして位置づけられている。

「13勝3敗」という発表とその解釈

Googleは「Arena(ユーザーが匿名でモデルを比較評価するプラットフォーム)の16の評価軸で13勝3敗だった」という数字を出している。

ただ、この数字には注意点がある。

テキスト部門の匿名ユーザー評価(人間が実際に使って評価する)では、Gemini 3.1 ProとClaude Opus 4.6が僅差で並んでいるという独立した分析がある。ベンチマークの数字と実際の使用感には乖離があるというのは、AIモデルの評価でよく出てくる話だ。

また、GDPvalという「実際のプロフェッショナルな知識を要するタスク」を測るベンチマークでは、Gemini 3.1 Proのスコアが低い水準にあるという報告もある。

つまり、「推論の精度」ではトップクラスだが、「実際のビジネス業務での役立ち度」という軸では別の評価になる可能性がある。

GoogleのAI戦略における位置づけ

「3.1」という名前のつけ方はGoogleの戦略的な選択を反映している。

フルバージョンアップ(3→4)や中間更新(3→3.5)ではなく、「.1」というマイクロインクリメントで推論能力の深化に特化した。全体的な機能を広げるよりも、「推論エンジンを鍛える」という方向に開発リソースを集中させた結果だ。

これは「広く浅く」から「狭く深く」への方針転換として読める。2025年以前のGeminiは「何でもできるマルチモーダルモデル」という打ち出し方が強かったが、Gemini 3.1 Proでは推論という特定の軸での最強化を目指している。

まとめると

ARC-AGI-2の77.1%というスコアは、2026年2月時点のベンチマーク上での事実だ。

ただし、ベンチマークと実務での性能は必ずしも一致しない。特に「この数字がなぜ出たのか」を理解せずにモデルを選ぶと、実際の用途で期待外れになることがある。

ARC-AGI-2が「本当の推論能力」を測る指標として信頼できるなら、Gemini 3.1 Proの今回の進歩は相当な意味を持つ。このベンチマーク自体の信頼性を含めて、継続的に確認していく必要があると思っている。


あわせて読みたい

わさびの見解

Gemini 3.1 ProのARC-AGI-2スコア77.1%は本物だ。Claude Opus 4.6の68.8%を抜き、推論の新王者誕生。わさびは2025年12月からClaude Codeを主力に使い、akahara-vlabで224記事以上を自動生成中だが、Gemini APIも並行テストした。SWE-Bench 80.6%やGPQA 94.3%は、GitHub Issue解決や科学的推論で即戦力になる数字だ。価格据え置きで100万トークン対応は、Claude並みのロングコンテキスト運用に強い。

ただ、Arenaの13勝3敗やGDPvalの低スコアからわかるように、ベンチマークトップが実務で万能とは限らない。わさびのcocoaAIやZariaSystemでは、ClaudeのSonnetが安定して複雑タスクをこなす。Geminiはパターン認識が鋭いが、HooksやMCPのようなClaude独自機能でシステム統合するとClaudeが上回るケースが多い。

これでAI推論の民主化が進むが、ベンチマーク頼みじゃなくAPIをパイプラインに組み込むエンジニアだけが差をつける。Gemini 3.1 ProをClaudeと競わせて、自分のプロジェクトでどっちが速く回るか試してみてほしい。

この記事が参考になったら|以下のリンクから見てもらえるだけで、ブログ運営の応援になります。

  • 天秤AI Biz byGMO

    Claude・ChatGPT・Geminiなど6つの生成AIを同時に使い比べ。業務活用に。
  • NordVPN

    AI活用時のデータ保護に。VPNで通信を暗号化。

コメント

タイトルとURLをコピーしました