Claude Opus 4.7ベンチマーク完全解説 — SWE-bench 87.6%、視覚精度+44pt、GPT-5.4との勝敗表

LLM
スポンサーリンク

Claude Opus 4.7はコーディングエージェントとして現時点で最強のLLMだ。SWE-bench Verified 87.6%はGPT-5.4を約5.6pt引き離し、視覚精度は前世代比+44ptという異次元の改善を見せた。一方でWebリサーチやターミナル操作ではGPT-5.4に負けている。この記事では全ベンチマークを分解し、開発者が本当に知るべき「どこが強くてどこが弱いのか」を解説する。

スポンサーリンク

基本スペック

項目
モデルIDclaude-opus-4-7-20260416
リリース日2026年4月16日
価格(入力/出力)$5 / $25 per 100万トークン
コンテキストウィンドウ1Mトークン
最大出力トークン128K(Batches APIで300K可)
知識カットオフ2026年1月
画像解像度上限3.75MP(最長辺2,576px)

価格はOpus 4.6と同額だが、新トークナイザーにより同じ内容で1.0〜1.35倍のトークンを消費する場合がある。特にコード・JSON/XML・非英語テキストで顕著だ。


コーディング系ベンチマーク — 圧倒的1位

コーディング系はOpus 4.7の最大の武器だ。全項目で競合を明確にリードしている。

ベンチマークOpus 4.7Opus 4.6GPT-5.4Gemini 3.1 Pro改善幅
SWE-bench Verified87.6%80.8%~82%80.6%+6.8pt
SWE-bench Pro64.3%53.4%57.7%54.2%+10.9pt
CursorBench70%58%+12pt

SWE-bench Verifiedとは

実際のGitHubリポジトリから抽出したissue(バグ修正・機能追加)をAIが解決できるかを測るベンチマーク。「AIがPull Requestを書けるか」の最もリアルな指標だ。

87.6%という数字は、実在するOSSのissueの約9割をAIだけで修正できることを意味する。半年前のOpus 4.6が80.8%だったことを考えると、この伸びは異常なペースだ。

SWE-bench Proの意味

SWE-bench Proは2025年以降の問題のみで構成された高難度版で、訓練データへの汚染がない。Opus 4.7の64.3%はGPT-5.4の57.7%を6.6pt上回っており、「暗記ではなく本当にコードが書ける」ことを示している。

CursorBenchの衝撃

CursorBenchはIDE環境でのコード補完・編集能力を測る。58%→70%の+12pt改善は、日常のコーディングアシスタントとしての品質が別物になったことを意味する。


エージェント・コンピューター使用系 — 勝ち負けが分かれる

エージェント系はOpus 4.7が強い分野と弱い分野がはっきり分かれている。

ベンチマークOpus 4.7Opus 4.6GPT-5.4GPT-5.4 ProGemini 3.1 Pro改善幅
OSWorld-Verified78.0%72.7%75.0%+5.3pt
Terminal-Bench 2.069.4%65.4%75.1%68.5%+4.0pt
MCP-Atlas77.3%62.7%68.1%73.9%+14.6pt
BrowseComp79.3%84.0%89.3%85.9%-4.7pt
XBOW Visual Acuity98.5%54.5%+44pt

XBOW +44pt — 何が起きた?

XBOW Visual Acuityは「UI画面のピクセル精度での座標指定・クリック操作」を測定する。54.5%→98.5%はほぼ完璧だ。

この改善の背景には画像解像度の大幅拡張がある。最長辺が1,568px→2,576px(面積比3.3倍)に拡大し、座標が実ピクセルと1:1対応になった。これによりRPAやGUI自動化エージェントでの誤クリックが激減する。

MCP-Atlas +14.6pt — ツール使用能力の飛躍

MCP-Atlas(Model Context Protocol経由での外部ツール連携テスト)で62.7%→77.3%と大幅改善。GPT-5.4の68.1%、Gemini 3.1 Proの73.9%を上回る。エージェント構築時のツール使用信頼性が最も高いモデルとなった。

Terminal-Bench — GPT-5.4に負ける

ターミナル操作・シェルスクリプト・サーバー管理タスクではGPT-5.4(75.1%)に5.7pt差をつけられている。DevOps・インフラ自動化用途では依然GPT-5.4が有力な選択肢だ。

BrowseComp — 唯一の後退

BrowseComp(Web検索+多段推論による調査タスク)は前世代から4.7pt悪化した唯一のベンチマークだ。GPT-5.4 Pro(89.3%)には10pt差で負けている。深いWebリサーチが必要なエージェント構築では注意が必要。


推論・知識系 — 横並びの激戦区

推論系は各社のモデルが極めて拮抗している。

ベンチマークOpus 4.7Opus 4.6GPT-5.4GPT-5.4 ProGemini 3.1 Pro
GPQA Diamond94.2%91.3%94.4%94.4%94.3%
HLE(ツールあり)54.7%53.1%58.7%51.4%
HLE(ツールなし)46.9%40.0%
MMMLU(多言語)91.5%91.1%90.8%92.6%

GPQA Diamond — 0.2pt差の世界

大学院レベルの科学問題で94.2%。GPT-5.4の94.4%とわずか0.2pt差で、実質的には同等だ。この領域ではモデル選択よりもプロンプト設計のほうが結果に影響する。

HLE(Humanity’s Last Exam)

人類最難関問題群でツールなし46.9%は前世代から+6.9pt改善。ただしツールありではGPT-5.4 Pro(58.7%)に4pt差で負ける。


ビジョン・マルチモーダル系 — 最大の伸びしろ

ベンチマークOpus 4.7Opus 4.6改善幅
CharXiv Reasoning(ツールあり)91.0%77.4%+13.6pt
CharXiv Reasoning(ツールなし)82.1%68.7%+13.4pt
XBOW Visual Acuity98.5%54.5%+44pt

CharXiv(グラフ・チャート画像からの推論)で+13ptの改善は、BIダッシュボードの自動分析やデータ可視化の読み取り精度が実用レベルに達したことを意味する。

画像解像度の比較:

モデル最大解像度
Gemini 3.1 Pro4.1MP
Opus 4.73.75MP
GPT-5.42.6MP
Opus 4.61.15MP

業務ドメイン系 — 法律・金融でSOTA

ベンチマークOpus 4.7GPT-5.4 ProGemini 3.1 Pro
Finance Agent v1.164.4%61.5%59.7%
BigLaw Bench90.9%
GDPval-AA(Elo)1,7531,6741,314

GDPval-AAは「経済的価値を生む知識労働」の総合スコア。Elo 1,753はGPT-5.4を79ポイント引き離しており、ホワイトカラー業務全般での最強モデルと評価できる。


総合勝敗表 — Opus 4.7 vs GPT-5.4

分野勝者
コーディング(SWE-bench)Opus 4.7+5.6pt
コーディング(SWE-bench Pro)Opus 4.7+6.6pt
GUI操作(OSWorld)Opus 4.7+3.0pt
ツール使用(MCP-Atlas)Opus 4.7+9.2pt
金融エージェントOpus 4.7+2.9pt
知識労働(GDPval)Opus 4.7+79 Elo
ビジョン精度(XBOW)Opus 4.7データなし
ターミナル操作GPT-5.4+5.7pt
Webリサーチ(BrowseComp)GPT-5.4 Pro+10pt
科学推論(GPQA)引き分け0.2pt差
多言語(MMMLU)引き分け0.7pt差

Opus 4.7が7勝、GPT-5.4が2勝、2引き分け。 コーディングとエージェント用途ではOpus 4.7が明確にリード。ターミナル操作とWebリサーチではGPT-5.4が優位。


新機能3つ — ベンチマーク改善の裏側

1. xhigh effortレベル

effortレベルにxhighが追加され、5段階(low/medium/high/xhigh/max)になった。Claude Codeではデフォルトでxhighが有効。maxほどのコストをかけずに高品質な推論が得られる。

2. タスクバジェット(パブリックベータ)

エージェントループ全体のトークン消費量に目標値を設定できる。モデルが残りバジェットを見ながら優先順位を自律調整し、グレースフルに終了する。無限ループによるコスト爆発を防ぐ。

response = client.beta.messages.create(
    model="claude-opus-4-7",
    max_tokens=128000,
    output_config={
        "effort": "high",
        "task_budget": {"type": "tokens", "total": 128000},
    },
    betas=["task-budgets-2026-03-13"],
)

3. /ultrareview — マルチエージェントコードレビュー

Claude Codeで使える新コマンド。通常の1パスレビューではなく、複数のエージェントがバグ・エッジケース・セキュリティ問題を多角的に検出する。


Opus 4.6からの移行 — 3つの破壊的変更

1. Extended thinking → adaptive のみ

# NG(400エラー)
thinking={"type": "enabled", "budget_tokens": 10000}

# OK
thinking={"type": "adaptive"}

2. サンプリングパラメータ廃止

temperaturetop_ptop_kを指定すると400エラー。パラメータを削除してプロンプトで出力スタイルを制御する。

3. 思考内容がデフォルト非表示

レスポンスのthinkingフィールドが空になる。推論過程を表示したい場合は明示的に設定が必要。

thinking={"type": "adaptive", "display": "summarized"}

Claude Codeでの切り替え方法

# セッション内で切り替え
/modelclaude-opus-4-7

# 環境変数で固定
exportANTHROPIC_MODEL=claude-opus-4-7

# 起動時に指定
claude--modelclaude-opus-4-7

わさびの見解

Opus 4.7のベンチマークを全部見て思うのは、コーディングエージェントとしての地位は揺るがないということだ。SWE-bench Pro 64.3%は訓練データ汚染なしの真の実力であり、GPT-5.4に6.6pt差をつけている。

一方でBrowseCompの後退(-4.7pt)は気になる。Webリサーチ能力を犠牲にしてコーディング能力を伸ばした可能性がある。リサーチエージェントを構築する場合は、用途に応じてGPT-5.4 Proとの使い分けが現実的だ。

個人的に最もインパクトが大きいのはXBOW +44ptだ。視覚精度98.5%は「ほぼ完璧にUI操作できる」ということ。Computer Useエージェントが実用レベルに到達した瞬間と言っていい。

価格据え置きで87.6%のコーディング能力を手に入れられるなら、移行しない理由はない。API破壊的変更(3点)だけ対応すれば、あとはドロップイン置換できる。

コメント

タイトルとURLをコピーしました