Claude Opus 4.7はコーディングエージェントとして現時点で最強のLLMだ。SWE-bench Verified 87.6%はGPT-5.4を約5.6pt引き離し、視覚精度は前世代比+44ptという異次元の改善を見せた。一方でWebリサーチやターミナル操作ではGPT-5.4に負けている。この記事では全ベンチマークを分解し、開発者が本当に知るべき「どこが強くてどこが弱いのか」を解説する。
基本スペック
| 項目 | 値 |
|---|---|
| モデルID | claude-opus-4-7-20260416 |
| リリース日 | 2026年4月16日 |
| 価格(入力/出力) | $5 / $25 per 100万トークン |
| コンテキストウィンドウ | 1Mトークン |
| 最大出力トークン | 128K(Batches APIで300K可) |
| 知識カットオフ | 2026年1月 |
| 画像解像度上限 | 3.75MP(最長辺2,576px) |
価格はOpus 4.6と同額だが、新トークナイザーにより同じ内容で1.0〜1.35倍のトークンを消費する場合がある。特にコード・JSON/XML・非英語テキストで顕著だ。
コーディング系ベンチマーク — 圧倒的1位
コーディング系はOpus 4.7の最大の武器だ。全項目で競合を明確にリードしている。
| ベンチマーク | Opus 4.7 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro | 改善幅 |
|---|---|---|---|---|---|
| SWE-bench Verified | 87.6% | 80.8% | ~82% | 80.6% | +6.8pt |
| SWE-bench Pro | 64.3% | 53.4% | 57.7% | 54.2% | +10.9pt |
| CursorBench | 70% | 58% | — | — | +12pt |
SWE-bench Verifiedとは
実際のGitHubリポジトリから抽出したissue(バグ修正・機能追加)をAIが解決できるかを測るベンチマーク。「AIがPull Requestを書けるか」の最もリアルな指標だ。
87.6%という数字は、実在するOSSのissueの約9割をAIだけで修正できることを意味する。半年前のOpus 4.6が80.8%だったことを考えると、この伸びは異常なペースだ。
SWE-bench Proの意味
SWE-bench Proは2025年以降の問題のみで構成された高難度版で、訓練データへの汚染がない。Opus 4.7の64.3%はGPT-5.4の57.7%を6.6pt上回っており、「暗記ではなく本当にコードが書ける」ことを示している。
CursorBenchの衝撃
CursorBenchはIDE環境でのコード補完・編集能力を測る。58%→70%の+12pt改善は、日常のコーディングアシスタントとしての品質が別物になったことを意味する。
エージェント・コンピューター使用系 — 勝ち負けが分かれる
エージェント系はOpus 4.7が強い分野と弱い分野がはっきり分かれている。
| ベンチマーク | Opus 4.7 | Opus 4.6 | GPT-5.4 | GPT-5.4 Pro | Gemini 3.1 Pro | 改善幅 |
|---|---|---|---|---|---|---|
| OSWorld-Verified | 78.0% | 72.7% | 75.0% | — | — | +5.3pt |
| Terminal-Bench 2.0 | 69.4% | 65.4% | 75.1% | — | 68.5% | +4.0pt |
| MCP-Atlas | 77.3% | 62.7% | 68.1% | — | 73.9% | +14.6pt |
| BrowseComp | 79.3% | 84.0% | — | 89.3% | 85.9% | -4.7pt |
| XBOW Visual Acuity | 98.5% | 54.5% | — | — | — | +44pt |
XBOW +44pt — 何が起きた?
XBOW Visual Acuityは「UI画面のピクセル精度での座標指定・クリック操作」を測定する。54.5%→98.5%はほぼ完璧だ。
この改善の背景には画像解像度の大幅拡張がある。最長辺が1,568px→2,576px(面積比3.3倍)に拡大し、座標が実ピクセルと1:1対応になった。これによりRPAやGUI自動化エージェントでの誤クリックが激減する。
MCP-Atlas +14.6pt — ツール使用能力の飛躍
MCP-Atlas(Model Context Protocol経由での外部ツール連携テスト)で62.7%→77.3%と大幅改善。GPT-5.4の68.1%、Gemini 3.1 Proの73.9%を上回る。エージェント構築時のツール使用信頼性が最も高いモデルとなった。
Terminal-Bench — GPT-5.4に負ける
ターミナル操作・シェルスクリプト・サーバー管理タスクではGPT-5.4(75.1%)に5.7pt差をつけられている。DevOps・インフラ自動化用途では依然GPT-5.4が有力な選択肢だ。
BrowseComp — 唯一の後退
BrowseComp(Web検索+多段推論による調査タスク)は前世代から4.7pt悪化した唯一のベンチマークだ。GPT-5.4 Pro(89.3%)には10pt差で負けている。深いWebリサーチが必要なエージェント構築では注意が必要。
推論・知識系 — 横並びの激戦区
推論系は各社のモデルが極めて拮抗している。
| ベンチマーク | Opus 4.7 | Opus 4.6 | GPT-5.4 | GPT-5.4 Pro | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| GPQA Diamond | 94.2% | 91.3% | 94.4% | 94.4% | 94.3% |
| HLE(ツールあり) | 54.7% | 53.1% | — | 58.7% | 51.4% |
| HLE(ツールなし) | 46.9% | 40.0% | — | — | — |
| MMMLU(多言語) | 91.5% | 91.1% | 90.8% | — | 92.6% |
GPQA Diamond — 0.2pt差の世界
大学院レベルの科学問題で94.2%。GPT-5.4の94.4%とわずか0.2pt差で、実質的には同等だ。この領域ではモデル選択よりもプロンプト設計のほうが結果に影響する。
HLE(Humanity’s Last Exam)
人類最難関問題群でツールなし46.9%は前世代から+6.9pt改善。ただしツールありではGPT-5.4 Pro(58.7%)に4pt差で負ける。
ビジョン・マルチモーダル系 — 最大の伸びしろ
| ベンチマーク | Opus 4.7 | Opus 4.6 | 改善幅 |
|---|---|---|---|
| CharXiv Reasoning(ツールあり) | 91.0% | 77.4% | +13.6pt |
| CharXiv Reasoning(ツールなし) | 82.1% | 68.7% | +13.4pt |
| XBOW Visual Acuity | 98.5% | 54.5% | +44pt |
CharXiv(グラフ・チャート画像からの推論)で+13ptの改善は、BIダッシュボードの自動分析やデータ可視化の読み取り精度が実用レベルに達したことを意味する。
画像解像度の比較:
| モデル | 最大解像度 |
|---|---|
| Gemini 3.1 Pro | 4.1MP |
| Opus 4.7 | 3.75MP |
| GPT-5.4 | 2.6MP |
| Opus 4.6 | 1.15MP |
業務ドメイン系 — 法律・金融でSOTA
| ベンチマーク | Opus 4.7 | GPT-5.4 Pro | Gemini 3.1 Pro |
|---|---|---|---|
| Finance Agent v1.1 | 64.4% | 61.5% | 59.7% |
| BigLaw Bench | 90.9% | — | — |
| GDPval-AA(Elo) | 1,753 | 1,674 | 1,314 |
GDPval-AAは「経済的価値を生む知識労働」の総合スコア。Elo 1,753はGPT-5.4を79ポイント引き離しており、ホワイトカラー業務全般での最強モデルと評価できる。
総合勝敗表 — Opus 4.7 vs GPT-5.4
| 分野 | 勝者 | 差 |
|---|---|---|
| コーディング(SWE-bench) | Opus 4.7 | +5.6pt |
| コーディング(SWE-bench Pro) | Opus 4.7 | +6.6pt |
| GUI操作(OSWorld) | Opus 4.7 | +3.0pt |
| ツール使用(MCP-Atlas) | Opus 4.7 | +9.2pt |
| 金融エージェント | Opus 4.7 | +2.9pt |
| 知識労働(GDPval) | Opus 4.7 | +79 Elo |
| ビジョン精度(XBOW) | Opus 4.7 | データなし |
| ターミナル操作 | GPT-5.4 | +5.7pt |
| Webリサーチ(BrowseComp) | GPT-5.4 Pro | +10pt |
| 科学推論(GPQA) | 引き分け | 0.2pt差 |
| 多言語(MMMLU) | 引き分け | 0.7pt差 |
Opus 4.7が7勝、GPT-5.4が2勝、2引き分け。 コーディングとエージェント用途ではOpus 4.7が明確にリード。ターミナル操作とWebリサーチではGPT-5.4が優位。
新機能3つ — ベンチマーク改善の裏側
1. xhigh effortレベル
effortレベルにxhighが追加され、5段階(low/medium/high/xhigh/max)になった。Claude Codeではデフォルトでxhighが有効。maxほどのコストをかけずに高品質な推論が得られる。
2. タスクバジェット(パブリックベータ)
エージェントループ全体のトークン消費量に目標値を設定できる。モデルが残りバジェットを見ながら優先順位を自律調整し、グレースフルに終了する。無限ループによるコスト爆発を防ぐ。
response = client.beta.messages.create(
model="claude-opus-4-7",
max_tokens=128000,
output_config={
"effort": "high",
"task_budget": {"type": "tokens", "total": 128000},
},
betas=["task-budgets-2026-03-13"],
)
3. /ultrareview — マルチエージェントコードレビュー
Claude Codeで使える新コマンド。通常の1パスレビューではなく、複数のエージェントがバグ・エッジケース・セキュリティ問題を多角的に検出する。
Opus 4.6からの移行 — 3つの破壊的変更
1. Extended thinking → adaptive のみ
# NG(400エラー)
thinking={"type": "enabled", "budget_tokens": 10000}
# OK
thinking={"type": "adaptive"}
2. サンプリングパラメータ廃止
temperature、top_p、top_kを指定すると400エラー。パラメータを削除してプロンプトで出力スタイルを制御する。
3. 思考内容がデフォルト非表示
レスポンスのthinkingフィールドが空になる。推論過程を表示したい場合は明示的に設定が必要。
thinking={"type": "adaptive", "display": "summarized"}
Claude Codeでの切り替え方法
# セッション内で切り替え
/modelclaude-opus-4-7
# 環境変数で固定
exportANTHROPIC_MODEL=claude-opus-4-7
# 起動時に指定
claude--modelclaude-opus-4-7
わさびの見解
Opus 4.7のベンチマークを全部見て思うのは、コーディングエージェントとしての地位は揺るがないということだ。SWE-bench Pro 64.3%は訓練データ汚染なしの真の実力であり、GPT-5.4に6.6pt差をつけている。
一方でBrowseCompの後退(-4.7pt)は気になる。Webリサーチ能力を犠牲にしてコーディング能力を伸ばした可能性がある。リサーチエージェントを構築する場合は、用途に応じてGPT-5.4 Proとの使い分けが現実的だ。
個人的に最もインパクトが大きいのはXBOW +44ptだ。視覚精度98.5%は「ほぼ完璧にUI操作できる」ということ。Computer Useエージェントが実用レベルに到達した瞬間と言っていい。
価格据え置きで87.6%のコーディング能力を手に入れられるなら、移行しない理由はない。API破壊的変更(3点)だけ対応すれば、あとはドロップイン置換できる。



コメント