2026年2月25日時点、各カテゴリで最強のLLMはこれです。
結論: 今日の最強LLM
| カテゴリ | 最強モデル | スコア/根拠 |
|---|---|---|
| 総合 | Gemini 3 Pro | Arena Elo 1492(1位) |
| コーディング | Claude Opus 4.5 (thinking) | SWE-bench最高クラス、Arena Coding 1位 |
| ローカル運用 | Qwen3-8B | 8GB VRAMで推論・コーディング両対応 |
| コストパフォーマンス | Gemini 2.5 Flash | $0.15/100万入力トークン |
| オープンソース | DeepSeek V3.2 | 685Bパラメータ、GPT-5相当の推論力 |
以下、各カテゴリの詳細です。
総合1位: Gemini 3 Pro
LM Arena(旧LMSYS Chatbot Arena)のEloレーティングで1492を記録し、GPT-5.1-high(1464)を抜いて現在1位です。
Google DeepMindの最新モデルで、マルチモーダル性能が特に高い。テキスト、画像、動画、コードのすべてで安定した性能を発揮します。
2位以下の顔ぶれ:
| 順位 | モデル | Arena Elo | 特徴 |
|---|---|---|---|
| 1 | Gemini 3 Pro | 1492 | マルチモーダル最強 |
| 2 | GPT-5.1-high | 1464 | 400Kコンテキスト |
| 3 | Claude Opus 4.5 | 上位圏 | 安全性・コーディングに強い |
| 4 | Grok 4.1 | 上位圏 | リアルタイム情報に強い |
ただし、Arena Eloは「人間の好み」を反映したスコアであり、タスクによっては2位以下のモデルが勝つ場面も多いです。万能の「最強」は存在しません。
コーディング1位: Claude Opus 4.5 (thinking)
LM Arenaのコーディングリーダーボードで1位。SWE-bench Verifiedでも商用モデル最高クラスのスコアを出しています。
Claude Opus 4.5のthinkingモード(Extended Thinking)は、複雑なデバッグや大規模リファクタリングで特に強い。自律的にファイル構造を理解し、マルチファイルにまたがる修正を正確に行えます。
コーディング向けモデル比較:
| モデル | SWE-bench | 得意領域 |
|---|---|---|
| Claude Opus 4.5 (thinking) | 最高クラス | 大規模リファクタ、デバッグ |
| Claude Opus 4.5 (標準) | 高 | 汎用コーディング |
| GPT-5.2-high | 高 | 生成・プロトタイピング |
| Gemini 3 Pro | 高 | マルチ言語対応 |
実務でコーディングAIを使うなら、Claude Code経由でOpus 4.6を使うのが現時点で最も生産性が高い選択です。各ツールの比較はAIコーディングツール徹底比較も参考にしてください。
ローカル運用1位: Qwen3-8B
コンシューマーGPU(8GB VRAM)で動作し、推論とコーディングの両方に対応するデュアルモードが特徴です。
ローカルモデル比較:
| モデル | パラメータ | 必要VRAM | 特徴 |
|---|---|---|---|
| Qwen3-8B | 8B | 8GB | 推論・コード両対応 |
| Llama 4 Scout (MoE) | MoE | シングルGPU | 長文が得意 |
| GLM-4-9B | 9B | 8GB | 関数呼び出しに強い |
| Mistral 3B | 3B | 4GB | スマホ対応(500ms) |
| RWKV-7 2.9B | 2.9B | 3GB固定 | メモリ消費が一定 |
注目: RWKV-7の衝撃
RWKV-7(コードネーム「Goose」)は、RNNベースのアーキテクチャでTransformerの常識を覆すモデルです。
何が凄いのか:
- LLaMA 3.2(3B)の3分の1の学習トークンで同等以上のスコア(72.8% vs 69.7%)
- KVキャッシュ不要: どれだけ長い会話でもメモリ消費量が増えない(O(1))
- int8量子化14Bモデルが3GB VRAM固定で動作
- スマートフォン向けアプリも存在(Android/iOS対応)
Transformerでは長い会話になるほどKVキャッシュが膨張してメモリを食いますが、RWKV-7ではそれが起きません。エッジデバイスやメモリが限られた環境では革命的な特性です。
ただし、現時点ではベンチマークスコアがQwen3やLlama 4に及ばない場面もあります。「最強」ではなく「最も効率的」なモデルとして注目すべきです。
コスパ1位: Gemini 2.5 Flash
API料金が入力$0.15/100万トークン、出力$0.60/100万トークンという破格の設定です。
コスパ比較(入力/100万トークン):
| モデル | 入力単価 | 出力単価 | 品質 |
|---|---|---|---|
| Gemini 2.5 Flash | $0.15 | $0.60 | 高(Proの80%程度) |
| Gemini Flash-Lite | $0.10 | 低 | 中 |
| Claude Haiku 4.5 | $1.00 | $5.00 | 高 |
| o4-mini | 中 | 中 | 高(推論特化) |
Gemini 2.5 FlashはClaude Haiku 4.5の約7分の1の価格で、品質も実用レベル。大量のAPIコールが必要なバッチ処理や、コスト制約の厳しいプロダクトでは最有力候補です。
個人開発者のAPI選びについてはClaude APIの料金ガイドも参考にどうぞ。
オープンソース1位: DeepSeek V3.2
685B総パラメータ(アクティブ37B)のMoEアーキテクチャで、GPT-5相当の推論力を持ちながらオープンソースで公開されています。
OSS上位モデル:
| モデル | 組織 | パラメータ | 特徴 |
|---|---|---|---|
| DeepSeek V3.2 | DeepSeek | 685B (37B active) | GPT-5相当の推論力 |
| Qwen3 MoE | Alibaba | 1兆 | 119言語対応、AIME25で92.3% |
| GLM-5 (Reasoning) | Z AI | 非公開 | 推論特化、Quality Index 1位 |
| Mistral Large 3 | Mistral AI | 非公開 | GPT-5.2の92%性能、15%のコスト |
| LLaMA 4 | Meta | 大規模 | 1000万トークンコンテキスト |
DeepSeek V3.2は中国発のモデルですが、技術的な完成度は極めて高い。ただし、蒸留攻撃の問題など、中国AI企業のモデル開発手法には議論もあります。
今後の注目ポイント
3月に変動がありそうな要因:
- Claude Opus 4.6の本格展開: SWE-bench 80.9%を記録した最新モデルが各サービスに順次展開中
- GPT-5.3の噂: OpenAIの次期モデルがベンチマークリークで話題に
- ARC-AGI-3: 新しい汎用推論ベンチマークがリリース予定
このランキングは最新情報に基づいて随時更新します。AIの世界は1週間で勢力図が変わります。
このシリーズについて
「今一番強いLLMはどれだ?」シリーズは、プロエンジニア向けにLLMの最新勢力図を追い続ける連載です。ベンチマークスコア、実際の使用感、コストパフォーマンスを総合して、「今日使うべきモデル」を根拠付きでお伝えします。
データソース: LM Arena (旧LMSYS)、SWE-bench、ARC-AGI、各社公式ドキュメント
あわせて読みたい
- llm-benchmark-guide-2026
- llm-api-pricing-comparison-2026
- local-llm-setup-guide-2026
- open-source-llm-landscape-2026
この記事が参考になったら|以下のリンクから見てもらえるだけで、ブログ運営の応援になります。
- NordVPN

AI活用時のデータ保護に。VPNで通信を暗号化。



コメント