NVIDIA Nemotron 3 Super【2026年3月】120B・5倍スループット・1Mコンテキストのオープンモデル詳細

※ 本記事には広告・PR（アフィリエイト）リンクが含まれています

📋 Claude Code 知識メモ（クリックで展開）

CLAUDE.md に追記して知識として注入

# NVIDIA Nemotron 3 Superリリース——120BパラメータのオープンAIが既存モデルの5倍スループットを実現

> ソース: https://akahara-vlab.com/nvidia-nemotron-3-super/
> 日付: 

## 要点

NVIDIA Nemotron 3 Superリリース

## 使い方

このテキストを `CLAUDE.md` に追記することで、Claude Codeがこの知識を参照できるようになります。

※ 平文なので中身を確認してから使ってください。安全性は目視で確認できます。

NVIDIAが2026年3月11〜12日にかけて、オープンAIモデル「Nemotron 3 Super」を公開した。

120BパラメータながらMoE構造によって推論時の有効パラメータは12Bに抑えられており、既存モデルと比べて5倍のスループットを実現しているとされる。エージェントAIシステムへの特化を意図して設計された、NVIDIAらしい一手だ。

Nemotron 3 Superの主なスペック
アーキテクチャの要点：MoEとMamba-Attention
5倍スループットが意味するもの
1Mトークンコンテキストのエージェントへの影響
どこで使えるか
ロードマップ：Nemotron 3 Ultra（500B）
わさびの評価
わさびの見解
あわせて読みたい
見てもらえるだけで応援になります

Nemotron 3 Superの主なスペック

項目	内容
総パラメータ数	120B
推論時有効パラメータ	12B
アーキテクチャ	ハイブリッドMoE + Mamba-Attention
コンテキスト長	1Mトークン
スループット	既存モデル比5倍
ライセンス	オープン（商用利用可）

GTC 2026（3月16〜19日）でも重点製品として取り上げられる予定で、NVIDIAがエンタープライズ向けエージェントAI市場を本格的に攻める姿勢を示したモデルと見ている。

アーキテクチャの要点：MoEとMamba-Attention

Nemotron 3 Superが採用するハイブリッドMoE（Mixture of Experts）+ Mamba-Attentionという構造は、今のAI業界の流れを体現している。

MoEは120B個のパラメータを複数の「エキスパート」サブネットワークに分割し、入力に応じて必要な専門家だけを呼び出すしくみだ。Nemotron 3 Superでは4エキスパートを1つのコストで起動する「専門家活性化手法」を採用しており、計算量を一定に保ちながら表現力を高められる。

Mamba-Attentionは従来のTransformerのSelf-Attentionを置き換える選択的状態空間モデル（SSM）ベースの機構で、長いシーケンスでの計算効率が高い。1Mトークンコンテキストを実用的なコストで扱えるのはこのおかげだ。

さらに「Multi-Token Prediction（MTP）」という手法も導入している。通常のLLMが次の1トークンだけを予測するのに対し、MTPは複数の次ワードを同時に予測する。これにより推論ステップ数が減り、約3倍の高速化が得られるという。

5倍スループットが意味するもの

スループット5倍という数字は、同じGPUリソースで5倍の量のリクエストをさばけるということだ。

エンタープライズでAIエージェントを動かす場合、コストの大半はモデルの推論にかかる。スループットが上がれば、その分だけAIエージェントの運用コストが下がり、実用化の閾値を下げることができる。

NVIDIAのBuild（build.nvidia.com）プラットフォームではすでに試用可能で、エンタープライズが本番環境に組み込む前の評価フローも整備されている。

1Mトークンコンテキストのエージェントへの影響

現在のAIエージェントが長期タスクを実行するとき、最大の課題のひとつが「目標ドリフト」だ。

コンテキストウィンドウが短いモデルは、タスクの途中で当初の目的を忘れたり、過去のステップを参照できなくなったりする。Nemotron 3 Superの1Mトークンコンテキストは、複雑なエージェントワークフロー全体の状態をメモリに保持し続けられるため、この問題を大幅に緩和できる。

コード生成エージェントの分野ではすでに複数のツールが統合を表明している。CodeRabbit、Factory、GreptileといったAIコーディングエージェントが採用を進めているのは、長い参照コードベースを丸ごとコンテキストに乗せられるメリットが大きいからだろう。

どこで使えるか

Nemotron 3 Superは複数のプラットフォームから利用できる。

APIアクセス
– build.nvidia.com — NVIDIA公式プラットフォーム
– Perplexity API
– OpenRouter

セルフホスト・研究利用
– Hugging Face（モデルウェイト公開）

量子化版でも数十GBのモデルサイズになるため、ローカル実行には高性能なGPUが必要だ。本番運用を考えるなら、まずはAPIから始めて性能を評価するのが現実的だろう。

ロードマップ：Nemotron 3 Ultra（500B）

NVIDIAは2026年前半に「Nemotron 3 Ultra」のリリースも予告している。

こちらは500Bパラメータで、Nemotron 3 Superよりもさらに高精度な推論が必要なタスク向けに設計される見込みだ。エンタープライズ向けの大規模エージェントシステムや、科学・医療分野の複雑な解析ユースケースが主なターゲットになるだろう。

わさびの評価

Nemotron 3 SuperでNVIDIAが狙っているのは明確で、「エージェントAI基盤モデルの標準」のポジションだ。

LlamaやQwen系が汎用性を武器にしているのに対し、Nemotronはエージェントワークフローの長期安定稼働に特化している。5倍スループットと1Mコンテキストの組み合わせは、この用途では他のオープンモデルが追いついていないレベルだと思う。

ただ、MoE + Mamba-Attentionの組み合わせはまだ実績が薄く、ベンチマーク上の数字が実際のタスクでどこまで再現するかは今後の検証次第だ。CodeRabbitやFactoryといった実際の製品での統合が進めば、より実用的な評価が出てくるだろう。

オープンモデルであるという点は素直にポイントが高い。NVIDIAが「推論インフラを売る企業」として、モデル自体をオープンにしてエコシステムを広げる戦略は合理的だ。

わさびの見解

わさびです。NVIDIAのNemotron 3 SuperはエージェントAIの運用を変える一手だ。120BパラメータをMoEで12Bに絞り、5倍スループットと1Mコンテキストを実現。わさびはClaude Codeを2025年12月から使い始めて3ヶ月でakahara-vlabパイプラインを構築し、RSS収集から記事生成・WP投稿・X拡散まで224記事を全自動化。Sonnet中心に回せばAPIコストも抑え、推論効率がプロジェクトの並行稼働を可能にした。

このNemotronのMamba-AttentionとMTPは、わさびのGHDsystem（YouTube LiveリアルタイムAI）やaiTuberPJ（自律配信AI）で即戦力。1Mコンテキストで目標ドリフトを防げば、carasiAIの24/7情報収集もエンタープライズ級にスケールする。NVIDIAのBuildで無料試用可能だから、GPUリソースの有効活用を実感できる。

高効率モデルが増える今、AIを組み込んでシステム構築できるエンジニアとツールユーザーだけの乖離が決定的だ。Nemotronをエージェントに仕込んで、運用コストを5分の1にしてみてはどうだろうか。

あわせて読みたい

{“@context”:”https://schema.org”,”@type”:”FAQPage”,”mainEntity”:[{“@type”:”Question”,”name”:”Nemotron 3 SuperはLlama 4やQwenと比べてどうですか？”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”Nemotron 3 Superは120Bパラメータながら推論時の有効パラメータが12Bと軽量で、5倍のスループットが最大の差別化点です。1Mトークンコンテキストウィンドウはほぼ全てのオープンモデルを上回り、長期エージェントタスクでの優位性があります。Llama 4やQwen 2.5は汎用性が高い一方、Nemotron 3 Superはエージェントワークフローへの特化が強みです。”}},{“@type”:”Question”,”name”:”Mixture of Experts（MoE）とは何ですか？”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”MoEは大規模モデルの全パラメータを毎回使う代わりに、入力に応じて必要な「専門家」サブネットワークだけを活性化するアーキテクチャです。Nemotron 3 Superは120Bパラメータを持ちながら推論時に使うのは12Bのみで、計算コストを大幅に抑えながら高性能を実現しています。”}},{“@type”:”Question”,”name”:”Nemotron 3 SuperはAPIで使えますか？”,”acceptedAnswer”:{“@type”:”Answer”,”text”:”はい。Perplexity API、OpenRouter、HuggingFaceのInference API、build.nvidia.comから利用可能です。ローカル実行も技術的には可能ですが、120Bモデル（量子化版でも数十GB）のため高スペックなGPUが必要です。”}}]}