2026年2月、オープンソースLLM(大規模言語モデル)の世界は急速に変わっている。1年前まで「商用モデルには到底かなわない」と言われていた時代は終わり、OSSモデルがGPT-4oやClaude 3.5 Sonnetと同等か、場合によってはそれを超える性能を出すようになってきた。
この記事では、2026年2月時点での主要OSSモデルの現状を整理する。各モデルの特徴・性能・ライセンス条件を把握したうえで、自分のユースケースに合った選択ができるようになることを目標にする。
結論:OSS LLMは商用モデルに肉薄している
最初に結論を言う。
現時点でDeepSeek V3.2やQwen3は、多くのベンチマークでGPT-4oレベルに達している。Llama 4はMetaが社運をかけて投入したモデルで、コンテキスト長10Mという規格外の仕様を誇る。MistralはヨーロッパのAI規制に対応しながら商用利用しやすいモデルを提供し続けている。
「ローカルで動かすモデル=品質が低い」という先入観は捨ててよい。用途を絞れば、商用APIを使わずに完結するワークフローを構築できる段階に来ている。
最新LLMランキングでは各モデルの最新スコアを随時更新しているので、スペックの数値比較はそちらも参照してほしい。
勢力図マップ:各社のポジション
2026年2月時点の主要OSSモデルをポジションマップで整理すると以下のようになる。
| 組織 | 主力モデル | 強み | ポジション |
|---|---|---|---|
| DeepSeek | V3.2 (685B MoE) | 推論効率・コスト | 性能最前線 |
| Alibaba (Qwen) | Qwen3 (MoE) | 多言語・日本語 | 汎用最前線 |
| Meta | Llama 4 Scout/Maverick | コンテキスト長・商用自由度 | エコシステム |
| Mistral AI | Mistral Large 3 | 欧州規制対応・バランス | ビジネス寄り |
| RWKV Foundation | RWKV-7 | 非Transformer・省メモリ | アーキテクチャ革新 |
| Zhipu AI | GLM-5 | 中国語・ビジョン | 中国市場特化 |
中国系モデル(DeepSeek、Qwen、GLM)が性能面で台頭しているのは事実だ。一方で、ライセンスや地政学的なリスクについては後述するように別途評価が必要になる。
DeepSeek V3.2:685B MoEの実力
DeepSeek V3.2は、前作のV3を大幅に改良したMixture-of-Experts(MoE)アーキテクチャのモデルだ。総パラメータ数は685Bだが、推論時に活性化するパラメータは全体の一部に限られるため、実際の計算コストはその数字ほど重くない。
主な特徴:
- アーキテクチャ: MoE(Mixture-of-Experts)、685Bパラメータ
- 性能: 多くのコーディング・推論ベンチマークでGPT-4oと同等かそれ以上
- コンテキスト: 最大128Kトークン
- ライセンス: DeepSeek独自ライセンス(商用利用に制限あり)
- 重みの公開: Hugging Faceで公開済み
V3.2の最も注目すべき点は推論コストの低さだ。MoEの設計により、同等性能の密なモデルと比べてGPU使用量を大幅に抑えられる。DeepSeek APIの料金もこの効率性を反映して安い。
ただし、ライセンスには注意が必要だ。DeepSeekの独自ライセンスは、競合するAIサービスの構築や、モデルを使った大規模商用展開に制限を設けている場合がある。利用前に必ず原文を確認すること。
また、中国のAI企業に対する知識蒸留の問題については蒸留攻撃の問題でも触れているので、参考にしてほしい。
Qwen3:1兆パラメータ・119言語対応
Alibaba CloudのQwen3は、MoEアーキテクチャで総パラメータ数が1兆規模に達したとされるモデルだ。Qwen2.5からの進化点は多岐にわたるが、特に注目すべきは多言語対応の強化だ。
主な特徴:
- パラメータ: MoE構成、総量は約1兆規模
- 言語対応: 119言語(日本語も含む)
- コンテキスト: 最大1Mトークン(一部構成)
- ライセンス: Apache 2.0(Qwen2.5系の流れを継承、ただしモデルサイズによって異なる)
- 特化強み: コード生成、数学推論、多言語タスク
日本語性能はQwen2.5の段階からすでに高水準にあり、Qwen3はさらに改善されている。ローカルで日本語処理をしたい場合、Qwen3は有力な選択肢だ。
Apache 2.0ライセンスで提供されるサイズ帯のモデルは商用利用がしやすく、ファインチューニングして自社サービスに組み込むことも可能だ。ただし、大サイズのモデルについてはライセンス条件が変わる場合があるため確認が必要だ。
Llama 4:Metaの本気、10Mコンテキストの衝撃
MetaのLlama 4は、2026年に入って公開されたLlamaシリーズの第4世代だ。Scout(効率特化)とMaverick(性能特化)という2つのバリアントが存在する。
Llama 4 Scout
- 用途: 長文処理、コンテキスト依存タスク
- コンテキスト: 最大10Mトークン(業界最長水準)
- 特徴: 長大なドキュメントやコードベース全体を一度に入力できる
Llama 4 Maverick
- 用途: 高精度な推論・生成タスク
- 性能: GPT-4o水準の複数ベンチマークで競合
- 特徴: マルチモーダル対応(画像・テキスト混合入力)
Llama 4の最大の強みはコミュニティエコシステムの広さだ。Llama 3の時点ですでに膨大な量のファインチューニングモデル、量子化バリアント、推論ツールが存在しており、Llama 4でもその資産を活用できる。
ライセンスはMeta独自の「Llama 4 Community License」で、月間アクティブユーザー7億人超の企業は別途Metaとの契約が必要だ。一般的なスタートアップや個人開発者は商用利用できる。
ローカルLLM完全ガイドでは、Llamaシリーズを含む主要モデルのローカル環境での動かし方を解説している。
Mistral Large 3:GPT-4oの92%性能、欧州基準のバランスモデル
Mistral AIはフランスのスタートアップで、欧州のAI規制(EU AI Act)を強く意識したモデル開発をしている。Mistral Large 3は、複数のベンチマークでGPT-4oの92%程度のスコアを記録しており、商用利用でのバランスが取れたモデルだ。
主な特徴:
- 性能: MMLU・HumanEval等でGPT-4oの90%超
- コンテキスト: 128Kトークン
- ライセンス: Mistral Research License(研究・非商用は無料、商用はAPIまたは契約)
- 特徴: 欧州データ規制への配慮、データ主権を重視する企業向け
Mistralの差別化は技術性能だけでなく、欧州の規制環境への適合性だ。GDPRや今後施行されるEU AI Actへの対応を重視する企業や、データをEU外に出したくない組織にとってはMistralが選ばれやすい。
また、Mistral 7B、Mistral 8x7B(MoE)のような小型モデルはApache 2.0で完全オープンソースのため、軽量推論が必要な場面ではこちらを活用する手もある。
RWKV-7:非Transformerアーキテクチャの挑戦
RWKV(Receptance Weighted Key Value)は、Transformer以外のアーキテクチャを採用した異色のモデルだ。RNNベースの設計でありながら、Transformerに匹敵する言語モデル性能を目指している。
RWKV-7の特徴:
- アーキテクチャ: RNN型(Transformerではない)
- メモリ効率: 推論時のメモリ使用量がコンテキスト長に比例しない(O(1))
- ライセンス: Apache 2.0
- 強み: 無限長コンテキストの理論的サポート、省メモリデバイスへの展開
Transformerの自己注意機構はコンテキスト長の2乗でメモリが増大するが、RWKVはこの制約がない。エッジデバイスや組み込み用途でのLLM展開において、将来的に重要な選択肢になり得る。
現時点での性能は同サイズのTransformerモデルと比べてやや劣る部分もあるが、アーキテクチャとしての可能性は高い。研究・実験的な用途や、リソース制約の厳しい環境での利用に向いている。
GLM-5:中国学術系の実力モデル
Zhipu AIが開発するGLMシリーズは、清華大学との連携で開発されてきた中国発のモデルだ。GLM-5はコード・数学・ビジョンタスクを強化しており、中国語での性能が特に高い。
主な特徴:
- 強み: 中国語処理、ビジョン・言語マルチモーダル
- ライセンス: GLM独自ライセンス(商用利用は条件付き)
- コンテキスト: 128Kトークン
- 用途: 中国語コンテンツ処理、アジア圏ビジネス向け
日本語での利用については、Qwen系ほど最適化が進んでいないため、日本語ユースケースが主な場合はQwen3が優先候補になる。GLM-5の価値は中国語処理が必要な場面や、中国市場向けサービスを構築する場合に発揮される。
ライセンス比較表
利用前に確認すべきライセンス条件を整理する。
| モデル | ライセンス | 商用利用 | ファインチューニング | 再配布 |
|---|---|---|---|---|
| DeepSeek V3.2 | DeepSeek独自 | 条件付き可 | 制限あり | 制限あり |
| Qwen3(中小サイズ) | Apache 2.0 | 可 | 可 | 可 |
| Qwen3(大サイズ) | Qiwen独自 | 要確認 | 要確認 | 要確認 |
| Llama 4 | Meta独自 | 可(規模制限あり) | 可 | 条件付き可 |
| Mistral Large 3 | Mistral Research | 商用はAPI契約 | 制限あり | 不可 |
| Mistral 7B / 8x7B | Apache 2.0 | 可 | 可 | 可 |
| RWKV-7 | Apache 2.0 | 可 | 可 | 可 |
| GLM-5 | GLM独自 | 条件付き可 | 制限あり | 制限あり |
Apache 2.0ライセンスのモデルは商用利用・改変・再配布がすべて可能で最も自由度が高い。独自ライセンスのモデルは必ず原文を確認すること。特に「競合するAIサービスへの利用禁止」や「月間アクティブユーザー規模による制限」が含まれる場合がある。
商用利用の注意点
OSSモデルを商用サービスに組み込む場合、技術面以外に以下を確認する必要がある。
ライセンス確認の順序
- モデルカードまたは公式GitHubのLICENSEファイルを直接読む
- Hugging Faceのモデルページではなく一次情報を参照する(要約が不完全な場合がある)
- 規模制限(ユーザー数・売上額)の閾値を確認する
- 出力物の帰属表示義務を確認する
中国系モデルの地政学リスク
DeepSeek・Qwen・GLMは中国の企業・機関が開発している。技術的な品質とは別に、以下の点を組織のリスク評価に含める必要がある:
- 輸出規制の対象になる可能性(特に米国企業・軍事・安全保障関連)
- データ処理に関する中国法律の適用範囲
- ライセンス条件の変更リスク
純粋な研究や個人利用であれば問題になることは少ないが、エンタープライズ向けサービスや機密性の高いデータを扱う場合は、Llama 4またはMistralを軸に検討するほうが無難だ。
まとめ:2026年2月時点の選択指針
用途別の推奨をまとめると以下のようになる。
高性能・汎用(予算あり) DeepSeek V3.2またはQwen3。ベンチマーク性能では現時点のOSS最前線。ローカルで動かすには相応のGPUが必要。
日本語処理を重視 Qwen3(Apache 2.0サイズ帯)。多言語対応が充実しており、日本語での品質が高い。
商用利用・コミュニティ資産 Llama 4 Scout/Maverick。エコシステムが最大規模で、量子化モデルやツールが豊富。
欧州規制対応・データ主権 Mistral Large 3。GDPR・EU AI Act対応を重視するエンタープライズ向け。
省メモリ・エッジ展開 RWKV-7。Transformerの制約を超えたアーキテクチャで将来性がある。
ライセンスの自由度を最優先 Apache 2.0のモデル(Mistral 7B系、RWKV-7、Qwen3の対象サイズ)。
OSSモデルの進化速度は速い。今回紹介したモデルも3〜6か月後には次のバージョンが登場しているはずだ。最新LLMランキングで最新の情報を随時確認しながら、自分のユースケースに合ったモデルを選ぶのが現実的な戦略だ。
あわせて読みたい
- llm-ranking-2026-02-25
- llm-benchmark-guide-2026
- llm-api-pricing-comparison-2026
- local-llm-setup-guide-2026
この記事が参考になったら|以下のリンクから見てもらえるだけで、ブログ運営の応援になります。
- NordVPN

AI活用時のデータ保護に。VPNで通信を暗号化。



コメント