わさびです。
結論から言う。
RTX 3070 Ti(VRAM 8GB)でQwen3-8Bを動かしているが、日常的な質問応答と文章生成なら実用レベルに達している。
「ローカルLLMは敷居が高い」「専門家向け」というイメージがあるかもしれないが、OllamaというツールのおかげでDockerに近い感覚でモデルを動かせるようになった。2026年現在、VRAM 8GBあれば7〜9Bクラスのモデルを量子化して動かせる。スペックの問題でCloud APIに課金し続けるか迷っている人は、この記事を読んでから判断してほしい。
ローカルLLMとは
クラウドサービス(ChatGPT、Claude等)は、入力したプロンプトがAnthropicやOpenAIのサーバーに送信される。ローカルLLMは逆で、モデルのウェイト(数GB〜数十GBのファイル)を自分のマシンにダウンロードして、推論も手元で完結させる方式だ。
主なメリット:
- プライバシー: 入力データが外部に出ない(社内情報や個人情報を扱う用途に適している)
- コスト: APIの従量課金が発生しない(電気代と初期投資のみ)
- レイテンシ: ネットワーク遅延がない(低スペックマシンでもオフライン動作可能)
- カスタマイズ: ファインチューニングやシステムプロンプトの固定など、クラウドAPIでは難しいことができる
デメリット:
- ハードウェアコストがかかる(VRAM搭載GPUが事実上必須)
- GPT-4oやClaudeの最上位モデルには品質が及ばない
- セットアップの手間がある
必要スペック — VRAM別の現実的な選択肢
ローカルLLMで最重要なのはVRAM容量。CPUのRAMとは別物なので注意。
| VRAM | 動かせるモデル規模 | 現実的な選択肢 | 体感品質 |
|---|---|---|---|
| 4GB | 3Bまで(量子化) | Mistral 3B Q4, Qwen3-1.7B | 簡単なQ&A程度 |
| 6GB | 7B Q4前後 | Llama-3.2-7B Q4, Gemma 3-4B | 日常会話・要約は実用レベル |
| 8GB | 7〜9B Q4/Q8 | Qwen3-8B Q4, GLM-4-9B Q4 | コーディング補助・翻訳まで実用 |
| 12GB | 13B Q4、7B FP16 | Llama 4 Scout Q4, Qwen3-14B Q4 | 複雑な推論にも対応 |
| 16GB | 13〜30B Q4 | Qwen3-14B Q8, Mistral-22B Q4 | API代替として本格運用可 |
| 24GB以上 | 70B Q4 | Llama 4 Scout FP16, Qwen3-72B Q4 | GPT-4クラスに近い性能 |
「VRAM が足りない場合はCPU+RAMで動かせないか?」という質問はよく受ける。動かすことはできるが、推論速度が5〜10倍以上遅くなる。32GB RAMなら13B程度を動かせるが、1トークン/秒を下回るケースもあり実用的でないことが多い。
Ollamaセットアップ手順
Ollamaはローカルで最もポピュラーな実行環境。docker pull の感覚でモデルを取得できる。
インストール(Windows)
wingetinstallOllama.Ollama
再起動後、バックグラウンドでOllamaサーバーが起動する(デフォルト: http://localhost:11434)。
モデルの取得と実行
# Qwen3-8B(Q4量子化、約5GB)
ollamapullqwen3:8b
# 対話モード
ollamarunqwen3:8b
# 他のモデル例
ollamapullllama4:scout
ollamapullrwkv:7b
ollamapullmistral:3b
APIとして使う
curlhttp://localhost:11434/api/generate-d'{
"model": "qwen3:8b",
"prompt": "Pythonで非同期処理を実装するベストプラクティスを教えて",
"stream": false
}'
OpenAI互換のエンドポイント(/v1/chat/completions)も用意されているため、既存のOpenAIクライアントコードをほぼそのまま流用できる。
VSCode連携(Continue拡張機能)
// .continue/config.json
{
"models":[
{
"title":"Qwen3 8B Local",
"provider":"ollama",
"model":"qwen3:8b"
}
]
}
これだけでコードの補完・レビューがローカルLLMで動くようになる。
[IMAGE: ollama_setup_terminal]
おすすめモデル比較表【2026年2月版】
最新LLMランキングと合わせて参考にしてほしい。
| モデル | パラメータ | VRAM目安 | 強み | 弱み |
|---|---|---|---|---|
| Qwen3-8B | 8B | 5GB(Q4) | コーディング、日本語対応、推論 | 大規模タスクは14B以上が必要 |
| RWKV-7 | 7B | 4GB(FP16) | O(1)メモリ、長文コンテキスト | アーキテクチャが特殊で注意点あり |
| Llama 4 Scout | 17B MoE | 10GB(Q4) | コスト対効果、マルチリンガル | MoEのためメモリ効率は要確認 |
| Mistral 3B | 3B | 2GB(Q4) | 軽量・高速、エッジ用途 | パラメータ数相応の限界あり |
| GLM-4-9B | 9B | 6GB(Q4) | 中国語・日本語特化 | 英語圏での情報が少ない |
Qwen3-8B は2026年2月時点でVRAM 8GBクラスの実質的な最強候補。コーディング補助の精度がLlama 3.2の同クラスを上回るケースが多く、日本語の処理品質も高い。AlibababCloudが継続的にアップデートしているため、追跡しやすい。
Llama 4 Scout は17BパラメータのMoE(Mixture of Experts)構造を採用しており、実際の演算量が17Bフルモデルより少ない。VRAM 10〜12GBでQ4量子化版を動かした場合、推論品質はQwen3-14Bと競合するレベルに達している。
GLM-4-9B はClearMLが公開しているモデルで、日本語のファインチューニングが施されているバージョンも存在する。日本語の長文要約・翻訳タスクで特に性能を発揮する。
[IMAGE: model_comparison_chart]
量子化の基礎 — Q4・Q8・FP16の違い
「量子化」はモデルのウェイト(浮動小数点数)を低精度で表現することで、ファイルサイズとVRAM使用量を削減する技術。
| 形式 | 精度 | サイズ比 | 品質低下 | 用途 |
|---|---|---|---|---|
| FP16 | 16bit浮動小数点 | 100%(基準) | なし(原版) | VRAM十分な場合 |
| Q8 | 8bit整数 | 約50% | ほぼなし | 品質優先・VRAM12GB以上 |
| Q4_K_M | 4bit(混合) | 約25% | 小〜中 | VRAM 8GBの主力 |
| Q4_0 | 4bit(均一) | 約22% | 中 | 最軽量だが品質妥協あり |
| Q2_K | 2bit(混合) | 約13% | 大 | 非常時・テスト用途 |
実用上は Q4_K_M がデフォルト選択でいい。FP16と比べて体感できる品質差が出るのは高度な推論タスク(数学・複雑なコーディング)に限られる。日常的な文章生成・Q&Aなら差はほぼない。
Ollamaでモデルを取得する際、量子化バリアントを明示的に指定できる:
# Q4_K_M(デフォルト、VRAM 8GB向け)
ollamapullqwen3:8b
# Q8(品質優先、VRAM 12GB以上向け)
ollamapullqwen3:8b-q8_0
ベンチマークの読み方ガイドでも量子化別の性能比較に触れているので参照してほしい。
RWKV-7の特殊性 — なぜRNNなのか
RWKV(Receptance Weighted Key Value)はTransformerとは異なるアーキテクチャ「RNN」ベースのLLM。同じ文脈でよく語られるが、内部構造は根本的に違う。
TransformerとRWKVの違い
Transformerは入力トークン全体にAttentionを計算するため、コンテキスト長が長くなるにつれてメモリと演算量が二乗に比例して増加する(O(n^2))。
RWKVは前の状態を固定サイズのベクトルに圧縮して次に渡す「状態伝播」方式で、コンテキスト長に対して O(1)のメモリ消費 を維持する。
| 比較軸 | Transformer系 | RWKV-7 |
|---|---|---|
| メモリ消費 | コンテキスト長に比例 | 固定(O(1)) |
| 推論速度 | コンテキスト長で遅くなる | 一定 |
| 学習効率 | 高い | やや劣る |
| 長文処理 | VRAM限界あり | 理論上無制限 |
RWKV-7が注目されるのはこのメモリ効率で、VRAM 4GBのマシンでも数万トークンの長文コンテキストを扱える点にある。ただし同パラメータ数のTransformerモデルと比較した場合、ベンチマーク上の推論品質はやや劣る傾向がある。「長文サマリーを低スペックで動かしたい」という要件に合う場合に有力な選択肢になる。
[IMAGE: rwkv_architecture_diagram]
用途別おすすめ
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| コーディング補助(VSCode等) | Qwen3-8B | Humaneval系ベンチマーク上位、日本語コメントも書ける |
| 日本語文章生成・要約 | GLM-4-9B or Qwen3-8B | 日本語特化チューニングあり |
| 軽量・高速な補助ツール | Mistral 3B | 2GB VRAMで動く、APIコール削減用 |
| 長文ドキュメント処理 | RWKV-7 | O(1)メモリで無制限コンテキスト |
| バランス型(VRAM 12GB以上) | Llama 4 Scout Q4 | MoE効率で上位クラス品質 |
| プライバシー重視の業務利用 | Qwen3-8B or Llama 4 Scout | ローカル完結、外部送信なし |
llama.cpp を使うケース
Ollamaの裏側はllama.cppが動いている。直接llama.cppを使うのは以下のケース:
- GPUがNVIDIA以外(ROCm/Metal対応)
- バッチ処理でスループットを最大化したい
- サーバー構成を細かく制御したい
一般的な用途ならOllamaで十分。llama.cppを直接触るのはパワーユーザー向け。
vLLMを使うケース
vLLMはPaged Attentionを使った高スループット推論エンジン。複数ユーザーが同時にAPIを叩くサーバー用途(本番デプロイ)向けで、VRAM 12GB以上の環境が推奨される。VRAM 8GBではKVキャッシュの事前確保で起動自体ができないケースが多い。開発・個人利用ならOllamaで事足りる。
まとめ
| ポイント | 内容 |
|---|---|
| VRAM 8GB | Qwen3-8B Q4が事実上の最強選択肢。コーディング補助まで実用レベル |
| セットアップ | Ollamaならwinget install + ollama pullの2ステップ |
| 量子化 | Q4_K_Mがバランス最良。日常用途ではFP16との差は小さい |
| RWKV-7 | RNNベースでO(1)メモリ。長文低スペック処理に特化した選択肢 |
| Llama 4 Scout | MoE構造でVRAM 12GBクラスに上位品質を持ち込める |
| 用途 | コーディング→Qwen3-8B / 長文→RWKV / 軽量→Mistral 3B |
クラウドAPIとローカルLLMは排他的ではない。重要度の高いタスクはClaude APIに投げ、補助的な処理はローカルで完結させるハイブリッド運用が費用対効果を最大化する。まずOllamaをインストールしてMistral 3Bから試してみることをすすめる。セットアップ込みで30分かからない。
最新LLMランキングやベンチマークの読み方ガイドも合わせて参照してほしい。
この記事を書いたのは わさび(ニホンイシガメ / 3歳 / VTuberあかはら。の家族)です。カメが自分のPCでLLMを動かしています。
あかはらVラボ — AI・ガジェット・日記を気まぐれに更新中。
あわせて読みたい
- llm-ranking-2026-02-25
- llm-benchmark-guide-2026
- llm-api-pricing-comparison-2026
- open-source-llm-landscape-2026
この記事が参考になったら|以下のリンクから見てもらえるだけで、ブログ運営の応援になります。

45万円相当のAI講座(E資格対応)を月額3,000円で受講できます。- ミニPC専門店【Minisforum】

ローカルLLM実行やAI開発環境にも。コンパクトで高性能。



コメント