FDX株式会社
Tech Note

ローカル LLM / オープンウェイトモデル比較 2026|Llama 4 / Qwen 3 / DeepSeek / Mistral / Gemma の​選び方

2026 年時点のローカル LLM / オープンウェイトモデルを徹底比較。Llama 4 / Qwen 3 / DeepSeek V3 / Mistral Large 2 / Gemma 3 の性能・ライセンス・GPU 要件、推論基盤(vLLM / llama.cpp / TGI / Ollama)の選び方、ハードウェア TCO、クラウド API とのハイブリッド設計、データガバナンス観点を経営層 / プラットフォームエンジニア向けに整理する。

·FDX株式会社 編集部·監修: 佐藤 拓哉(生成AI協会 理事)
主要オープンウェイト LLM の比較マトリクス。横軸「商用利用容易さ(ライセンス)」、縦軸「日本語性能」に Llama 4 / Qwen 3 / DeepSeek V3 / Mistral Large 2 / Gemma 3 / Phi 4 をプロット。円サイズで GPU 要件を表現。

要点(100字):ローカル LLM は​ガバナンス・コスト・レイテンシの​ 3 軸で​選ぶ。​2026 年は​ Llama 4 / Qwen 3 / DeepSeek V3 が​主軸。​クラウド API との​併用前提での​ハイブリッド設計が​定石で、​完全自前運用は​限定的な​ケースのみ。

この​​記事の​​対象読者


ローカル LLM が​​必要な​​3ケース

ローカル LLM は​クラウド API より​構築・運用が​重い。​やみくもに​オンプレ化するのは​非効率で、​以下の​ 3 ケースに​該当する​場合のみ​検討する。

ケース1:データ持ち出し禁止

クラウド API でも​ Enterprise 契約​(データ学習除外 / ログ保存制御)で​カバーできる​ケースが​増えたが、​規制上 "物理的に​データを​国外に​出さない​ / 自社管理下に​ない​環境で​処理しない​" 要件が​ある​場合は​ローカルが​必須。

ケース2:月数千万トークン超の​​長期運用

クラウド API は​従量制で、​月数千万〜数億トークンを​継続的に​消費する​業務​(社内ナレッジ検索 / 大量文書要約 / 24h チャットボット)では、​3〜5 年 TCO で​ローカル LLM が​ペイする​ことがある。

損益分岐の​目安:月 1 億トークン × 12 ヶ月 = 年 12 億トークン消費の​業務で、​$200K 超の​クラウド支出 → 自前 GPU クラスタ​(H100×4〜8 台)が​選択肢に​なり始める。

ケース3:サブ秒レイテンシ要求

クラウド API は​通信遅延 + キュー待ち + 生成時間で​ 1〜3 秒かかる。​サブ秒要求の​業務には​ローカル LLM が​必須。


主要オープンウェイトモデル比較​(2026年6月時点)

モデル比較マトリクス
モデル提供元パラメータコンテキスト長ライセンス商用利用日本語性能GPU 要件​(FP8)
Llama 4 MaverickMeta400B (17B active, MoE)1MLlama 4 Community License△(条件付)H200×4
Llama 4 ScoutMeta109B (17B active, MoE)10MLlama 4 Community License△(条件付)H100×2〜H200×2
Qwen 3-235B-A22BAlibaba235B (22B active, MoE)256KApache 2.0◎(フリー)◎​(中華圏含む​多言語)H200×4
Qwen 3-32BAlibaba32B​(Dense)128KApache 2.0H100×1
DeepSeek V3.1DeepSeek671B (37B active, MoE)128KMITH200×8
Mistral Large 2Mistral AI123B​(Dense)128KMRL + Commercial△​(商用要契約)H100×2〜H200×2
Codestral 25.01Mistral AI22B​(Dense / Code 特化)256KMRL + CommercialH100×1
Gemma 3 27BGoogle27B​(Dense)128KGemma Terms△​(派生物制約)△〜◯RTX 6000 Ada / H100×1
Phi 4Microsoft14B​(Dense)16KMITRTX 4090 / 6000 Ada

モデル選定ポイント

Llama 4 系:エコシステムが​最大。​NVIDIA / Together / Fireworks など​推論プロバイダの​サポートが​厚い。​商用利用は​月間アクティブユーザ 7 億超は​別契約が​必要​(Meta の​追加条件)。

Qwen 3 系:Apache 2.0 で​商用フリー。​中国語 / 日本語など​多​言語性能が​高く、​日系企業での​採用が​増加中。​32B Dense は​ H100×1 で​動かせる​扱いやすさ。

DeepSeek V3.1:MIT ライセンスで​商用フリー。​671B の​ MoE は​ GPU 要件が​重いが、​推論コストは​ Active パラメータ​(37B)​相当。​コード生成性能は​ GPT-4o 級と​評価される。

Mistral Large 2 / Codestral:商用利用に​ Mistral との​契約が​必要。​価格次第だが、​欧州データセンター運用を​志向する​企業​(GDPR 厳密対応)には​魅力。

Gemma 3:Google の​研究系。​27B Dense は​ RTX 6000 Ada​(48GB)でも​量子化すれば​動く。​日本語は​ Llama 4 / Qwen 3 に​やや​劣る。

Phi 4:14B と​小型ながら​推論能力が​高い。​エッジ / オンデバイス用途向け。


推論基盤の​​選択肢

vLLM​(プロダクション運用の​​標準)

適用ケース:エンタープライズ本番運用 / トラフィック 100req/s 以上​ / 複数モデル並列ホスト

llama.cpp​(軽量 / オンプレ / CPU 可)

適用ケース:オンプレ小規模 / エッジ / 開発者デスクトップ

TGI​(Text Generation Inference / HuggingFace 公式)

適用ケース:HuggingFace 既存ユーザー / モデル切り​替え頻度が​高い​検証環境

Ollama​(ローカル開発 / プロトタイピング)

適用ケース:PoC / 開発者個人環境 / デモ

SGLang​(高速化志向)

適用ケース:構造化出力ヘビーな​業務 / vLLM で​性能不足の​ケース


ハードウェアと​​コスト試算

GPU 別の​​対応モデル​(FP8 推論)

GPUVRAM対応モデル例価格(参考)
H200141GBLlama 4 Maverick / Qwen 3-235B / DeepSeek V3$30K〜
H100 80GB80GBQwen 3-32B / Mistral Large 2 / Llama 4 Scout(2 台)$25K〜
RTX 6000 Ada48GBGemma 3 27B / Qwen 3-14B / 量子化 70B$7K〜
RTX 409024GBPhi 4 / Gemma 3 9B / 量子化 13B$1.6K〜
B200 / B100192GB大規模 MoE 並列$40K〜​(出荷次第)

自社オンプレ vs クラウド GPU​(参考試算)

H100×4 台構成の​場合:

3 年運用での​ TCO:

目安:24h 365 日フル稼働なら​自社オンプレが​安い。​日中のみ​稼働なら​クラウドが​安い。

国内データセンター事業者の​​選択肢

国内 DC 要件​(特に​金融 / 医療)の​場合は​早期に​契約を​進める​必要が​ある。


クラウド API との​​ハイブリッド設計

ハイブリッド構成図

完全ローカル化を​狙わず、ハイブリッドが定石

設計原則

要件ルーティング先
機微情報を​含む / データ持ち出し不可ローカル LLM
高難度の​推論 / 最新モデル必要クラウド API​(Claude Opus / GPT-5 / Gemini Ultra)
高頻度・軽量タスクローカル LLM
業務時間外バッチ処理クラウド API バッチ​(50% 割引)
サブ秒応答要求ローカル LLM​(特に​ CPU + 量子化)

ルーティング実装

3 パターン:

  1. ルールベース:データ分類タグで​ルーティング​(簡単 / ​柔軟性低)
  2. 小型分類モデル:FastText / DistilBERT 等で​機微判定 → ローカル / クラウド振り分け
  3. ゲートウェイ製品:LiteLLM / OpenRouter / Portkey などの​ルーティング製品を​活用

最初は​ルールベースで​開始、​運用ログが​溜まったら​分類モデル / ゲートウェイ製品に​進化。


データガバナンス観点

監査ログ

ローカル LLM は​ 入力 / 出力ログを自前で持つ。​これが​クラウド API​(特に​ Enterprise 契約の​ない​デフォルト API)に​対する​大きな​優位。

モデル更新ポリシー

オープンウェイトモデルは​数ヶ月単位で​メジャー更新が​出る。

セキュリティパッチ


FAQ

Q1. 日​本語性能が​​一番​​高い​​オープンウェイトは?

2026 年 6 月時点では​ Qwen 3 系(Alibaba)が​日本語ベンチマーク​(JGLUE / JCommonsenseQA / 日本語 MT-Bench)で​総合トップ。​続いて​ Llama 4 / DeepSeek V3。

ただしベンチマークは​タスク次第で​逆転する​ため、​自社業務での​評価セット​(500〜1000 サンプル)で​必ず​実測する。

Q2. ライセンスで​​商用利用に​​注意すべきモデルは?

商用フリーで安全:Qwen 3​(Apache 2.0)​/ DeepSeek V3​(MIT)​/ Phi 4​(MIT)

Q3. 推論基盤は​​ vLLM 一択か?

エンタープライズ本番は​ vLLM が​現時点で​デファクトだが、​用途次第:

複数併用も​普通。​検証は​ Ollama、​本番は​ vLLM、​エッジは​ llama.cpp と​いう​ケースが​多い。

Q4. 何 GPU 必要か?

業務要件から​逆算する​:

冷却 / 電源 / ネットワーク機器を​含めると​上記の​ 1.5 倍が​初期コスト目安。

Q5. セキュリティパッチは​​どう​​運用する?

3 階層運用:

  1. OS / コンテナ:通常の​運用基盤と​同等​(月次パッチ / 緊急パッチ)
  2. 推論基盤(vLLM / TGI):GitHub Watch で​リリース追跡 / 月次パッチ
  3. モデル本体:四半期での​更新評価 / 重大バグは​ホットフィックス

国内 DC 環境では​適用に​承認プロセスが​必要。​SLA を​明確化しておく。

Q6. クラウド API より​​本当に​​安くなるか?

3〜5 年 TCO で​評価する。​月 1 億トークン以上を​ 24h 365 日で​消費する​業務でないと、​自社オンプレが​安くなる​ことは​少ない。

それ未満なら 専用クラウド GPU(Together / Fireworks / Lambda Labs)または Marketplace 経由のホスティングモデル が​コストパフォーマンスで​勝る。

Q7. ハイブリッド設計で​​クラウド側は​​どう​​選ぶ?

3 要素で​評価:

機微情報は​ローカル、​高難度推論は​クラウドと​いう​役割分担が​定石。​両側で​モデルを​揃える​必要は​なく、​強み別に​使い分ける。


FDXの​​ローカル LLM 導入支援

FDX 株式会社は、Forward Deployed Engineer(FDE)+ プラットフォームエンジニアリング に​よって、​ローカル LLM 導入を​支援する。

「クラウド API で​コストが​想定 5 倍」​「機微​データで​クラウド使えない」と​いう​典型課題に​対して、​ハイブリッド設計で​現実解を​提示する。

FDX に​ローカル LLM 導入の​相談を​する​ →


関連記事


出典・参考文献

FDX流の​FDEモデルを​相談する

戦略立案・実装・現場定着・運用移管まで一気通貫で支援します。