要点(100字):ローカル LLM はガバナンス・コスト・レイテンシの 3 軸で選ぶ。2026 年は Llama 4 / Qwen 3 / DeepSeek V3 が主軸。クラウド API との併用前提でのハイブリッド設計が定石で、完全自前運用は限定的なケースのみ。
この記事の対象読者
- データ持ち出し制約のある企業(金融 / 医療 / 公共 / 防衛)の AI プラットフォームエンジニア
- 月数千万トークン超の運用でクラウド API コストが負担になっている事業責任者
- サブ秒レイテンシ要求のあるユースケース(コールセンター / 検索 / リアルタイム翻訳)を持つ事業部
- AX 推進でローカル LLM の必要性を経営層に説明したい AX 推進責任者
ローカル LLM が必要な3ケース
ローカル LLM はクラウド API より構築・運用が重い。やみくもにオンプレ化するのは非効率で、以下の 3 ケースに該当する場合のみ検討する。
ケース1:データ持ち出し禁止
- 金融機関の顧客取引データ
- 医療機関の患者カルテ
- 防衛 / 警察 / 公共インフラの機微情報
- 法務 / 知財関連の機密文書
クラウド API でも Enterprise 契約(データ学習除外 / ログ保存制御)でカバーできるケースが増えたが、規制上 "物理的にデータを国外に出さない / 自社管理下にない環境で処理しない" 要件がある場合はローカルが必須。
ケース2:月数千万トークン超の長期運用
クラウド API は従量制で、月数千万〜数億トークンを継続的に消費する業務(社内ナレッジ検索 / 大量文書要約 / 24h チャットボット)では、3〜5 年 TCO でローカル LLM がペイすることがある。
損益分岐の目安:月 1 億トークン × 12 ヶ月 = 年 12 億トークン消費の業務で、$200K 超のクラウド支出 → 自前 GPU クラスタ(H100×4〜8 台)が選択肢になり始める。
ケース3:サブ秒レイテンシ要求
- コールセンターの音声応答(応答 200ms 以内)
- リアルタイム翻訳 / 通訳支援(300ms 以内)
- 検索エンジン補完 / オートコンプリート(100ms 以内)
クラウド API は通信遅延 + キュー待ち + 生成時間で 1〜3 秒かかる。サブ秒要求の業務にはローカル LLM が必須。
主要オープンウェイトモデル比較(2026年6月時点)
| モデル | 提供元 | パラメータ | コンテキスト長 | ライセンス | 商用利用 | 日本語性能 | GPU 要件(FP8) |
|---|---|---|---|---|---|---|---|
| Llama 4 Maverick | Meta | 400B (17B active, MoE) | 1M | Llama 4 Community License | △(条件付) | ◯ | H200×4 |
| Llama 4 Scout | Meta | 109B (17B active, MoE) | 10M | Llama 4 Community License | △(条件付) | ◯ | H100×2〜H200×2 |
| Qwen 3-235B-A22B | Alibaba | 235B (22B active, MoE) | 256K | Apache 2.0 | ◎(フリー) | ◎(中華圏含む多言語) | H200×4 |
| Qwen 3-32B | Alibaba | 32B(Dense) | 128K | Apache 2.0 | ◎ | ◎ | H100×1 |
| DeepSeek V3.1 | DeepSeek | 671B (37B active, MoE) | 128K | MIT | ◎ | ◯ | H200×8 |
| Mistral Large 2 | Mistral AI | 123B(Dense) | 128K | MRL + Commercial | △(商用要契約) | ◯ | H100×2〜H200×2 |
| Codestral 25.01 | Mistral AI | 22B(Dense / Code 特化) | 256K | MRL + Commercial | △ | △ | H100×1 |
| Gemma 3 27B | 27B(Dense) | 128K | Gemma Terms | △(派生物制約) | △〜◯ | RTX 6000 Ada / H100×1 | |
| Phi 4 | Microsoft | 14B(Dense) | 16K | MIT | ◎ | △ | RTX 4090 / 6000 Ada |
モデル選定ポイント
Llama 4 系:エコシステムが最大。NVIDIA / Together / Fireworks など推論プロバイダのサポートが厚い。商用利用は月間アクティブユーザ 7 億超は別契約が必要(Meta の追加条件)。
Qwen 3 系:Apache 2.0 で商用フリー。中国語 / 日本語など多言語性能が高く、日系企業での採用が増加中。32B Dense は H100×1 で動かせる扱いやすさ。
DeepSeek V3.1:MIT ライセンスで商用フリー。671B の MoE は GPU 要件が重いが、推論コストは Active パラメータ(37B)相当。コード生成性能は GPT-4o 級と評価される。
Mistral Large 2 / Codestral:商用利用に Mistral との契約が必要。価格次第だが、欧州データセンター運用を志向する企業(GDPR 厳密対応)には魅力。
Gemma 3:Google の研究系。27B Dense は RTX 6000 Ada(48GB)でも量子化すれば動く。日本語は Llama 4 / Qwen 3 にやや劣る。
Phi 4:14B と小型ながら推論能力が高い。エッジ / オンデバイス用途向け。
推論基盤の選択肢
vLLM(プロダクション運用の標準)
- NVIDIA GPU でのバッチ推論に最適化(PagedAttention)
- 高スループット / 低レイテンシ
- OpenAI 互換 API でラップ可能(vLLM が
/v1/chat/completionsを提供)
適用ケース:エンタープライズ本番運用 / トラフィック 100req/s 以上 / 複数モデル並列ホスト
llama.cpp(軽量 / オンプレ / CPU 可)
- C++ 実装で量子化(GGUF)対応
- CPU でも動作(速度は出ないが PoC 可能)
- Mac / Windows ノートでも動かせる
適用ケース:オンプレ小規模 / エッジ / 開発者デスクトップ
TGI(Text Generation Inference / HuggingFace 公式)
- HuggingFace エコシステムとの統合が厚い
- 推論サーバーとして安定
- vLLM より少し性能劣るが運用しやすい
適用ケース:HuggingFace 既存ユーザー / モデル切り替え頻度が高い検証環境
Ollama(ローカル開発 / プロトタイピング)
- 1 コマンドでモデルダウンロード → 推論
- macOS / Linux / Windows 対応
- 量子化済みモデルが豊富
適用ケース:PoC / 開発者個人環境 / デモ
SGLang(高速化志向)
- vLLM の改良版的位置付け
- 構造化出力 / JSON モードに強い
- 学習コストはやや高い
適用ケース:構造化出力ヘビーな業務 / vLLM で性能不足のケース
ハードウェアとコスト試算
GPU 別の対応モデル(FP8 推論)
| GPU | VRAM | 対応モデル例 | 価格(参考) |
|---|---|---|---|
| H200 | 141GB | Llama 4 Maverick / Qwen 3-235B / DeepSeek V3 | $30K〜 |
| H100 80GB | 80GB | Qwen 3-32B / Mistral Large 2 / Llama 4 Scout(2 台) | $25K〜 |
| RTX 6000 Ada | 48GB | Gemma 3 27B / Qwen 3-14B / 量子化 70B | $7K〜 |
| RTX 4090 | 24GB | Phi 4 / Gemma 3 9B / 量子化 13B | $1.6K〜 |
| B200 / B100 | 192GB | 大規模 MoE 並列 | $40K〜(出荷次第) |
自社オンプレ vs クラウド GPU(参考試算)
H100×4 台構成の場合:
- 自社オンプレ:初期 $120K(GPU)+ $30K(サーバ / 冷却 / 電源) = $150K + 月額電気代 $1〜2K
- クラウド(AWS p5.48xlarge / GCP a3-megagpu):時間単価 $30〜50 × 730h = 月 $22K〜36K
- 専用クラウド GPU(Together / Fireworks / Lambda):時間単価 $10〜20 × 730h = 月 $7K〜15K
3 年運用での TCO:
- 自社オンプレ:$150K + $36K(電気) + 運用人件費 = 約 $250〜350K
- クラウド:$800K〜$1.3M
- 専用クラウド:$250〜540K
目安:24h 365 日フル稼働なら自社オンプレが安い。日中のみ稼働ならクラウドが安い。
国内データセンター事業者の選択肢
- さくらインターネット(GPU クラウド「高火力」)
- NTT Data(プライベートクラウド GPU)
- 富士通(FUJITSU Hybrid IT Service)
- 国内 H100 / H200 リソースは需給逼迫しており、6〜12 ヶ月リードタイムも珍しくない
国内 DC 要件(特に金融 / 医療)の場合は早期に契約を進める必要がある。
クラウド API とのハイブリッド設計
完全ローカル化を狙わず、ハイブリッドが定石。
設計原則
| 要件 | ルーティング先 |
|---|---|
| 機微情報を含む / データ持ち出し不可 | ローカル LLM |
| 高難度の推論 / 最新モデル必要 | クラウド API(Claude Opus / GPT-5 / Gemini Ultra) |
| 高頻度・軽量タスク | ローカル LLM |
| 業務時間外バッチ処理 | クラウド API バッチ(50% 割引) |
| サブ秒応答要求 | ローカル LLM(特に CPU + 量子化) |
ルーティング実装
3 パターン:
- ルールベース:データ分類タグでルーティング(簡単 / 柔軟性低)
- 小型分類モデル:FastText / DistilBERT 等で機微判定 → ローカル / クラウド振り分け
- ゲートウェイ製品:LiteLLM / OpenRouter / Portkey などのルーティング製品を活用
最初はルールベースで開始、運用ログが溜まったら分類モデル / ゲートウェイ製品に進化。
データガバナンス観点
監査ログ
ローカル LLM は 入力 / 出力ログを自前で持つ。これがクラウド API(特に Enterprise 契約のないデフォルト API)に対する大きな優位。
- 月次の入出力サンプリングレビュー
- 規制対応の証跡保管(7 年など業界要件次第)
- 内部監査 / 外部監査での提示
モデル更新ポリシー
オープンウェイトモデルは数ヶ月単位でメジャー更新が出る。
- セキュリティパッチ:適用 SLA を 30 日以内などで定義
- 性能改善:四半期評価で更新判定(A/B テスト後の段階的展開)
- 切り替え検証:既存業務での品質劣化を検査するベンチマークを社内に持つ
セキュリティパッチ
- 推論基盤(vLLM / TGI 等)の CVE 対応:月次パッチ
- OS / コンテナ:通常の運用基盤と同等
- モデル本体の脆弱性(プロンプトインジェクション等):社内 Red Team / 監査
FAQ
Q1. 日本語性能が一番高いオープンウェイトは?
2026 年 6 月時点では Qwen 3 系(Alibaba)が日本語ベンチマーク(JGLUE / JCommonsenseQA / 日本語 MT-Bench)で総合トップ。続いて Llama 4 / DeepSeek V3。
ただしベンチマークはタスク次第で逆転するため、自社業務での評価セット(500〜1000 サンプル)で必ず実測する。
Q2. ライセンスで商用利用に注意すべきモデルは?
- Llama 4:月間アクティブユーザ 7 億超は Meta との別契約必要。エンタープライズの内部利用は問題ないことが多い
- Mistral Large 2:MRL(Mistral Research License)は研究用途のみ。商用利用には Mistral との Commercial License 契約必須
- Gemma 3:Gemma Terms(独自)。商用可だが、生成物の派生物配布制約がある
商用フリーで安全:Qwen 3(Apache 2.0)/ DeepSeek V3(MIT)/ Phi 4(MIT)
Q3. 推論基盤は vLLM 一択か?
エンタープライズ本番は vLLM が現時点でデファクトだが、用途次第:
- 本番運用 / 高スループット:vLLM
- オンプレ / 軽量 / CPU:llama.cpp
- HuggingFace エコシステム:TGI
- PoC / 開発:Ollama
- 構造化出力多用 / 最新最適化:SGLang
複数併用も普通。検証は Ollama、本番は vLLM、エッジは llama.cpp というケースが多い。
Q4. 何 GPU 必要か?
業務要件から逆算する:
- 小規模 PoC / 個人 / 13B 量子化:RTX 4090 1 枚($1.6K)
- 中規模本番 / 32B Dense:H100×1($25K〜)
- 大規模本番 / 100B 級:H100×2〜H200×2($50K〜)
- MoE 大規模 / 235B〜:H200×4〜8($120K〜)
冷却 / 電源 / ネットワーク機器を含めると上記の 1.5 倍が初期コスト目安。
Q5. セキュリティパッチはどう運用する?
3 階層運用:
- OS / コンテナ:通常の運用基盤と同等(月次パッチ / 緊急パッチ)
- 推論基盤(vLLM / TGI):GitHub Watch でリリース追跡 / 月次パッチ
- モデル本体:四半期での更新評価 / 重大バグはホットフィックス
国内 DC 環境では適用に承認プロセスが必要。SLA を明確化しておく。
Q6. クラウド API より本当に安くなるか?
3〜5 年 TCO で評価する。月 1 億トークン以上を 24h 365 日で消費する業務でないと、自社オンプレが安くなることは少ない。
それ未満なら 専用クラウド GPU(Together / Fireworks / Lambda Labs)または Marketplace 経由のホスティングモデル がコストパフォーマンスで勝る。
Q7. ハイブリッド設計でクラウド側はどう選ぶ?
3 要素で評価:
- 最新モデル性能:Claude Opus 4.x / GPT-5 / Gemini Ultra
- Enterprise 契約:データ学習除外 / ログ保存制御 / SLA
- 国内 DC 提供:AWS Tokyo / GCP Tokyo / Azure Japan East 等
機微情報はローカル、高難度推論はクラウドという役割分担が定石。両側でモデルを揃える必要はなく、強み別に使い分ける。
FDXのローカル LLM 導入支援
FDX 株式会社は、Forward Deployed Engineer(FDE)+ プラットフォームエンジニアリング によって、ローカル LLM 導入を支援する。
- 要件診断(ガバナンス / コスト / レイテンシの 3 軸評価)
- モデル選定 + ライセンス精査
- 推論基盤構築(vLLM / TGI / llama.cpp)
- クラウド API とのハイブリッドアーキテクチャ設計
- 監査ログ / セキュリティ / パッチ運用の整備
- 6〜12 ヶ月の運用伴走 → 内製チームへ引き継ぎ
「クラウド API でコストが想定 5 倍」「機微データでクラウド使えない」という典型課題に対して、ハイブリッド設計で現実解を提示する。
関連記事
- LLM トークン節約 5 パターン|本番運用でコストを 70% 削るハーネス設計
- ループエンジニアリング入門|自律エージェントを"動かし続ける"ハーネス設計
- AI エージェント完全ガイド|2026 年版
- LangGraph 実装入門|エンタープライズの AI エージェント構築フレームワーク
- AI 内製化の進め方|外注依存から脱却する 5 ステップ
- DS+FDE ハイブリッドチーム設計
出典・参考文献
- Meta AI「Llama 4 Model Card / Community License」
- Alibaba Cloud「Qwen 3 Technical Report」
- DeepSeek AI「DeepSeek-V3.1 Technical Report」
- Mistral AI「Mistral Large 2 / Codestral 25.01 公式」
- Google「Gemma 3 Technical Paper」
- Microsoft Research「Phi 4 Technical Report」
- vLLM Documentation「PagedAttention / OpenAI API Compat」
- HuggingFace「TGI Documentation」
- llama.cpp GitHub README
- 経済産業省「生成 AI ガバナンス白書 2026」
- 国立情報学研究所「日本語 LLM 評価ベンチマーク 2026」
