ループエンジニアリング入門｜自律エージェントを動かし続けるハーネス設計の体系

Q: LangGraph / Claude Agent SDK のどちらで実装する？

業務要件次第。 - **状態遷移が複雑（人間介入 / 分岐多数 / 監査要件高）**：LangGraph。State Machine で明示できる - **シンプルな実装 / 高速立ち上げ**：Claude Agent SDK。Anthropic 公式の SDK - **コーディング作業の自律化**：Claude Code。エディタ統合と既存 dev tool との親和性が高い

Q: 停止条件は誰が決める？

業務要件 + 経営判断。技術側だけで決めないこと。 - 成功条件 → 業務責任者 - 予算上限 → CFO / 事業責任者 - リトライ回数 → SRE / プラットフォームエンジニア - 人間エスカレーション基準 → 業務 SOP に従う

Q: 人間介入はどこに挟む？

3 タイプ： 1. **Approval Gate**：副作用の大きい操作（DB 削除 / 大口決済 / 顧客通知）の前に承認を求める 2. **Fallback Gate**：エラー / 信頼度低下時に人間に判断を委ねる 3. **Audit Gate**：完了後にサンプリングで人間がレビュー 完全自律より、適切に人間介入を挟む方が運用品質は高い。

Q: 失敗時のロールバック設計は？

3 階層： 1. **State Snapshot**：各ノード / ステップ実行前に state を保存。失敗時に巻き戻し可能 2. **Side Effect Compensation**：副作用が発生した場合、補償トランザクション（メール取り消し通知 / DB 巻き戻し）を実装 3. **Manual Recovery**：完全自動ロールバックが難しい場合、人間オペレーターに「何が起きたか」「どこから再開するか」を提示 ---

要点（100字）：ループエンジニアリングとは、AI エージェントを観測→判断→行動の反復で安全に動かし続ける設計思想。停止条件・検証ハーネス・予算管理の 3 軸で設計し、フィードバックを最速層に寄せれば、自律エージェントは業務で運用可能な信頼性に達する。

この記事の対象読者

AI エージェントを業務に組み込む開発リード / プラットフォームエンジニア
Claude Code / LangGraph / Claude Agent SDK での実装経験者
自律エージェントが「途中で暴走する / 止まらない / 評価できない」課題に直面している人
エージェントの SRE / 運用設計を担う AX 推進の技術系メンバー

ループエンジニアリングとは（要点3行）

ループエンジニアリング = 観測 → 判断 → 行動の反復を安全に動かし続けるハーネスを設計する技術。エージェント本体（モデル + プロンプト）の外側に、停止条件 / 検証 / 予算管理を組み込む。
2026 年に自律エージェントの業務運用が一気に広がった背景は 3 つ。Claude Opus 4.7 など長尺タスクに耐えるモデルの登場、Anthropic の harness 記事による設計指針の公式化、Karpathy 流の autoresearch 思想のエンタープライズへの浸透。
設計の中核は「フィードバックを最速層に寄せる」。決定論的なツール（リンター / テスト / 型チェック）でモデルを矯正すれば、プロンプトを増やさずに品質が出る。

なぜ2026年に自律エージェントの運用が広がったか

3 つの要因が重なった結果、2026 年は自律エージェントを業務運用する企業が一気に増えた。

要因1：長尺タスクに耐えるモデルの登場

Claude Opus 4.7 や OpenAI o-series、Gemini 3 Pro など、内部での自己検証を持つモデルが本格運用フェーズに入った。失敗時のリトライを少なく抑えても、数ループ以内でタスクを完結できる確率が大幅に向上している。

要因2：Anthropic の harness 設計記事

Anthropic Engineering Blog の "Designing Harness for Long-Running Agents" が公開され、ハーネスを「文書ではなくテストで強制する」という設計指針が公式化された。これによりエンタープライズが品質保証の社内基準として採用しやすくなった。

要因3：Karpathy 流 "autoresearch" 思想の浸透

Andrej Karpathy が提唱した「Modify → Verify → Keep / Discard → Repeat」の自律研究ループが、コーディング以外のドメイン（マーケティング / カスタマーサポート / 法務リサーチ）にも適用可能であることが示された。これにより業務ループの設計手法が広がった。

ループの3層構造

エージェントループは観測・判断・行動の 3 層から成る。1 周回るたびにこの 3 層を順にめぐり、行動層の結果が次の観測層へ戻ってくる。どの層が弱くてもループ全体の信頼性が崩れるため、層ごとに何を設計すべきかを押さえておく。

観測層（Observation Layer）

state：現在のタスク状態 / 達成済みステップ / 残タスク
memory：過去の対話 / 知識ベース / RAG 結果
tool result：前回の tool call の戻り値 / エラー / 副作用ログ

観測層の設計は コンテキストウィンドウの管理 と等価。すべての履歴を詰め込むと判断層がブレるため、要約・選別・圧縮が必要（参考：LLM トークン節約 5 パターン）。

判断層（Decision Layer）

モデルが観測層を見て次の行動を判断する
プロンプトは判断方針（システムプロンプト）と現状観測（ユーザーメッセージ）で構成
ここに "reasoning" / "extended thinking" を挟むかは task complexity 次第

判断層の品質は 観測層のシグナル / ノイズ比 で決まる。プロンプトを増やすよりも、観測層のシグナルを濃縮する方が効果的。

行動層（Action Layer）

tool call（外部 API / ファイル操作 / コマンド実行）
side effect（DB 更新 / メール送信 / 決済）
自己更新（メモリへの書き込み / 学習データの保存）

行動層は 副作用の伴うすべての操作 を含む。特に DB / メール / 決済など取り消しが効かない操作は、行動層内に "ガード" を組み込むのが定石。

停止条件の4パターン

ループは「いつ止めるか」を設計しないと、暴走やコスト超過、無限ループに陥る。止めどころは大きく 4 タイプに分けられ、実運用ではこれらを単独ではなく組み合わせて仕掛けておくのが普通だ。望ましい止まり方（成功）から、避けたい止まり方（予算超過・連続失敗）、外から止める経路（割込み）まで一通り用意する。

パターン1：成功条件達成

業務要件が満たされた（KPI 達成 / タスク完了）
例：チケット起票が完了 / コードが書かれてテストが通った / レポートが生成された

最も望ましい停止理由。成功条件は数値 / boolean で機械判定可能にする。

パターン2：予算超過（token / time / cost）

設定したトークン / 実行時間 / コストの上限に到達
例：1 タスク = 50,000 token / 10 分 / $5 を超えたら停止

エンタープライズ運用では必須。予算なしのループは、エッジケースで指数的コスト爆発を起こす。

パターン3：検証 fail の連続発生

リトライしても直らないエラーが N 回連続発生
例：リトライ上限 2 回（Stripe 知見） / 同じテストが 3 回連続で fail

「無限リトライは LLM の品質を落とす」というのは多くの企業の経験則。2〜3 回 fail で人間にエスカレーション。

パターン4：外部割込み

ユーザーが明示的に中断
別プロセスからの停止シグナル
緊急時のキルスイッチ

人間オペレーターが介入する経路を必ず残す。完全自律は障害時のリカバリを困難にする。

検証ハーネスの階層設計

ループの品質は 検証ハーネスの応答速度 で決まる。原則は「フィードバックを最速層に寄せる」。

Tier 1：Hook（ms）

ファイル編集後の即時 lint / format
tool call 前の引数バリデーション
副作用ガード（特定 path への書き込みブロック）

ミリ秒で判定できる検証は Hook で完結させる。これだけで「明らかに違反」のミスを 80% 削れる。

Tier 2：pre-commit / pre-action（秒）

型チェック / 静的解析
軽量ユニットテスト
業務ルール違反のチェック

秒オーダーで完了する検証。エージェントがコミット / アクション実行する前に走らせる。

Tier 3：CI（分）

統合テスト / E2E テスト
セキュリティスキャン
ビルド検証

分オーダーで完了。プルリクエスト相当のタイミングで走らせる。エージェントは CI 結果を待ってから次の判断に進む。

Tier 4：人間レビュー（時間 / 日）

アーキテクチャ判断
業務ロジックの妥当性
倫理 / コンプライアンスチェック

人間でしか判定できない論点に集約する。ここを増やすと運用負荷が上がるため、Tier 1〜3 で吸収できる部分は徹底的に自動化する。

原則：Hook(ms) > pre-commit(s) > CI(min) > 人間(h) の順で、より速い層に検証を寄せる。これにより人間の負荷を最小化しつつ品質を上げる。

運用Tipsとアンチパターン

Tip 1：ハーネス棚卸し（四半期）

各ルール / Hook / 制約について「モデル改善で不要になっていないか」を四半期ごとに問う。不要なガードレールは除去する。

過剰な制約はパフォーマンスを下げる。モデルが自力で回避できるようになったミスへの Hook は除去すべき。

Tip 2：部分成功を受容する

「100% 完成」を目指すと、修正ループ 3 回でトークンを浪費して結果ゼロになる。80% 完成で人間に渡す方が、100% 目指してトークン浪費するより合理的（Stripe / Anthropic の経験則）。

部分成功を許容する設計にすると、エージェントの稼働率が大幅に上がる。

Tip 3：説明文書よりテスト / 型定義で情報を表現する

CLAUDE.md / AGENTS.md などの説明文書はモデルが読み飛ばすことがある。テスト / 型定義はモデルが読まなくても CI で違反を検出できる。

エージェント由来のミスはテストまたはリンタールールで再発防止する。複利効果が大きい。

アンチパターン1：プロンプトに保険文言を増やす

「ダブルチェックしろ」「再確認しろ」系の保険文言は、モデルの内部検証と重複し過剰ループを誘発する。新規ルール / プロンプトには入れない。

アンチパターン2：無限リトライで根本原因を潰さない

停止条件のパターン3で触れたとおり、同じエラーへのリトライは数回で打ち切り、人間にエスカレーションするのが定石だ。リトライを際限なく回すと、LLM の出力品質が落ちるうえ、本来直すべき根本原因が回数の陰に隠れてしまう。

アンチパターン3：検証なき委譲

サブエージェントに任せた結果を検証せずに採用する。サブエージェントの「やったつもり」を信じると、後段で巻き戻し作業が発生する。

委譲したら必ず実行結果（テスト / ログ / 画面）で動作を検証する。

実装フレームワークとの対応

機能	LangGraph	Claude Agent SDK	Claude Code
観測層	State Object	session messages	conversation history
判断層	Node + Conditional Edge	main loop	model + thinking
行動層	Tool Node	tool calls	bash / file ops
停止条件	Conditional Edge	termination	exit / stop signal
Hook 連携	カスタム実装	hooks API	settings.json hooks

LangGraph はループ構造を State Machine で明示できるが学習コストが高い。Claude Agent SDK は中規模、Claude Code は手軽だが自由度が低い。詳細は「LangGraph 実装入門」「マルチエージェント実装ガイド」を参照。

FAQ

Q1. マルチエージェントとの違いは？

ループエンジニアリングは「単一エージェント / 単一ループの安全運用」を扱う設計思想。マルチエージェントは「複数エージェント間の協調 / 分業」を扱う。

両者は補完関係で、マルチエージェントの各サブエージェントもそれぞれループエンジニアリングの対象。詳細は「マルチエージェント実装ガイド」を参照。

Q2. LangGraph / Claude Agent SDK のどちらで実装する？

業務要件次第。

状態遷移が複雑（人間介入 / 分岐多数 / 監査要件高）：LangGraph。State Machine で明示できる
シンプルな実装 / 高速立ち上げ：Claude Agent SDK。Anthropic 公式の SDK
コーディング作業の自律化：Claude Code。エディタ統合と既存 dev tool との親和性が高い

Q3. 停止条件は誰が決める？

業務要件 + 経営判断。技術側だけで決めないこと。

成功条件 → 業務責任者
予算上限 → CFO / 事業責任者
リトライ回数 → SRE / プラットフォームエンジニア
人間エスカレーション基準 → 業務 SOP に従う

Q4. 人間介入はどこに挟む？

3 タイプ：

Approval Gate：副作用の大きい操作（DB 削除 / 大口決済 / 顧客通知）の前に承認を求める
Fallback Gate：エラー / 信頼度低下時に人間に判断を委ねる
Audit Gate：完了後にサンプリングで人間がレビュー

完全自律より、適切に人間介入を挟む方が運用品質は高い。

Q5. 失敗時のロールバック設計は？

3 階層：

State Snapshot：各ノード / ステップ実行前に state を保存。失敗時に巻き戻し可能
Side Effect Compensation：副作用が発生した場合、補償トランザクション（メール取り消し通知 / DB 巻き戻し）を実装
Manual Recovery：完全自動ロールバックが難しい場合、人間オペレーターに「何が起きたか」「どこから再開するか」を提示

FDXのエージェント実装・運用支援

FDX 株式会社は、Forward Deployed Engineer（FDE）+ AX Factory によるエージェント実装・運用伴走を提供する。

ループの 3 層設計と停止条件の業務適合
Hook / pre-commit / CI / 人間レビューの 4 階層ハーネス設計
実装後 6〜12 ヶ月の運用伴走（観測指標 / 改善ループ）
内製エンジニアへの引き継ぎ → 自走化

エージェントは「作って終わり」ではなく、運用しながら改善するソフトウェア。内製運用の引き受け手を最初から決めておくべき（参考：AI 内製化の進め方）。

FDX に AI エージェント実装の相談をする →

出典・参考文献

Anthropic Engineering Blog「Designing Harness for Long-Running Agents」
Andrej Karpathy「LLM as Operating System / Autoresearch」（YouTube 講演）
Stripe Engineering「Lessons from Production LLM Operations」
LangChain Documentation「LangGraph: State Machines for Agents」
OpenAI Cookbook「Agentic Loop Patterns」
ACM Queue「Operating Systems for Foundation Models」
経済産業省「生成 AI ガイドライン」

この​​記事の​​対象読者

ループエンジニアリングとは​​（要点3行）

なぜ2026年に​​自律エージェントの​​運用が​​広がったか

要因1：長尺タスクに​​耐える​​モデルの​​登場

要因2：Anthropic の​​ harness 設計記事

要因3：Karpathy 流 "autoresearch" 思想の​​浸透

ループの​​3層構造

観測層​（Observation Layer）

判断層​（Decision Layer）

行動層​（Action Layer）

停止条件の​​4パターン

パターン1：成功条件達成

パターン2：予算超過​（token / time / cost）

パターン3：検証 fail の​​連続発生

パターン4：外部​​割込み

検証ハーネスの​​階層設計

Tier 1：Hook​（ms）

Tier 2：pre-commit / pre-action​（秒）

Tier 3：CI​（分）

Tier 4：人間レビュー​（時間 / 日）

運用Tipsと​​アンチパターン

Tip 1：ハーネス棚卸し​（四半期）

Tip 2：部​​分成功を​​受容する

Tip 3：説明文書より​​テスト / 型定義で​​情報を​​表現する

アンチパターン1：プロンプトに​​保険文言を​​増やす

アンチパターン2：無限リトライで​​根本原因を​​潰さない

アンチパターン3：検証なき委譲

実装フレームワークとの​​対応

FAQ

Q1. マルチエージェントとの​​違いは？

Q2. LangGraph / Claude Agent SDK の​​どちらで​​実装する？

Q3. 停止条件は​​誰が​​決める？

Q4. 人間介入は​​どこに​​挟む？

Q5. 失敗時の​​ロールバック​設計は？

FDXの​​エージェント実装・運用支援

関連記事