AI運用のKPI設計
品質と生産性を両立する「事故率」と「学習率」の測り方
AIを導入しても、成果が出ない現場には共通点があります。
- 速くなった気はする
- でも品質が安定しない
- レビューが重い
- 結局、人が全部書いた方が早い日がある
- そのうち使われなくなる
ここで必要なのは、気合でもプロンプトでもなく KPI です。
AI運用の目的は「生成」ではなく
品質を落とさずに、判断と制作を前に進めること
だから測るべきは2つだけです。
| 軸 | 内容 |
|---|---|
| 事故率(品質) | 信頼を削る問題が減っているか |
| 学習率(改善) | 同じ事故を繰り返していないか |
この記事では、現場で回る最小のKPIセットを提示します。
この記事が想定する読者:AIを導入したが「速くなった気はするが品質が安定しない」「結局使われなくなる」現場の担当者。運用改善を数字で見る判断軸がほしい方。
判断を誤るとどうなるか:生成量や体感だけで評価すると品質低下や事故を見逃し、使われなくなる。事故率(リードタイム・差し戻し・重大事故・要確認タグ・公開後修正)と学習率(例外集)の6つを週次で見ると失敗しにくい。
結論:KPIは「6つ」で十分(まずはこれだけ)
AI運用のKPIは、盛ると破綻します。
最初はこの6つだけで十分です。
| # | KPI | 目的 |
|---|---|---|
| 1 | 公開までのリードタイム | 生産性 |
| 2 | 差し戻し回数 | レビュー負荷 |
| 3 | 重大事故率 | 信頼毀損の防止 |
| 4 | 要確認タグ残存率 | 照合の徹底 |
| 5 | 公開後の修正件数 | 運用品質 |
| 6 | 例外集の蓄積数 | 学習の可視化 |
この6つは、互いに矛盾しません。
むしろセットで見ることで「速さ優先で崩壊」を防げます。
1) 公開までのリードタイム(生産性)
定義
- 企画開始 → 公開完了までの時間
(または、下書き開始→公開でもOK)
目的
- AIで短縮できているかを見る
- ただし短縮だけを追うと品質が壊れるので、他KPIとセット運用
目安
- まずは 20〜30%短縮を狙う(いきなり半分は無理が出やすい)
2) 差し戻し回数(レビュー負荷)
定義
- レビューで「修正して戻す」回数(1本あたり)
目的
- 文章の品質が"生成段階"で安定しているかを見る
- 差し戻しが多い=前提が揃ってない/例外が未整備のサイン
補助指標(おすすめ)
差し戻し理由を3分類する
| 分類 | 内容 |
|---|---|
| 事実・条件ミス | 危険 |
| 構成・分かりにくさ | 改善可能 |
| トーン・表現 | ルールで減らせる |
前提や例外の整備は、AIは優秀な新人と例外集の作り方で扱っています。
3) 重大事故率(信頼を守る最重要KPI)
定義(例)
「重大事故」に該当した件数 / 公開本数
重大事故の定義(汎用)
- 価格・規約・条件の誤り
- 出典なしの数値で断定
- 禁止領域(法務/医療/金融等)の断定
- 公開不可情報の記載
- 誇大・保証表現
重大事故率は"ゼロを目指す"KPIです。
ここは妥協しない。
権限設計(どこまでAIに任せるか)が崩れていると重大事故が増えます。AIに任せる範囲の決め方でLv3(確定・約束)は人が握る設計を解説しています。
4) 要確認タグ残存率(照合プロセスが回っているか)
背景
前提設計やAI時代の文章品質管理で出した「要確認タグ」は、事故を止める安全装置です。定義
- 要確認タグが付いた箇所のうち、公開前に照合されて外れた割合
(逆に言えば、残ったまま公開されていないか)
目的
- "確認工程"が形骸化していないかを見る
- ここが崩れると重大事故率が上がります
5) 公開後の修正件数(運用品質の最終結果)
定義
公開後に修正・訂正が必要になった件数 / 公開本数
目的
- 実際に事故が外に出ていないかを確認
- 修正の理由を分類すると改善が早い
| 理由 | 例 |
|---|---|
| 事実誤り | 価格・条件の誤り |
| 表現の誤解 | 読まれ方のズレ |
| 情報の古さ | 更新遅れ |
6) 例外集の蓄積数(学習率)
定義
- 新規に追加された例外カード数(週次/月次)
目的
- 事故が資産化されているかを見る
- 例外集が増えるほど、差し戻しと重大事故が減るのが理想
注意
- ただ増えるのが良いわけではない
- 同じ類型の例外が増えてきたら統合(月1棚卸し)
例外集の作り方と運用は、例外集の作り方【汎用版】で解説しています。
KPIの見方:バランスが崩れたときの診断表
AI運用は、KPIの"組み合わせ"で健康状態が分かります。
ケースA:リードタイム短縮したが、重大事故が増えた
- → 権限設計が崩れている(Lv3をAIにやらせている)
- → 要確認タグ運用が抜けている
- → 一次情報が固定されていない
ケースB:差し戻しが減らない
- → 前提ドキュメントが薄い
- → 質問テンプレが機能していない
- → 例外集が整備されていない
ケースC:公開後修正が多い
- → 更新日の管理が弱い(最新性の問題)
- → 数値・条件の照合が甘い
- → "要確認タグ"が残ったまま公開されている
運用を回す「週次15分」テンプレ
KPIは見ないと意味がありません。
でも重くすると回りません。
週次15分で十分です。
週次チェック(15分)
| 項目 | 記録 |
|---|---|
| 公開本数 | ____ |
| 平均リードタイム | ____ |
| 差し戻し平均 | ____ |
| 重大事故 | 0/1/2… |
| 要確認タグ照合率 | ____ |
| 公開後修正 | ____ |
| 例外集追加 | ____ |
| 今週の改善アクション(1つだけ) | ____ |
例:改善アクション
- 価格表現の例外カードを追加
- 要確認タグ運用を徹底(担当固定)
- 一次情報の入口を統合
改善アクションは"1つだけ"。
これが積み上がると強い運用になります。
まとめ:AI運用は「生成量」ではなく「事故率と学習率」
AI活用を成功させるのは、才能やモデルではありません。
運用が改善しているかを測れることです。
- 速さ(リードタイム)
- 安定(差し戻し)
- 信頼(重大事故)
- 照合(要確認タグ)
- 実績(公開後修正)
- 学習(例外集)
この6つを回すだけで、AIは"便利"から"戦力"になります。
判断の土台として押さえておくこと
- 測るのは「事故率」と「学習率」の2軸:6KPI(リードタイム・差し戻し・重大事故率・要確認タグ残存率・公開後修正・例外集蓄積)で十分。盛ると破綻するのでまずはこれだけ。
- 週次15分で記録し、改善アクションは1つに絞る:公開本数・平均リードタイム・差し戻し平均・重大事故・要確認タグ照合率・公開後修正・例外集追加を追い、今週の改善を1つ決める。
- 次の一手:品質の4原則はAI時代の文章品質管理、レビュー設計はAIレビューの設計、権限設計はAIに任せる範囲の決め方、例外集は例外集の作り方を参照する。
品質を仕組みで守る4原則はAI時代の文章品質管理、レビューを3層・要確認タグ・コメントの型で設計する方法はAIレビューの設計で解説しています。どこまで任せるかはAIに任せる範囲の決め方、例外の資産化は例外集の作り方【汎用版】で解説しています。