t 検定|使い方・前提・例題・代替手法までわかる実務ガイド
「t検定を活用したいが、どう判断すればいいかわからない」
そのとき多くの人は、独立サンプルt検定、対応のあるt検定、Welchのt検定、p値、効果量など「技術」を学ぶことから始めます。
もちろん技術は重要です。
ただ実務では、技術以前に「前提(目的・戦略・判断軸)」が設計されていないことで、何を学んでも噛み合わない状態になっているケースが少なくありません。
何のためにt検定を活用するのか(目的)
どこで勝つのか(戦略)
何を見て良し悪しを判断するのか(判断軸)
ここが曖昧だと、t検定の活用が「作業」になりやすく、改善の方向性もブレます。
結果として、t検定を活用しても成果が出ない、改善施策を打っても成果が出ない、といったズレが起きやすくなります。
意思決定で「差があるのか」を手早く確認する定番が t 検定です。ただし、正規性や等分散の前提を無視すると誤結論に至りがち。本記事は、現場で迷わないためのチェックリストつき実務ガイドです。
※この記事は、t検定を理解し、判断に活用する方向けです。即効性を求める方や、すでに前提設計が明確な方には、より具体的な実践記事をおすすめします。
この記事を読む前に
この記事では、統計学の基礎知識があることを前提としています。以下の記事を事前に読んでおくと、より深く理解できます:
TL;DR
- 目的: 2 群の平均差の有無を判定
- 手順: 前提(正規・等分散)→ 検定(Welch 含む)→ p 値 + 効果量 d
- 注意: 多重比較は調整、非正規/非等分散は代替法(Mann–Whitney/Welch)
まずはここだけ(やさしい導入)
- 何をする?: 2 つのグループで「平均に差があるか」を確かめる
- いつ使う?: A/B テストや施策の効果比較、前後の変化確認
- どう読む?: p 値で“差の有無”、Cohen's d で“差の大きさ”
用語ミニ辞典(1 行で)
- 正規性: データの形が“なだらかな山”に近いかどうか
- 等分散: 2 つのグループで“ばらつきの大きさ”が似ているか
- 効果量 d: “どれくらい違うか”の尺度(0.2=小、0.5=中、0.8=大の目安)
t 検定とは(直感的理解と使いどころ)
- 平均の差を検証する統計的手法。サンプルサイズが小さくても利用可能。
- ユースケース: A/B テスト、施策効果検証、品質管理、教育/医療の前後比較 など。
適用の前提(正規性・等分散・独立)
- 正規性: シャピロ–ウィルク検定、QQ プロット、歪度/尖度、サンプルサイズも考慮。
- 等分散: Levene/Brown–Forsythe。満たされない場合は Welch t 検定。
- 独立性: 実験計画・ランダム化・交絡要因のコントロール。
種類と選択
- 1 標本 t 検定: 既知の基準値との比較。
- 独立サンプル t 検定: 2 群の平均差(被験者が別)。
- 対応のある t 検定: 同一被験者の前後比較(差分の正規性に注意)。
手順(例題つき)
- 仮説設定: H₀: 平均差=0、H₁: 平均差 ≠0(または片側)。
- 前提確認: 正規性・等分散・外れ値・欠測値処理を先に。
- 検定実行: 適切な t 検定を選択(Welch 含む)。
- 解釈: p 値に加え、効果量 Cohen's d と 95%CI を併記。
- レポート: 前提検証・方法・結果・限界・実務示唆を明記。
身近なたとえ
2 種類のコーヒー豆 A/B を同じ条件で淹れて「おいしさスコア」を付けたとします。平均点の差が“たまたま”ではなさそうかを確かめるのが t 検定です。
ミニ例題(独立サンプル t 検定)
| 被験者 | 豆 A | 豆 B |
|---|---|---|
| 1 | 72 | 78 |
| 2 | 65 | 70 |
| 3 | 80 | 82 |
| 4 | 75 | 77 |
| 5 | 68 | 74 |
平均の差 ≈ 4.4。分散が異なりそうなら Welch を選択します。
Python 最小コード
import numpy as np
from scipy import stats
A = np.array([72,65,80,75,68])
B = np.array([78,70,82,77,74])
# Welch t検定(等分散を仮定しない)
t, p = stats.ttest_ind(A, B, equal_var=False)
print("t=", round(t,3), "p=", round(p,4))
# 効果量 Cohen's d(独立)
pooled_sd = np.sqrt(((A.std(ddof=1)2)+(B.std(ddof=1)2))/2)
d = (A.mean()-B.mean())/pooled_sd
print("Cohen's d=", round(d,2))
読み方の目安:
- p < 0.05 → 統計的には“差がある”と判断(実務意義は別途検討)
- d ≈ 0.2/0.5/0.8 → 小/中/大 効果とされることが多い
可視化(分布・箱ひげ・平均 ±CI)
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
# A, B は前掲の配列を利用
fig, axes = plt.subplots(1,3, figsize=(10,3))
# 1) ヒスト(重ね描き)
axes[0].hist(A, bins=5, alpha=0.6, label='A')
axes[0].hist(B, bins=5, alpha=0.6, label='B')
axes[0].set_title('Histogram')
axes[0].legend()
# 2) 箱ひげ
axes[1].boxplot([A, B], labels=['A','B'])
axes[1].set_title('Boxplot')
# 3) 平均 ± 95%CI(正規近似)
means = [A.mean(), B.mean()]
ses = [A.std(ddof=1)/np.sqrt(len(A)), B.std(ddof=1)/np.sqrt(len(B))]
cis = [1.96ses[0], 1.96ses[1]]
axes[2].errorbar([0,1], means, yerr=cis, fmt='o', capsize=4)
axes[2].set_xticks([0,1]); axes[2].set_xticklabels(['A','B'])
axes[2].set_title('Mean ± 95% CI')
plt.tight_layout(); plt.show()
よくある実務の判断
- p は有意だが d が極小 → 施策効果は小さい可能性、費用対効果で再考
- p は有意でないが CI が広い → データ不足。追加サンプルを検討
実務ケーススタディ(A/B テストの完全手順)
ここでは「ボタン色の変更で 1 セッションあたり売上が増えるか」を検証します。
- 目的と仮説
- 目的: 平均セッション売上(円)の増加を確認
- 仮説: H₀(帰無)= 平均差 0、H₁(対立)= 平均差 ≠ 0(両側)
- データ設計と前処理
- 無作為割付(A: 旧色、B: 新色)。A/B で期間・流入・端末などを均衡化
- 外れ値: 不正注文・異常セッションを事前ルールで除外
- 欠測: ドロップか、定義に合わせた補完(できればドロップ)
- 前提の確認
- 正規性: サンプルが十分なら中心極限定理で厳密性は緩むが、QQ プロットで極端な歪みを確認
- 等分散: Levene で検査。ダメなら Welch を採用
- 検定と効果量
- Welch の t 検定で p を算出
- Cohen's d と 95%CI を併記(大小と不確実性を同時に提示)
- 意思決定(実務)
- p < 0.05 かつ d ≥ 0.3 程度なら「施策小~中効果」で試験導入
- d が小(<0.2)でも、実装コストが極小なら導入余地あり
- 不確実性(CI)が広い場合は追加検証(期間延長・再テスト)
import numpy as np
from scipy import stats
np.random.seed(0)
A = np.random.normal(1200, 300, size=120) # 旧色
B = np.random.normal(1280, 310, size=118) # 新色
# 等分散検定(Levene)
print('Levene p=', stats.levene(A, B).pvalue)
# Welch t検定
t, p = stats.ttest_ind(A, B, equal_var=False)
print('Welch t=', round(t,2), 'p=', round(p,4))
# 効果量 d と 95%CI(簡易)
sd_pooled = np.sqrt(((A.std(ddof=1)2)+(B.std(ddof=1)2))/2)
d = (A.mean()-B.mean())/sd_pooled
print("d=", round(d,2))
検出力(パワー)とサンプルサイズ(やさしい目安)
検出力とサンプルサイズの設計は、A/Bテストや実験の成功に不可欠です。p値が0.05を越えた時、それが「本当に差がない」からなのか、「データが少なくて気づけない」からなのかを切り分けるために必要です。例えば、サンプルサイズが小さすぎる場合、実際には差があるにもかかわらず、統計的に有意な結果が得られない可能性があります。
MDES(最小検出効果量)から決める方法も有効です。たとえば「平均の差 100 円以上なら採用したい」など、実務的な最小効果を先に決めることで、必要なサンプルサイズを適切に設定できます。この方法により、ビジネス的に意味のある効果を確実に検出できるようになります。
目標検出力 80%、有意水準 5%、効果量 d のとき、各群の目安サンプル数 n は概ね次のイメージです(粗い近似)。
- d=0.2(小)→ n ≈ 400 前後/群
- d=0.3(小~中)→ n ≈ 175 前後/群
- d=0.5(中)→ n ≈ 65 前後/群
- d=0.8(大)→ n ≈ 26 前後/群
実務では G\Power 相当の計算や statsmodels を推奨します。
# 例: statsmodels でのパワー計算(インストールが必要)
from statsmodels.stats.power import TTestIndPower
analysis = TTestIndPower()
print(analysis.solve_power(effect_size=0.3, power=0.8, alpha=0.05, alternative='two-sided'))
練習問題(理解を定着)
- 独立 2 群(A=30、B=28)。等分散は疑わしい。どの検定を選ぶ?
- ヒント: Levene の結果が有意 → Welch
- 対応あり(施策前後の同一ユーザー 20 名)。正規性が弱い。どうする?
- ヒント: Wilcoxon 符号付き順位検定
- p は 0.03 だが d=0.12。どう解釈し、どう意思決定する?
- ヒント: 統計的有意 ≠ 実務的有意。コストと便益で判断
- Welch の t 検定。分散が異なるときの頑健な選択。
- 正規性が弱い対応ありは Wilcoxon を第一候補(もしくはトランスフォーム/ロバスト手法)。
- 効果量が極小。導入コストが高いなら見送り。低コストなら限定導入+追加検証。
よくある誤解とその構造
t検定を活用する際、「手法を選べば成果が出る」という誤解が生じやすいです。具体的には「t検定を活用すれば成果が出る」「p値 < 0.05 なら効果がある」「正規性を満たさなくてもt検定を使える」といった形で現れます。
なぜこの誤解が生じるのか
これらの誤解は、「手法の選択」と「前提設計」の関係を逆転させて考えることで生じます。
多くの解説では、手法の選択(t検定の適用、p値の解釈、前提条件の確認など)が重要であることが強調されます。確かに手法の選択は重要です。しかし、手法の選択が先に来るのではなく、「何を達成したいのか」「どこで勝つのか」「何を見て良し悪しを判断するのか」という前提設計が先にあるべきです。
前提設計が明確でない状態で手法を選んでも、どれを選んでも効果が発揮されにくい傾向があります。なぜなら、手法は「手段」であり、目的が明確でなければ、手段の選択基準が曖昧になるからです。
判断の構造を可視化する
t検定を活用する際の判断プロセスを整理すると、以下のようになります:
- 前提設計(目的・戦略・判断軸の明確化)
- 何を達成したいのか(2群の平均差の検証?効果量の評価?)
- どこで勝つのか(どの群を比較するのか)
- 何を見て良し悪しを判断するのか(p値?効果量?実務的意義?)
- データの明確化(分析対象の特定)
- どのデータを分析するのか
- データの種類と品質はどうか
- 前提条件の確認(前提設計に基づく確認)
- 正規性、等分散、独立性の確認
- 前提が満たされない場合は適切な代替法を検討
- 手法の選択(前提設計に基づく選択)
- 独立サンプルt検定/対応のあるt検定の選択
- 前提が満たされない場合の代替法の選択(Welch t検定、ノンパラメトリック検定など)
- 解釈と活用(実務での活用)
- p値と効果量(Cohen's d)を併記
- 実務的意義と併せて判断
この順序を逆転させると、手法の選択が目的化し、成果につながりにくくなります。
実務で見落とされがちな点
前提設計が欠落している場合、以下のような問題が起きやすいです:
- t検定を活用しても成果が出ない
- 改善施策を打っても成果が出ない
- 改善の方向性がブレる
これらの問題は、手法の選択ではなく、前提設計の欠落が原因である可能性が高いです。
また、p値のみで判断してしまう誤解も生じやすいです。p値は「帰無仮説が真のときにこれほどまたはそれ以上の極端な結果が観察される確率」であり、「効果が真である確率」ではありません。p値は「差の有無」を示しますが、「差の大きさ」を示すものではありません。効果量(Cohen's d)で「差の大きさ」を評価する必要があります。
一般的に語られるt検定の考え方
t検定について、多くの場合、以下のような考え方が語られます。ただし、これらは一般的な傾向であり、すべてのケースに当てはまるわけではありません。
t検定の重要性
t検定は、2つのグループの平均値に差があるかを検証する統計的仮説検定の手法として重要とされています。A/Bテストや施策効果検証、品質管理、教育/医療の前後比較などでよく使われ、サンプルサイズが小さくても利用可能とされています。
判断の軸:
- 自社の目的(何を達成したいか)に照らして、どのt検定が重要か
- 自社のリソース(時間・予算・人材)に照らして、どのt検定が現実的か
- 自社のターゲット顧客に照らして、どのt検定が有効か
実務視点で見ると見落とされがちな点
一般的な考え方とは別に、実務では以下の点が見落とされがちです。ただし、これらもすべてのケースに当てはまるわけではありません。
前提設計の欠落
t検定で成果が出ない最大の原因は、手法の選択ではなく、前提設計(目的・戦略・判断軸)の欠落である可能性が高いです。
何が起きるか:
- t検定を活用しても成果が出ない
- 改善施策を打っても成果が出ない
- 改善の方向性がブレる
判断の軸:
- 目的(何を達成したいか)が明確か
- 戦略(どこで勝つか)が決まっているか
- 判断軸(何を見て良し悪しを判断するか)が設定されているか
多重比較の問題
複数の仮説を同時に検定する際に有意水準を調整しないと、検定数が増えるほど、少なくとも 1 つの偽陽性結果を得る確率が上昇する可能性があります。ボンフェローニ補正やホルム補正などの多重比較調整法の適用が重要とされています。
効果量の無視
統計的有意性のみを重視し、効果の大きさを考慮しないと、大きなサンプルサイズでは、ビジネス的に意味のない小さな差も統計的に有意になりうる可能性があります。常に効果量(Cohen's d、オッズ比、リスク比など)を併せて報告することが重要とされています。
代替手法(状況別)
- 非等分散: Welch t 検定
- 非正規/順序: Mann–Whitney U、Wilcoxon 符号付き順位
- 3 群以上: 一元配置分散分析(ANOVA)+事後検定
- 比率比較: 2 比率の差の検定、カイ二乗検定
5分診断:t検定を活用する前に確認すべきこと
t検定を活用する前に、以下の診断で自社の状況を確認することが有効な場合があります。
Q1:前提設計(目的・戦略・判断軸)が明確か?
- Yes → Q2へ
- No → 前提設計を明確にする(t検定活用の目的、どの指標を重視するか、何を見て良し悪しを判断するか)
Q2:仮説(検証したい仮説)が明確か?
- Yes → Q3へ
- No → 仮説を明確にする(帰無仮説と対立仮説の設定、検証したい仮説の具体化)
Q3:継続的な改善(効果測定・改善サイクル)ができているか?
- Yes → 次のステップへ
- No → 継続的な改善の仕組みを作る(効果測定、改善サイクル、次の施策の決定)
診断結果に基づく次のアクション:
- Q1がNoの場合:前提設計を明確にする(t検定活用の目的、どの指標を重視するか、何を見て良し悪しを判断するか)
- Q2がNoの場合:仮説を明確にする(帰無仮説と対立仮説の設定、検証したい仮説の具体化)
- Q3がNoの場合:継続的な改善の仕組みを作る(効果測定、改善サイクル、次の施策の決定)
実務チェックリスト(保存版)
- 研究質問と意思決定の紐付けが明確か
- 前提(正規性・等分散・独立)を検証したか
- 効果量・信頼区間を併記したか
- 多重比較/データ駆動探索の扱いを区別したか
- 実務的意義・費用対効果で結論づけたか
よくある質問(FAQ)
Q1. t検定とは何ですか?
A. t検定は、2つのグループの平均値に差があるかを検証する統計的仮説検定の手法です。A/Bテストや実験でよく使われます。
種類:
- 独立2群のt検定:2つの独立したグループの平均値を比較
- 対応ありのt検定:同じ対象の前後の平均値を比較
- Welchのt検定:分散が異なる場合に使用
Q2. 正規性が微妙な小標本の場合、どうすればいいですか?
A. 正規性が微妙な小標本の場合は、以下のアプローチを検討します:
- ノンパラメトリック検定:Mann–Whitney U検定やWilcoxon符号付き順位検定を使用
- ブートストラップ:ブートストラップ法で信頼区間を計算
- データ変換:対数変換などで正規性を改善
Q3. 片側検定は使ってよいですか?
A. 片側検定は、事前に「方向」が明確な仮説で、意思決定が片側基準であるときのみ使用します。
例:
- 片側検定が適切:「新施策は既存施策より良い」という仮説
- 両側検定が適切:「新施策と既存施策に差がある」という仮説
Q4. 効果量d=0.3は小さいですか?
A. 効果量d=0.3は、文脈によって判断が異なります。顧客規模、実装コスト、代替施策と合わせて判断します。
目安:
- d=0.2:小さい効果
- d=0.5:中程度の効果
- d=0.8:大きい効果
ただし、ビジネスへの影響を考慮して判断することが重要です。
Q5. t検定を学ぶのに必要な知識は?
A. t検定を学ぶのに、基本的な統計学の知識(平均、標準偏差、正規分布、仮説検定など)があると理解が深まりますが、必須ではありません。
この記事で紹介している基礎知識から始めて、段階的に理解を深めていくことができます。
次に読むおすすめの記事
t検定について理解を深めたら、以下の記事も参考にしてください:
より深く学ぶ
- 統計的仮説検定入門:仮説検定の基礎知識とt検定の位置づけ
- A/Bテストのための統計学:t検定をA/Bテストで活用する方法
- 分散分析(ANOVA)実践ガイド:3つ以上のグループを比較する方法(t検定の発展形)
実践的な活用
- コンバージョン率最適化ガイド:t検定をコンバージョン最適化で活用する方法
- データドリブンUX改善ガイド:t検定をUX改善で活用する方法
- データドリブンマーケティング完全ガイド:t検定をマーケティングで活用する方法
関連する基礎知識
- 統計学超入門:統計学の基礎知識
- データ分析とは?超初心者向け完全ガイド:データ分析の基礎知識
関連記事と次の一歩(旧)
t検定の実務での要点
t検定は、2つのグループの平均値に差があるかを検証する統計的仮説検定の手法です。A/Bテストや施策効果検証、品質管理、教育/医療の前後比較などでよく使われます。
ただし、これらは一般的な傾向であり、すべてのケースに当てはまるわけではありません。状況に応じて、複数の視点から検討し、最適な方法を見つけることが重要です。
判断の軸
t検定を活用する際は、以下の判断軸を参考にすることが有効な場合があります:
- 前提設計(目的・戦略・判断軸)が明確か
- 仮説(検証したい仮説)が明確か
- 継続的な改善(効果測定・改善サイクル)ができているか
ただし、これらは一般的な傾向であり、すべてのケースに当てはまるわけではありません。状況に応じて、複数の視点から検討し、最適な方法を見つけることが重要です。
重要なポイント
実務チェックリスト:
- 研究質問と意思決定の紐付けが明確か
- 前提(正規性・等分散・独立)を検証したか
- 効果量・信頼区間を併記したか
- 多重比較/データ駆動探索の扱いを区別したか
- 実務的意義・費用対効果で結論づけたか
次のステップ
今回紹介した考え方は、あくまで一つの視点です。重要なのは、自社の状況・リソース・目的に照らして、どこを採用し、どこを捨てるかを考えることです。
「正解」は存在しませんが、「自社にとって可能性が高い選択肢」を複数の視点から検討し、検証を繰り返すことで、成果につながる可能性があります。
具体的には、以下のステップを検討することが有効な場合があります:
- 前提設計(目的・戦略・判断軸)を明確にする
- 診断フローで自社の状況を確認する
- 仮説設定:H₀: 平均差=0、H₁: 平均差 ≠0(または片側)
- 前提確認:正規性・等分散・外れ値・欠測値処理を先に
- 検定実行:適切な t 検定を選択(Welch 含む)
- 解釈:p 値に加え、効果量 Cohen's d と 95%CI を併記
- レポート:前提検証・方法・結果・限界・実務示唆を明記
はじめて取り組む方へ(補足)
t検定は、最初から完璧を目指すよりも、目的→判断軸→小さな検証の流れを一度回してみる方が前に進みやすいです。まずは自社にとって重要度が高い論点を1つだけ選び、身近なデータで小さく試してみてください。
重要なのは、「正解」を探すのではなく、「自社にとって可能性が高い選択肢」を複数の視点から検討し、検証を繰り返すことです。
参考資料・引用元
- Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences.
- G\Power ユーザーガイド(サンプルサイズ設計)
- 日本統計学会「統計検定」関連資料
t検定・統計的検定についてのご相談はこちら