p値の誤解:有意差が出ても売上が増えない理由
ありがちな言い回し:「p<0.05だから効果がある。リリースしてよい。」「有意差が出たからこの変更が効いている。」
現場では、p値が小さい=効果があると短絡しがちです。p値は「差が偶然である確率」の指標であり、効果の大きさや売上・ビジネスへの影響は別です。有意差が出ても、売上が増えない・実務で意味の小さい差であることはよくあります。
この記事の仮説:「有意かどうか」だけで判断せず、p値・効果量・信頼区間をセットで見る習慣があると、施策評価の判断が壊れにくくなる。
この記事が想定する読者:A/Bテストや施策評価で「p<0.05=効果あり」と短絡しがちな方。有意差と効果の大きさ・ビジネスインパクトを区別したい担当者。
判断を誤るとどうなるか:有意差が出ただけで採用すると、売上に効かない・意味の小さい差を本番投入しがち。有意かどうか(p値・信頼区間)を確認したうえで効果量を見て、ビジネス上の意味まで言語化してから判断すると壊れにくくなります。
この記事でわかること
- p値・有意差とは何か、なぜ「p<0.05=効果あり」は誤解か
- 効果量・信頼区間をなぜセットで見るか(数値例つき)
- 施策の採用・不採用で、何を確認してから判断するか(判断の順序とテンプレ)
1. ありがちな誤解(現場で起きる言い回し)
- 「p<0.05だから効果がある。採用してよい。」
- 「有意差が出たから、この変更が効いている。」
- 「有意だから、売上に効くはずだ。」
- 「p値が小さいほど、効果が大きい。」
いずれも、p値の意味と効果の大きさ・ビジネスインパクトを混同している可能性が高いです。
2. 何が間違いか(直感と数式のズレ)
p値は「差が偶然である確率」であって「効果の大きさ」ではない
- p値:帰無仮説(「差がない」という仮定)が正しいと仮定したとき、今回観測されたような差(またはそれ以上に極端な差)が偶然得られる確率。
「差が偶然である確率が5%未満」という意味であり、「効果がビジネス的に意味がある」ことの保証ではない。
- 効果の大きさ(Effect Size):差の絶対的な大きさ(例:CVRの差が0.5%か2%か)。ビジネスインパクトは、この「大きさ」と母数・単価などで決まる。
- サンプルが非常に多いと、ごく小さな差でもp値は小さくなり「有意」になる。逆に、サンプルが少ないと、本当は差があっても有意にならない。
有意差=売上増ではない
- 有意差は「偶然では説明しにくい差がある」という統計的な結論。
売上・コンバージョン・離脱率などへの実務的な影響は、効果量・母数・コストとあわせて別に判断する。
- 具体例(数字で考える):A/BテストでCVRの差が0.1%で有意(p<0.05)だったとします。しかし月間セッションが1万件なら、0.1%差はコンバージョン数にして月に約10件程度。工数やリスクを考えると「有意だが採用しない」判断の方がよいことがあります。p値だけ見ると「効果あり」と判断しがちですが、効果量(0.1%差)と母数(1万件)をセットで見ると、ビジネスインパクトが小さいと分かります。
「p値が小さい=効果が大きい」ではない
- p値の大きさと効果の大きさは対応しない。
効果が大きくてもサンプルが少ないとp値は大きくなり、効果が小さくてもサンプルが多ければp値は小さくなる。
- 判断ではp値と効果量・信頼区間をセットで見る必要がある。
3. 何をすれば良いか(判断基準・必要データ・見方)
p値とセットで見るもの
- 効果量:差の絶対値(例:CVR 0.5%差)。「有意かどうか」と「どれくらいの差か」を分けて見る。
- 信頼区間:差の推定範囲(例:95%信頼区間が [0.1%, 1.0%])。不確実性の大きさが分かる。区間に0が含まれていなければ有意と一致する。
- 母数・ビジネス換算:効果量×母数で、売上・コンバージョン数などへの影響を概算する。実務で「効く」かどうかはここで判断する。
判断の順序
- 有意かどうか(p値・信頼区間に0が含まれるか)を確認する。
- 効果量を確認し、「どれくらいの差か」を言語化する。
- ビジネス上の意味(売上換算・工数対効果・リスク)を考え、採用するかどうかを決める。
「有意だから採用」で止めず、有意+効果量+ビジネス意味まで見る。
避けること
- p値だけを見て判断しない:効果量・信頼区間を省略しない。
- 「有意=実務で効く」と短絡しない:効果量が小さければ「有意だが採用しない」があり得る。
- p値の大小で「効果の大小」を語らない:効果の大小は効果量で見る。
4. 最小検証テンプレ(誰でも再現できる)
1つだけやるなら:有意かどうかを報告するときに 「差の大きさ(効果量)を1行書く」。例:「CVR差 0.3%、95%信頼区間 [0.1%, 0.5%]」。p値と効果量をセットで記録する習慣にする。
もう1つやるなら:「この差がそのまま売上(または主指標)に効いたとき、どれくらいのインパクトか」を1文で書く。母数と単価が分かれば概算できる。実務で採用するかどうかの判断材料になる。
テンプレ例(判断ログ用)
- p値:[ ]
- 差(効果量):[ 例:CVR 0.3%差 ]
- 差の95%信頼区間:[ ]
- ビジネス上の意味(一言):[ 例:月間CV 約+30件 ]
- 採用判断:[ 採用 / 不採用 / 継続テスト ]
よくある質問(FAQ)
p値とは、一言でいうと何ですか?
「差がない」と仮定したときに、今回のような差が偶然得られる確率です。p<0.05は「その確率が5%未満」という意味であり、「効果が大きい」「ビジネス的に効く」ことの保証ではありません。
有意差が出たのに、なぜ「採用しない」判断があり得るのですか?
有意差は「偶然では説明しにくい差がある」という統計的な結論です。効果の大きさ(差が0.1%なのか2%なのか)や母数(セッション数・売上規模)によって、実務でのインパクトは変わります。効果量が小さく、工数やリスクを考えると「採用しない」方がよい場合は、有意でも不採用を選びます。
効果量はどう見ればよいですか?
差の絶対値(例:CVR 0.3%差)と、95%信頼区間(差の推定範囲)をセットで見ます。信頼区間に0が含まれていなければ有意と一致します。効果量×母数で、売上・コンバージョン数への影響を概算すると、採用するかどうかの判断材料になります。
p値と効果量、どちらを先に確認すべきですか?
有意かどうか(p値・信頼区間)を確認したうえで、効果量を確認し、「どれくらいの差か」を言語化する順序を推奨します。有意だから採用、で止めず、効果量とビジネス上の意味まで見てから判断すると、判断が壊れにくくなります。
本記事はp値の誤解と効果量(有意差とビジネスインパクトの区別・判断の型)に特化しています。実際の解釈や採用判断は目的・リスク許容により異なるため、統計で判断を壊さない・サンプルサイズの罠・A/Bテストのための統計学とあわせて自社の前提に合わせた判断をおすすめします。
判断の土台として押さえておくこと
- p値は「差が偶然である確率」であり効果の大きさではない:有意差と効果量・信頼区間をセットで見る。有意だから採用で止めず、効果量とビジネス上の意味まで見てから判断する。
- 効果量×母数でインパクトを概算する:採用するかどうかの材料にする。
- 次の一手:現場で壊れる統計ミス一覧は統計で判断を壊さない(検証の型)、サンプルサイズはサンプルサイズ・A/Bテストの罠、仮説検定の基礎は統計的仮説検定入門を参照する。
関連記事
- 統計的仮説検定入門 — 仮説検定とp値の基礎
- サンプルサイズ・A/Bテストの罠 — 「勝った気になる」原因と対処
- 統計で判断を壊さない(検証の型) — 現場で壊れる統計ミス一覧
- CROの進め方|何から検証するべきか — 検証の順序と判断軸
- A/Bテストのための統計学