これだけは知っておきたい!データ分析のための統計学超入門
30秒で要点
統計は「難しい公式」より、データの特徴を短く言う言葉として使うと役立ちます。まず押さえるのは次の4つです。
| 用語 | 何を表すか |
|---|---|
| 平均 | 足して割った「だいたいの真ん中」 |
| 中央値 | 並べたとき真ん中の値(外れ値に強い) |
| 標準偏差 | ばらつきの大きさの目安 |
| 相関 | 2つが一緒に増減しやすいか(因果ではない) |
注意 — 平均だけ見る・相関=原因だと思う、は判断ミスの典型です。
代表値:平均と中央値
例:5日間のサイト訪問者数 — 100, 120, 110, 105, 1000(キャンペーン日)
- 平均 ≈ 287人 → キャンペーン日に引っ張られて高く出る
- 中央値 = 110人 → 「ふだんの水準」に近い
| 使うとき | 向いている指標 |
|---|---|
| だいたい全体の水準 | 平均(外れ値が少ないとき) |
| 外れ値がある | 中央値もセットで見る |
→ 平均の罠
ばらつき:標準偏差(かんたんに)
同じ平均100人でも、
- 毎日 95〜105人(安定)
- 50人と200人が交互(不安定)
では意味が違います。標準偏差は「散らばりの大きさ」の目安です。大きいほど、平均だけでは個々の日の実感とずれやすいです。
相関と因果(ここを混同しない)
- 相関 — Aが増えるとBも増えやすい(一緒に動く)
- 因果 — Aが原因でBが変わる
広告費と売上が一緒に増えても、「広告が売上を増やした」とは限りません(繁忙期・値下げ・口コミなど別要因があり得る)。
施策の効果を見るときは、期間・比較対象・分母を決めてから数字を読みます。
実務での使い方(3ステップ)
- 目的を書く — 何を良くしたいか(問い合わせ、滞在、売上など)
- 代表値+ばらつき — 平均と中央値、必要なら標準偏差
- 結論は仮説 — 「たぶん〇〇」→ 次の小さな検証
チェック(はい/いいえ)
- [ ] 平均だけで代表と言っていないか
- [ ] 相関を「原因」と言い切っていないか
- [ ] 見ている数字の期間・分母を説明できるか