数量化 Ⅰ 類|カテゴリ説明変数で連続目的を予測(スコア化の実務)
名義カテゴリをスコア化して回帰に適用します。ダミー回帰との関係を意識すると理解が進みます。
まずはここだけ(やさしい導入)
- 何をする?: 名義カテゴリ(例: 色、ブランド)にスコアを付けて回帰に使う
- いつ使う?: ダミーが増えすぎるときの圧縮、カテゴリ水準の“良さ”の比較
- どう読む?: 水準スコアの大小と符号(基準との差)を解釈
用語ミニ辞典(1 行で)
- カテゴリスコア: 各水準に付与する数値(学習で推定)
- 制約: スコアの合計=0 など、同定のための条件
- 交差検証: 過学習を防ぐ評価の仕組み
ミニコード(概念的)
# 実務は専用ライブラリや正則化を推奨(ここでは概念説明に留めます)
実務ケーススタディ(カテゴリ水準の“良さ”比較)
目的: カラー/ブランド/チャネルが売上に与える寄与を水準ごとに比較したい。
- 設計
- カテゴリを特徴量に。基準水準を決め、他水準のスコアを推定
- 推定
- 交差検証で正則化を選び、過学習を抑制
- 解釈
- 正のスコアは基準よりプラス寄与、負はマイナス寄与
練習問題(理解を定着)
- 水準が 20 以上あるカテゴリがある。どう対処?
- ヒント: まとめる/頻度が少ない水準を統合、正則化を強める
- スコアの合計制約はなぜ必要?
- ヒント: 同定のため。任意の定数分だけズレても同じモデルになるため
- ダミー回帰との違いは?
- ヒント: 本質的に近い。読みやすさ/圧縮や制約の扱いが異なる
ポイント
- カテゴリの水準ごとにスコアを推定
- 多水準の扱いと過学習に注意(正則化・交差検証)
数量化理論Iについてのご相談はこちら