|
それでは、主成分分析から始めましょう。
(1)主成分分析
主成分分析は一言でいうと「情報を要約する統計学的手法」です。どんなイメージかは、上のアニメーションでつかめたかと思います。
計算方法については、後で説明するとして主成分分析で最終結果が得られるステップを紹介したいと思います。主成分分析は、途中途中のステップで得られるものが大変重要になるからです。
STEP1 平均値・分散・共分散を求めて、相関行列を求める。
主成分分析でまず求めることは、この全要素の相関係数一覧表であります。
この相関係数は計算ステップだからといって気にせず通過するともったいないと思います。相関係数自体が情報の宝庫だと思います。

相関係数は 「-1」から「1」までの値で表現され、相関係数の絶対値が大きいほど何かしら密な関係があるといえます。
例えば、「本塁打」と「長打率」の関係は”0.9”と正の方向に高い値を示しています。これは、本塁打の高い選手は一般的に長打率も高いであろうとを意味しているのです。
「長打率」と「犠打」の関係は”-0.53”と負の方向に高い値を示しています。これは長打率の高い選手は、平均すると犠打が少ないことを意味しているのです。
「死球」は他のどの要素とも相関係数の絶対値が低いです。これは死球が他要素とは無関係の能力であると判断できます。
相関係数に関して著者は色々と意見をもっているのですが、別章で熱く語りたいので、ここでは穏やかに先に進めましょう。
STEP2 固有値、寄与率、累積寄与率の算出
次に求めるのは、「固有値、寄与率、累積寄与率」を計算します。
主成分分析は情報の集約といいましたが、18個の要素がある場合、集約しても(全体-1)で17種類は残るのです。 「全然集約されてないじゃん。」って思うかもしれませんが、主成分分析によって一つ一つの要素の重みが変わってきます。つまり、要素に濃縮した情報を詰め込むのです。その重みの計算をしたのが固有値なのです。
主成分分析では、計算結果重みの高い順に、要素の名前を第1主成分、第2主成分・・・ と命名します。
下表で第1主成分の固有値は8.425となっています。これは元々18種類あったデータを集約して8.425個分の価値を集約しているという感じです。で8.425というのは全体が18個であるので、第1主成分のたった一つをみれば、全体の(8.425÷18個=)46.8%の情報価値が集約されているといえるのです。
| 元データ |
|
主
成
分
分
析

要
素
集
約 |
主成分分析の固有値 |
| 要素名 |
重み |
要素名 |
固有値(重み) |
寄与率 |
累積寄与率 |
| 打率 |
1 |
第1主成分 |
8.425 |
46.81 |
46.81 |
| 試合数 |
1 |
第2主成分 |
1.991 |
11.06 |
57.87 |
| 打席数 |
1 |
第3主成分 |
1.637 |
9.09 |
66.96 |
| 得点 |
1 |
第4主成分 |
1.301 |
7.23 |
74.19 |
| 安打 |
1 |
第5主成分 |
0.999 |
5.55 |
79.74 |
| 二塁打 |
1 |
第6主成分 |
0.844 |
4.70 |
84.44 |
| 三塁打 |
1 |
第7主成分 |
0.739 |
4.10 |
88.54 |
| 本塁打 |
1 |
第8主成分 |
0.594 |
3.30 |
91.84 |
| 塁打数 |
1 |
第9主成分 |
0.501 |
2.78 |
94.62 |
| 打点 |
1 |
第10主成分 |
0.349 |
1.94 |
96.56 |
| 三振 |
1 |
第11主成分 |
0.275 |
1.53 |
98.09 |
| 四球 |
1 |
第12主成分 |
0.215 |
1.20 |
99.29 |
| 死球 |
1 |
第13主成分 |
0.076 |
0.42 |
99.71 |
| 犠打 |
1 |
第14主成分 |
0.048 |
0.27 |
99.98 |
| 犠飛 |
1 |
第15主成分 |
0.003 |
0.01 |
99.99 |
| 盗塁 |
1 |
第16主成分 |
0.001 |
0.01 |
100.00 |
| 出塁率 |
1 |
第17主成分 |
0.000 |
0.00 |
100.00 |
| 長打率 |
1 |
|
100%の情報を見たいからといって第1主成分から第17主成分まで見ていたら意味がありません。だって全要素が見れないから主成分分析してるわけでして。
主成分分析では固有値の高い主成分だけを見ることがほとんどです。 「固有値の高い主成分」と言われても漠然としていると思います。どこまでみればいいのかというと下のうちのどれかです。
1.固定値が1以上の成分を解析対象にする
→「1以上」というのは少なくとも濃縮された情報であるという観点から
2.寄与率から上下で差のあるところ。
→均衡しているところで解析対象と解析対象外にすると不公平だから。
3.累積寄与率80%を超えたところ。
→全体の80%の情報であれば、元データの全体を集約しているといってもいいから。
こんなところです。ちなみに1〜3の観点で解析対象となる部分をそれぞれ表中に赤色で示してします。
何にも分からなければ全部を満たす 第6主成分
位までみればよさそうですね。
どこまで見るかは解析対象・次項で説明する主成分の解釈で変わってくると思います。そして何より解析目的によって変わるはずです。
STEP3 主成分得点係数から主成分の解釈
次に算出されるのは「主成分得点係数」です。
第1主成分には46.8%の情報が集約されているという結果が得られました。
で「第1主成分って何?」って分からないと全然役に立ちません。
それに、後で出てくる選手ごとの得点を見ると巨人の松井がダントツに抜けていました。なんでしょうか?
それでは、主成分の意味を考えてみましょう。
主成分の意味をつける作業は、下記の主成分得点係数から算出します。著者が分かりやすいようにグラフまでつけてみました。(STEP2では第4-6主成分くらいまでみよう書きましたが、HPでは第2主成分までを対象とさせていただきます)
| 要素名 |
主成分得点(第1主成分) |
主成分得点(第2主成分) |
| 打率 |
-0.311 |
 |
-0.300 |
 |
| 試合数 |
0.169 |
-0.194 |
| 打席数 |
0.127 |
-0.268 |
| 得点 |
-0.298 |
0.032 |
| 安打 |
0.021 |
-0.445 |
| 二塁打 |
0.164 |
-0.539 |
| 三塁打 |
-0.216 |
-0.157 |
| 本塁打 |
-0.369 |
0.191 |
| 塁打数 |
-0.222 |
-0.162 |
| 打点 |
-0.381 |
0.156 |
| 三振 |
0.074 |
0.033 |
| 四球 |
-0.405 |
0.222 |
| 死球 |
-0.144 |
0.315 |
| 犠打 |
0.264 |
-0.200 |
| 犠飛 |
-0.493 |
0.677 |
| 盗塁 |
0.060 |
-0.107 |
| 出塁率 |
-0.462 |
0.0121 |
| 長打率 |
-0.442 |
-0.004 |
各主成分は、主成分得点係数という重みを加えて、その主成分の意味をなしています。
それでは、著者の考えで解釈してみましょう。
第1主成分の主成分得点係数では、出塁率、犠飛、本塁打、打点、四球などの項目が負の方向に大きく示しています。
ここで注目するのは試合数や打席数が正の方向に向いていることであります。打席数や試合数が増えれば、本塁打や打点、犠飛、四球が増えるのはSTEP1であげた相関係数からも明らかでありますが、主成分得点係数では、相反する係数値となっています。このことから1打席や1試合での出塁率、犠飛、本塁打、打点、四球などの長打に着目した能力が表現されているといえます。
また、盗塁の係数が0に近いことから、第一主成分に走者としての能力は影響されていませんし、もともとデータに守備の要素がまったくないことから、第1主成分はバッターボックスに入ったときの打撃破壊力を示す数字であると解釈できます。主成分係数から値の小さな値の選手ほど打撃の破壊力が高く、値の大きな選手ほど破壊力が低いというこになります。
同様に第2主成分の主成分得点係数を見てください。
さて、みなさん第2主成分はどんな意味になると思いますか?
打率、打席数、安打、二塁打の値が高い人は低い値になり、犠飛と死球の高い選手は値が高くなるのです。
うーん。実に表現しにくい解釈ですね。
第2主成分では、打席に多く入り、安打や二塁打を多く打ち、打率を残した選手が負の方向です。これって、地道なんですけどコツコツ結果を残して貢献している選手のタイプですね。
正の方向は、この反対ですから大きいのを狙ってはいるのですが打率が低いとか、もしくは守備や走塁で期待されているので打撃の機会すら少なく、打撃には期待されていない選手を示している尺度だと思います。
第2主成分は選手のタイプを示す数値であり、第2主成分の値の小さな値の選手ほどまじめにコツコツ結果を残すタイプであり、値の大きな選手ほど、一発ねらいの大振りで結果を残せないタイプかそもそも打撃に期待されていない守備中心の選手であると解釈します。
いやー、第2主成分は実に苦しい解釈になりました。値の小さな選手に「まじめにコツコツ」と付けたのはあっさりでしたが、値の大きな選手は「一発ねらいの大振りで結果が残していない」とか「打撃に期待されていないレギュラー陣」とか「死球が多くて欠場ぎみ」とか「ホームランまで届かず犠飛までなら」とか色々です。自分の野球知識から判断しました。
このように主成分の解釈は、解析対象の専門知識が必要であり、解析者の主観が大きいのです。
こんな訳のわからない解釈しないでも、「打率+(打点+本塁打)÷2が打撃能力だ!」と俺様流の解析をする人がいると思いますが、それは
・ 解析者の解析分野に対する専門性が極めて高い
・ 重要な要素と重要でない要素を認識し、重要な要素だけを選択する能力がある
・ 選択した要素の因果関係が、解析者の理解できる範囲内で収まっている。
ということです。
データマイニングはデータが膨大でありますので現実的に俺様流の解析では通用しないと思います。
主成分分析で得られた結果は、「統計学的に最も意味のある情報」でありますので、完全に鵜呑みしてくださいとまではいいませんが、何かしら知識発見に役立つのではないでしょうか。
STEP4 各選手の得点を散布図に示す
ここまで来たら後は、「視覚化」です。STEP3の主成分得点係数に、選手一人一人の要素値をかけて合計すると各主成分の得点がでます。
主成分得点(大部分省略)を示します。
| 選手名 |
第1主成分 |
第2主成分 |
| ローズ |
-3.52 |
-1.80 |
| 山崎 |
-2.500 |
-0.80 |
| 松井 |
-6.98 |
-0.34 |
| ペタジ |
-3.77 |
-0.40 |
| マルチ |
-2.82 |
-1.52 |
| : |
: |
: |
| 前田 |
0.47 |
1.43 |
| 佐藤 |
1.94 |
2.51 |
| 中村 |
4.03 |
2.31 |
こんな感じで数値で表しても人間には向かないので、主成分得点を散布図にしてみます。

こうやれば、松井(巨)は「打撃能力が飛びぬけて、バランスの取れた選手」であることが一目瞭然です。
コツコツがんばって結果を残すローズ(横)と大振りであまり結果を残せていない江藤(巨)ではタイプが違うため打撃能力の比較が困難でしたが、第1主成分から判断して、わずかに江藤の能力が高いといえそうです。
このように主成分分析によって、多くのデータが集約されている少数個のファクターで構成された情報が得られたので、がんばって知識発見してください。
おまけ 主成分分析実験
冒頭で計算方法を説明すると書きましたが、
実際に使用してみて有益だと感じた方は専門書を読んで勉強してください。または計算方法を紹介しているHPにリンクを貼っておきます。
主成分分析の効果を確認する場所として、データをテキストで用意すれば自動で主成分分析や、クラスター分析を計算してくれるホームページがありますのでそこを利用してみてください。
著者のセリーグ打撃解析は、このホームページを利用して解析してみました。
実際に利用したデータを置いておきますので、参考にして試してみてください。
解析してくれるページ(群馬大学
青木さん) ←著者が使用した野球データ
|