諸事情で決定木分析について勉強しないといけなくなったため、勉強のアウトプットとして決定着分析について調べたことを紹介したいと思います。
決定木分析とは
決定木分析は機械学習で良く用いられる方法で、ツリー構造を用いて分析、回帰を行う手法です。
決定木には分類木と回帰木の2種類があり、分類分けしたい場合は分類木が、数値の解析を行いたい場合は回帰木が用いられるようです。
分類木
以下の図はNさんが早起きできたかどうかを表した図です。
X軸には前日の就寝時間、Y軸を前日の帰宅時間として、早起きできた場合を○、起きれなかった場合を×としています。

この散布図を見ると、23時以前に寝た場合は次の日早起きできており、24時以降に寝た場合は早起きに失敗しています。
また23時~24時の間に寝た場合は、帰宅時間が19時より前であれば早起きに成功し、19時よりも後に起きた場合は早起きに失敗していると分類できます。

このデータより、早起きできた、できなかったをツリー構造で以下のように表現できます。

このように、条件と分類の関係をツリー構造で表したものが分類木です。
回帰木
決定木では”起きた””起きれなかった”のような分類を求めましたが、回帰木は分類でなく数値を求めるという違いがあります。しかし基本的な考え方は同じです。
以下の図は先ほどと同じくX軸には前日の就寝時間、Y軸を前日の帰宅時間として、Nさんが何時間寝たかを表しています。

この分布はおおよそ以下のようにゾーン分けできます。

これをツリーで表すと以下のようになります。

このように、ある条件になった場合におおよそどのような数値になりそうかをツリー構造で表したものが回帰木です。
決定木の概要まとめ
決定木について非常に簡単にですが説明しました。
決定木はビジュアル的にも分かりやすく、また幅広いデータを扱えるため様々なシーンで使用できそうです。
しかし、今回くらい少ないデータであれば手動で何となくデータを切り分けてツリーを作成できましたが、実際には大量のデータを扱うため手動で切り分けていくのは困難です。
どのように決定木を作成していけばよいかについては、別の機会に解説記事をアップしたいと思います。
コメント