DecisionTreeRegressorのパラメータを調べた

Python

2024.09.272025.06.16

scikit-learn の DecisionTreeRegressor のパラメータを調べた。

整理のために各パラメータをまとめる。

APIリファレンスに正式な情報があるので、正しい情報や詳細な情報はそちらを参照してください。

目次

パラメータの種類

パラメータの種類

criterion

木を分割していくときの品質の種類
squared_error、friedman_mse、absolute_error、poisson から選ぶ
デフォルトは squared_error
squared_error
- 二乗誤差
- 予測と実際の値に誤差があったときは誤差を二乗して平均をもとめる
- 二乗するので、誤差が大きいときにより大きな値となるので、大きな誤差を避けたいときに使用する
friedman_mse
- フリードマンの平均二乗誤差
- squared_error に基づいているが、フリードマンさんが開発した改良版
- 大きなデータセットだとこっちのほうが良いのかも？
absolute_error
- 絶対誤差
- 誤差があったときに二乗せずにそのまま判定する
- 外れ値の影響を受けにくい (二乗するのに比べると)
poisson
- ポアソン誤差
- 数回など、予測値が小さな値になるときに向いているらしい

splitter

ノードを伸ばすときの戦略
best、random から選ぶ
デフォルトは best
best
- criterion で設定した分割の品質により、誤差が最も少なくなるものを条件として分岐する
random
- criterion 関係なくランダムで分岐する

max_depth

ツリーの最大深度
デフォルトなし
なしの場合、すべてのリーフが純粋になるまで、またはすべてのリーフに含まれるサンプルが min_samples_split 未満になるまで、ノードが拡張される

min_samples_split

ツリーを伸ばすのに判断するサンプル数
デフォルト 2
ツリーを深くしていくと、そこまでの分岐によって最終的なところに集まるサンプル数がどんどん少なくなるが、何個残っていたらさらに分割するか、の値
小さいほど細かく分類できるが、小さすぎるとそこいいくための条件が細かくなりすぎるので、ちょっとした違いのものを判断できなくなってしまう可能性もある

min_samples_leaf

最終的な分岐にいくつ集まることを許容するか
デフォルト 1
min_samples_split の値によってさらにツリーを伸ばそうとはするが、結果、ここの値より少ない数のサンプルしか集まらなかった場合はツリーを伸ばさない、という設定
min_samples_split と同じく値が少ないほど細かい条件分岐できるが、細かすぎてあいまいな部分を判断できなくなってしまう可能性もある

min_weight_fraction_leaf

最終的な分岐に全体のどのぐらいの割合まで集まることを許容するか(min_samples_leaf とほぼ同じで、数値で指定するか割合で指定するかの違いだけっぽい)
デフォルト 0.0
min_samples_split の値によってさらにツリーを伸ばそうとはするが、結果、ここの値より少ない数のサンプルしか集まらなかった場合はツリーを伸ばさない、という設定
min_samples_split と同じく値が少ないほど細かい条件分岐できるが、細かすぎてあいまいな部分を判断できなくなってしまう可能性もある

max_features

ノードを伸ばすときに、全体の項目のうち、何種類の項目を条件の候補として選ぶかの値
候補として選ぶだけで、実際に条件分岐となるのはその中の最も良い条件にあてはまる1項目のみ
sqrt、log2、None、か、具体的な整数小数の値を設定できる
sqrt は全体の項目数の平方根
log2 は全体の項目数のlog2 (2の何乗で全体の項目数の値になるか)
None だと毎回全項目をつかう
デフォルトは None

random_state

毎回木がランダムに生成されるが、この値を指定することによって、木の生成を再現させることができる
デフォルトは None (毎回ランダム)
0 か 42 がよく使われるらしい

max_leaf_nodes

最終的な分岐の末端部分をいくつまで用意するかの最大値
デフォルトは None (無制限)

min_impurity_decrease

ツリーを深くするときに、不純度がこの値以上減るなら深くする、という設定値
デフォルト 0.0
数値を大きくすると、はっきりと見分けられない分岐は行われなくなる

ccp_alpha

枝刈り（プルーニング）という技術を使って純粋度があまりさがらないようなら枝を伸ばすのをやめる
デフォルトは 0.0 (無制限)
数が大きいほど判断基準が厳しい(より大きく純粋にならないと枝を伸ばさないようにする)
min_impurity_decrease と似ているが、こちらは木が出来上がってからの判断に使われるみたい

monotonic_cst

予測に使う各項目に対して単調性を指定する (各項目ごとに指定する)
デフォルトは None (指定しない)
項目ごとに指定する値は下記となっている
- 1 : 単調増加 (項目の値が増えれば結果の値も増える(部屋の数と家賃のような関係))
- -1 : 単調減少 (項目の値が増えれば結果の値は減る (駅からの距離と家賃のような))
- 0 : 制約なし
学習する項目に対していのドメイン知識があり、単調増加がある、とわかっている項目などに指定すると結果が不自然にならなくてよさそう
逆に、気づいてなかった法則とか知りたいなら無い方がよさそう

コメント

タイトルとURLをコピーしました