Pythonを学びデータサイエンチストになりたい

データサイエンティストになりたい、と夢想しながら読書記録を書くブログです。

「GBDT」は日本語wikipediaの解説ページがなくて理解するのが大変

GBDT。Grandient Boosting Decision Treesの略で、勾配ブースティング木という。

 

学習データに前処理を行い、学習できる形に変換する、そのためのモデルのようである。分かるような分からんような。Kaggleのテーブルデータ分析では大体使われているようなので、身に付けなければならない。がんばって検索して勉強する。

 

techblog.nhn-techorus.com

まずはこのサイトを見る。謎である。1割も理解できなかった。

 

続いてこちらのサイトを見る。

copypaste-ds.hatenablog.com

 

あーなんとなくわかってきた。勾配ブースティング木というから混乱したが、要はディシジョンツリーである。

ディシジョン・ツリーとは、とりうる選択肢や起こりうるシナリオすべてを樹形図の形で洗い出し、それぞれの選択肢の期待値を比較検討した上で、実際にとるべき選択肢を決定する手法。*1

 

そんでもってブースティングというのが「前の弱学習器の結果を次の学習データに反映させるもの」とのこと。こうすることによって精度が上がるのね。ちなみに学習器っていうのは「複数のモデル」のことらしい。理解したとはあまり思えないが、まあなるほどという形で分かった。以下のサイトが図も多くて比較的分かりやすかった。

www.codexa.net

 

しかしすごいのは、GBDTの予測変換先には中国語が一緒に出てくることが多い。もはやプログラミングとかそっちの最先端は、中国の方がさかんなのかもしれんね。