Pythonを学びデータサイエンチストになりたい

データサイエンティストになりたい、と夢想しながら読書記録を書くブログです。

機械学習の学習に天井を感じています。メンターが欲しい…ブレイクスルーを迎えたい…  

 

Pythonを使った機械学習をモリモリとやっております。

 

最近は、Kaggleでデータをいじる→本を読んで勉強、の繰り返しをやっとります。

 

が、正直頭打ちな感じもしています。あまり実力が伸びている気がしない。

 

その理由を考えてみると、以下があるのかな、と。

 

①手を動かすより、本を読むことの方が比率が大きい

 →結果、手を動かしたときにあまり実力が伸びていない

  頭ではだいぶ理解しているので、本の内容も大体は見たことある感じ…。

 

②Kaggleの他の人のコードで理解できないところも多い

 →ぐぐって調べても、それでも意味が分からないところがチラホラ。

  そのうち時間切れになって…ということも多い。

  こればっかりは本を読んでも理解できないことが多い。

 

そういう点では、「本を読んでPythonを使った機械学習についてある程度理解した」という段階と、「Kaggleのコードを見て、『こういうやりかたもあるのか!勉強になる!スキルアップ!』」という段階の間に、隔たりを感じております。

 

うーん、このギャップを埋めるにはどうすればいいのだろうか。メンターをつければいいのだろうか。ということをあれこれ考えている状況。とはいえメンターもどういう人をつければいいのか、はてまてどこでそういう人を見つけられるのか。

 

いずれにせよ、Kaggleに関してはまだまだ費やす時間が少ないと感じているので、いったんはKaggle中心に時間を割いていきたいと思います。というか勉強会にもいいかげんでなければ…。

 

そうこうしているうちに、きっと、どこかで、ブレイクスルーが来ることだろう。

 

ちなみに最近読んだ本は以下の本です。

 

GensimとPytorchを使った自然言語処理、のところは難しかったものの、他のところはまずまず分かりました。Kaggle本を読んで参加する前に、読んでおけばよかったかなと感じています。2019年5月の本なので、内容も新しくて良かった。あとなんでも機械学習でやればいいってもんでもないというのも響きました。ある程度Kaggleに時間をかけ、その合間合間でこういう本を読めるといいな。

 

以下のところからも公開されたデータが入手できるとのこと。積極的に活用したい。

https://archive.ics.uci.edu/ml/datasets/spambase

https://www.kaggle.com/datasets

https://www.nii.ac.jp/dsc/idr/datalist.html

https://www.diasjp.net/dias-datasetlist/