Pythonを学びデータサイエンチストになりたい

データサイエンティストになりたい、と夢想しながら読書記録を書くブログです。

データサイエンティストになるキャリアパスの一例

Python学習の進め方の参考にさせていただいている中川伸一さんですが、以下の雑誌にデータサイエンティストになる方法、という記事があったのでメモとして残しておきます。 

ソフトウェアデザイン 2018年9月号

ソフトウェアデザイン 2018年9月号

  • 作者: 中西崇文,中川伸一,橘慎太郎,安部晃生,横山直敬,馬場真哉,藤原秀平,飯塚修平,足立昌彦,藤田稜,やまねひでき,安藤幸央,結城浩,武内覚,宮原徹,北村壮大,平林純,速水祐,樽石将人,清水琢也,山田泰宏,田代勝也,上田隆一,中村壮一,重村浩二,くつなりょうすけ,mattn,小飼弾,すずきひろのぶ,あわしろいくや,中島雅弘,榎真治,法林浩之,関治之,奥村和彦,後藤大地,Software Design編集部
  • 出版社/メーカー: 技術評論社
  • 発売日: 2018/08/18
  • メディア: 雑誌
  • この商品を含むブログを見る
 

 

特に注目したのは33~38歳のデータエンジニア。

以下の業務を行ったとのことです。

  • 解析・分析対象のデータをWebおよび社内データから収集
  • 収集したデータのフィルタリング・前処理
  • 本格的な解析・分析の前にクラスタリングの実施 

ここでPythonを実践で覚えていくと同時に、業務終了後や休日は、Pythonを用いて野球データの収集・分析を行うようになったとのこと。

 

そしてこれからデータサイエンティストを目指したい方への提案として、

1 必要なエンジニアリング・スキルを手を動かして鍛える

  • データの取得。システムのログを集める、データベースから取得する、Web上の公開情報・APIからデータを集める。
  • 取得したデータの整形・掃除。不要なデータの削除、データ型を定義する、異常値・欠損値の処理など、いわゆる「前処理」
  • 分析した結果の可視化。グラフを書く、Webサイトにして結果を見せる、レポートとして配布するなど
  • データ取得→整形→可視化までの連携処理。バッチ処理・パイプラインなどを駆使したシステム構築
  • 実際に運用するためのクラウド・インフラに関する知識と経験

 

2 社外にアウトプットを出す、フィードバックをもらう

 

3 一次情報を仕入れる、理解する

 

の3つを提案しています。

 

今、私は社内のデータを触ろうとし、その結果一次情報を仕入れ、理解するようにしています。まずは身近なところからデータ分析を行い、そして実績や経験がついたら、また発信もできるようにしていきたいです。

 

またユーザさんに「価値」を提供できなければデータ分析も意味がない、とまとめるこの記事。自分の中でも忘れないようにします。

trq.hatenablog.com