現在開講中の「現場で使えるデータサイエンス基礎講座」ですが、第1期は中盤に差し掛かりつつあります。Kaggleなどの提供データを使った”通し課題”について、受講者の方が講座外の時間で手を多く動かして、各アルゴリズムを試しているのは、Slackでの質問などを見ていてもよくわかります。本日は、この講座がどこを目指しているかについて、お話し致します。
本講座の目標
この講座では、「データサイエンス実務を行うにあたっての必要最低限の知識と、より高度・具体(例えば、テキスト処理、画像認識、音声認識など)な内容を取り扱うにあたっての足掛かりとなる推進力を得る」をゴールとしています。
・数値系データ(カテゴリカル変数などはもちろん含みます)に関して、機械学習を用いたアウトプットができるようになる
逆に到達を目指していないレベルとしては下記のようになるかと思います。
・分析官として単独で、「自然言語解析やDeep Learningを使った画像認識案件に対応できる」までは到達しない(ありもののライブラリやAPIを使うだけを意味していません)
本当は、「2ヶ月であなたも1人前のデータサイエンティストに!」と謳いたかったのですが、さすがに現状8回×2時間の講座構成では無理でした。
受講者の方によっては、大幅なスキルアップされている受講者の方もおり、受講期間中はオフラインでも全力でフォローさせていただくのでその環境は用意しているのですが、想定する受講者像としては、上記ゴールが誠実だと考えています。
また、2ヶ月間にしている理由は、どの産業で活躍するにせよ、必要最低限(最大公約数的な)の基礎スキルに絞ったら2ヶ月間に圧縮でき、学んだ後、できるだけ早く実務で応用することの方が血肉化されると考えたからです。
経験上、数値系データに対してアウトプットが出せるだけでも、現状どの企業においても重宝されると思っています。理由としては、下記です。
- そもそも、業界問わず、数値系データを教師データとする案件が圧倒的に多い
- わざわざデータサイエンチームのリソースを調整しなくても、プロトタイプが作れる
- 本格的に機械学習やるべきかどうかスピード感をもって判断できる
こうした理由からも、現状の構成が市況を踏まえた上での機械学習講座のゴールとして最適と考えています。