私立文系出身者のためのデータサイエンスの始め方

データサイエンスと聞いてどんなイメージを持つだろうか。AI、ビッグデータ解析、マシーンラーニング等、理系ゴリゴリの分野で、自分には関係ないと思う文系出身のビジネスマンも多いのではないだろうか。しかし、もはや言わずもがなではあるが、今ありとあらゆる産業でデータサイエンスの活用が進んでいる。またアメリカでは、感覚派のイメージが強いデザインスクールや時代遅れと揶揄されることもあるMBAですら、データサイエンスを使った授業があるくらい、多くの人がその重要性に気付き始めている。 今後、急速にAI等データサイエンスの技術が発展し、さらにビジネスに浸透していく中、「俺には関係ない」とは言ってられない状況になることは明らかだ。興味のある人は是非下記の記事も読んでみて欲しい。

👉『データサイエンスのすゝめ — シリコンバレーに全てを飲み込まれる前に

そんな筆者も、ソフトウェアエンジニアリングを学びウェブサービスを開発していたが、投資家向け資料を作る中で、今の時代、データサイエンス抜きにして強いサービスを作るのは無理だと気づかされた。それをきっかけに、現在データサイエンスのオンラインブートキャンプで学んでいる。

そこで今回は、そんなデータサイエンスについて、筆者のつまづきポイントも踏まえ、初心者がどこから学習を始めたらいいのかをお伝えしたいと思う。


1. まずベーシックなPythonから始める

データサイエンスの分野で使われるプログラミング言語は基本的にPythonとRだ。ただ、初心者はPythonの方が学びやすい。それはPythonの文法がシンプルかつ、インデントのルールがしっかりしているおかげで、他人が書いたコードも読みやすいというメリットがあるからだ。Pythonの基本がわかっていないと、そもそもデータサイエンスで必要な計算処理やデータ処理が行えないので、初心者はまずここから始めることをオススメする。

人気言語なので、オンラインで学べるサービスはいくらでもあるが、もし英語が得意なのであれば、Flatiron Schoolのような海外コーディングブートキャンプのプレップコースは無料の割にクオリティが高くオススメだ。

もし英語だときついという場合は、少しお金はかかってしまうが、Progateドットインストールなど日本のサービスを使おう。(最初の方のレッスンは無料で試せる)


2. Pythonのデータサイエンスツールキットを使ってみる

Pythonの基礎が理解できたなら、次はPythonのデータサイエンス用のツールキットを試してみよう。Pythonがデータサイエンスの分野でよく使われる所以でもあるが、Pandas、SciPy、Numpy、Matplotlib等かなり充実したツールキットが揃っている。それぞれの操作方法を学べば複雑な計算処理も簡単に行えるようになるので、データサイエンスをやっていく上では必須のスキルだ。

Source: Pandas

これもオンラインで学べるコースが充実しているので、ドンドン活用しよう。基本的に、上記で紹介したサービスで学べるが、Udemyでなら10ドル程度で日本語で学べるらしい。(日本語字幕は自動生成)


3. 統計学・確率論の基礎を学ぶ

データサイエンスをやっていく上で、どうしても統計学や確率論の知識は必須になってくる。筆者のように高校以来まともに数学に触れていないという方は、面倒くさがらず、基本からしっかり学び直そう。

まず『マンガでわかる統計学』のような入門書から始め、その後にオンラインのコースで手を動かしながら学んでいこう。オススメは、Khan Academyだ。国内ではオンラインでのデータサイエンス向けコースがまだまだ充実していないため、日本語で学べるサービスは少ないが、これを機に気合を入れて英語も一緒に学んでもらえればと思う。

それでもどうしても英語だけでは理解できないこともあるだろう。そんな時にオススメなのが、YouTubeだ。ただでさえ退屈になりがちなこの分野、ハイテンションなユーチューバーの説明でなら楽しく学ぶこともできる。

たくみ氏の説明はかなりわかりやすい。

以上で、データサイエンス学習のはじめの一歩はわかっていただけたかと思う。今後は、筆者がデータサイエンスブートキャンプで学んだ内容なども随時交え、より詳細な情報を提供していくのでお楽しみに!