統計学と機械学習の違い?なにを勉強すればいい?

人工知能機械学習統計学とデータサイエンスは何が違うのか」
みたいな疑問をよく聞きます。

統計のモデルと機械学習のモデル、どう使い分ければよいのか - Qiita

そういう疑問に答えようとする上のQiitaの記事は、個人的には相当にモヤモヤするものの、こういう書きぶりになってしまう気持ちはなんとなくわかります。

Googleで検索したら、この辺のモヤモヤ感についての言及も含めたもうすこし妥当な記事が出てきました。

「統計学と機械学習の違い」はどう論じたら良いのか - 六本木で働くデータサイエンティストのブログ

典型的な答えは?

例えば上の二つのエントリを見てみると、典型的な答えとして

・基本的には両者重なる部分が非常に多くそもそも異なるものでは無いが、
統計学は説明に重きを置く一方で、機械学習は予測に重きを置く、
統計学は単変量に影響に注目するため、線形モデルが一般的。一方で機械学習は多変量の複雑な絡み合いを活用するため非線形モデルも普通に用いる。
・結局どちらも重要だから勉強しましょう

というものが想定されていると思います。

でもそれだけでは終わらない

これぐらいで話が終わればいいんですが、以下のような疑問も出てきます。

・一般的な大学の教養課程の「統計学」の授業で勉強しているような古典統計、特にt検定に代表される有意性検定の知識はどうすればいいのか。

分野によっては、統計といったら上記の内容を指すこともあります。なのでそうした分野の人にとっては当然な疑問です。

しかしこの疑問への回答もまた口がモニョモニョする感じになります。

例えば、以下のTweetでは、機械学習の主要会議論文に掲載された50の論文を検証したところ、統計的な有意性を検定している論文が5%程度だったという内容が言われています*1


つまり、この辺の知識無しでも機械学習の最先端の研究が進められる可能性があります。実際、完全に個人的な印象ですが、NAISTの連携講座として所属していた研究室(全員機械学習を使っている)で古典統計や有意性検定についてしっかり勉強・理解していた人は少なかったと思います。

ここから更に強化学習の話とかが絡み始めるとちょっと収集がつかない感じになります。現代的な強化学習を理解する上で確率・統計的な知識は非常に重要です。
[1805.00909] Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review

教材の内容も変わってきている

いわゆる統計学の講義事情も変わってきているみたいで、例えば早稲田の心理では有意性検定の話をカットしてベイズだけで進めているみたいです。

あるいは以下の教科書は、有意性検定の話を含むだけでなく、ベイズやリサンプリング、交差検証による予測力の検証、再現性担保のために重要なこと、など現代的なトピックをカバーした21世紀的な統計学の教科書になっています。著者も信頼できる科学者で、しかも全文フリーで公開されているため、今自分が学部生だったらこの教科書の輪講をやってみたい気がします。
Statistical Thinking for the 21st Century

以下のページは今度は機械学習側のもので、PFNの岡野原さんや齋藤さんといったプロ中のプロが監修した教材です。機械学習を一から勉強しようと思ったときにこの教材からスタートしてみるというのは良いのではないかと思います。一方で、この中には有意性検定などのトピックは一切出てきません。
japan-medical-ai.github.io

本当の疑問

・・・と、タイトルの質問に関して真面目に答えようとすると、このように非常に面倒臭い感じになります。
上にあげた関連知識を全部勉強すればいい、一から大学院入り直して勉強すればいい、というのは一つの回答ですが、そういう答えを欲しているわけではないケースもたくさんあります。

そもそもよくよく聞いてみると、こうした疑問の背景にある真の疑問は
「最近よく聞くりこういった分野の技術を自分も使ってみたいのだが情報が多すぎてよくわからない。結局何をどこから勉強すればいいのか。」
というような疑問であることが多いように思います。

AlphaGoみたいなAIが作りたいのか、顔認識をしたいのか、経済や医療統計を分析したいのか、、、それぞれ必要とされる知識が大きく異なるので、こういう疑問がでてくるのは当然です。

これまで書いたように、用語の使い方も錯綜していて知識体系が絡み合っているため、知識が殆どない状況から自分一人で走り始めるのは非常に辛い気持ちになります。分野の進歩速度が早く多くの人が参入しているため、新しく出てきた有益な教材も多い一方、ノイズが多い情報もその倍以上出てているため、情報の取捨選択も容易ではありません。

なので、身もふたもない結論ですが、ある程度知識がある人に自分の興味を伝えて、アドバイスをもらいながら初めてみる、というのが一番良いのが現状かと思います。

*1:そもそもこれが良いか悪いかというのも微妙な問題で、自然科学側では古典的な仮説検定の問題を踏まえて、有意性の検定自体に否定的な人もいます。