|
ベイズ統計学は、18世紀の数学者トーマス・ベイズがその基礎を作ったとされていますが、長い間、統計学の世界ではあまり注目されていませんでした。というのも、主流である記述統計学や推測統計学と考え方が大きく異なるため、有力な統計学者から異端視されていたからです。
しかし、近年になって、ベイズ統計学は急速に注目されるようになりました。というのも、コンピューターの発展によってAI(人工知能)や機械学習の応用研究が盛んになり、ベイズ統計学がそういった分野と相性が良いことが分かってきたからです。
ベイズ統計学は伝統的な統計学 (記述統計学および推測統計学) に比べて、新しいデータが次々とやってくるような状況にうまく対処できるという点が大きく異なります。手元のデータを使って分析を行っていたところ、新しいデータが追加されてきたとしましょう。
記述統計学や推測統計学では、新しく来たデータを今までのデータに追加した上で、分析を一からやり直す必要があります。というのも、記述統計学 推測統計学は、手元のデータをどう分析するか (あるいは手元のデータからどう全体を推測するか)というノウハウの集まりなので、既存のデータ、新しいデータという区別がそもそもないからです。
従って、新しいデータが来た場合は、それを既存のデータに加えたものを新たな「手元のデータ」として、分析を初めからやり直す必要があります。しかし、それだと二度手間になってしまいます。
一方、ベイズ統計学では、既存のデータをもとに分析した結果を所与とした上で、新しいデータを踏まえてその分析結果をアップデートするという考え方を取ります。つまり、分析を一からやり直すのではなく、新しいデータを学習して分析をアップデートするのです。
このようなベイズ統計学の考え方は、新しいデータが次々と生み出されるビッグデータ時代に非常にマッチしています。インターネットの検索エンジン、迷惑メールフィルタ、AIによる自動運転、お客さんが商品を買う確率の予測、がん検査など、様々な分野でベイズ統計学が活躍しています。
何か分析を行うとき、いつも十分なデータが手元にあるとは限りません。しかし、データが足りないからと足踏みしていたら、何も始まりません。手元にあるデータから初期の予測を立て、まず一歩を踏み出すことが大切です。その後に新しいデータが手に入ったら、それを踏まえて予測を修正していけばよいのです。
ベイズ統計学は、このような考え方に基づいています。ベイズ統計学では、予測を確率の形で表します。例えば、迷惑メールフィルタの場合、「このメールが迷惑メールである確率は70%」といった形で予測を出すわけです。
そして、迷惑メールである可能性がより高くなるような条件が見つかったら、「このメールが迷惑メールである確率は75%」といったように予測を修正していきます。このように、ベイズ統計学に基づいて予測をアップデートしていくプロセスをベイズ推定と呼びます。
|
|