10分で伝えきれない統計学の魅力

 

 この記事では私自身が体感した統計学の面白さを統計検定2級取得の経験を元に、統計学の分野そして応用事例、その魅力を伝えていきます。

要約
統計学はある主張の真偽を正しく判断するのに重要な学問です。統計学の活用によって、正しい選択を選び取るようになり、ビジネスや研究分野においての損失を最小限に抑えることができます。

統計学とは物事を正しく判断できるようになる学問

 統計学とはある現象が生じさせる法則をデータ分析によって明らかにしていく学問です。数値的に分析するというのは平均値、中央値といった統計量に集約し、集団間の比較ができるようにすることです。この学問はある法則が成り立つのか、反対に成り立たないのかを誰もが理解できるような分析方法を提供します。

 適切なデータ分析によって、誰もが経験に依存しない判断を下せるようになります。経験による解釈は個人差が生まれてしまいますが、データの解釈では全員が共通の事実をとらえることができます。

 このように統計学は、データに基づいた解釈によって正しい決定を実現します。私たちが専門的ではなくとも、データの解釈が適切にできるようになれば正しい結論を導くことができます。そして、それがビジネスや研究開発分野においての失敗や損失を減らすことに繋がります。

記述統計学は統計学の第一歩

 統計学の初めは、データの集約方法を学ぶ記述統計学から始まります。集約方法は平均値のように統計量にまとめること、ヒストグラムといったグラフ化による手法がとられます。これらは、データ分析の最も基本的なことであるため必ず押さえておくべき分野となります。

ビジネス、研究分野で当たり前に用いられる統計分野

 記述統計学はデータを簡単な計算で統計量やグラフにまとめる分野になります。統計量とはデータの基本的な情報を整理したもので、主に平均値、中央値、最頻値があります。この他にもデータの散らばり具合を表す「分散」「標準偏差」、二つの間柄を直線の強さで示す「相関係数」というように目的によってさまざまな分析が行えます。

 記述統計学のポイントは単純計算による手法で安易に習得できることです。中学3年生程度の数学を利用することで、分析することができるため学習のハードルはとても低いです。しかも、分析結果も非常にシンプルであるため、取り扱いやすいこともメリットの一つです。

 記述統計学の応用例として、野球の「セイバーメトリクス」があります。セイバーメトリクスとは野球と統計学を融合したもので、選手の能力を統計的解釈によって評価する手法です。2000年代、ビリービーンというアメリカの弱小球団がこのセイバーメトリクスという手法を活用することで、実際に勝利を収めたという逸話があります。もし、統計学に興味を持ち始めたら、セイバーメトリクスを題材にした『マネーボール』を是非ご覧ください。統計学がスポーツにも活用されているのを見るとその面白さが実感できると思います。

 このように、記述統計学はシンプルかつ誰もがデータを分析できる基本的な分野になります。これらを最低限押さえるだけでもしっかりした分析ができるため最低限ここだけでも押さえておくべきでしょう。

推測統計学は「部分」を調べて、「全体」を知る

 推測統計学は、確率論という数学的手法を用いて、標本から母集団の特徴を推定する分野になります。これによって、データを全て集計せずに、全体の特徴を取り出すことができるようになります。

 母集団を推定するためには、推定と検定の2通りの方法がよく用いられます。これらは、「正規分布」という確率分布を用いて母集団の特徴を推定していきます。

確率論を取り入れることで、予測が実現できるようになる

 推測統計学はデータを確率論と組み合わせることで、標本から母集団の特徴を推定することができます。まず、標本とは母集団から抽出した統計処理を行うグループのことで、母集団は分析したい全体のグループのことを指します。

 推測統計学のポイントは、記述統計学と比較してデータ抽出のコストが抑えられるという点にあります。例えば、高校生の平均学力を調べる必要があるとします。記述統計学ならば、約6000万人のデータを抽出し、分析することで正確な学力を調べられます。しかし、それではデータ抽出に多大なコストが必要で適した分析とは言えません。そこで、推測統計学という手法で母集団からランダムに1000~2000人だけ抽出し、標本の特徴を調べることで、誤差は少し生じるも高い精度で母集団の特徴を推定することができます。

 具体的な例として、工場の不良品率の推定があります。機械Aの不良品率が0.1%であると仮定し、1万個の製品を製造した場合、理論的には10個の不良品が出てしまいます。しかし、ある日不良品が15個生じてしまう出来事があった場合、機械Aに不具合が生じているかわかりません。それは、「たまたま」5個が偶然生じてしまったと考えられるからです。5個多く不良品生産されたのは偶然か、それとも必然的だったのか考えるためには、推測統計学の力が必要です。

推定と検定

 推定とは、母集団の特徴(平均や分散)を標本から推測することで、点推定と区間推定の2種類に分かれます。点推定は標本分布の平均をとることで、求められますが、標本の採り方によって誤差が生じます。そこで、区間推定という区間による推定で母集団の特徴を推定していきます。

 検定とは、母集団から抽出した標本をある仮説に照らし合わせて、その仮説が正しいかどうかを判定することです。先ほどの製造業の話に戻しますと、不良品の発生が理論的に10個であるはずが、15個生じたとします。そこで、『不良品率は0.1%である』という仮説を立てて、その仮説から検定統計量を分析することでその有無を確認していきます。

 そして、推定・検定は正規分布という統計学で最も重要な確率分布を用いて分析しています。正規分布とは、次の釣り鐘型をした確率分布のことで、日常生活に頻繁にみられる分布です。推測統計学は、この分布を元に推定や検定を行う他、確率の計算や後に述べるベイズ統計学にも利用されています。

 推測統計学は記述統計学より結果の解釈が難しくなる半面、データ分析の幅を大いに広げることができます。

ベイズ統計学は主観確率を取り扱う

 ベイズ統計学は、ベイズの定理という一つの数式から成り立つ統計学です。

 最大の特徴は、データを主観確率という確率を用いて、事前分布を更新していくことにあります。これによって、少量のデータを用いて高い精度の確率分布を推定することができます。

ベイズの定理

 ベイズ統計学は、全て次式のベイズの定理から成り立っています。

$$P(θ|X) = \frac{P(X|θ)P(θ)}{P(X)}$$

\(P(θ|X)\)事後確率
\(P(X|θ)\) 条件に基づいた確率
\(P(X)\) 事前確率

 事前確率とは、その事象が「主観的に」生じる確率のことで、ある程度自由に設定できることが最大の特徴です。

 この事前確率をある条件に基づいた確率の積で計算していくと事後確率というデータを取り込んだ確率を算出できます。

 ベイズ統計学の最大の特徴は、数少ないデータで確率を推定できることにあります。データが不足している中でも、事前分布と得たデータによって、事後分布を求め、事象が生じる確率を推定できます。特にデータがなかなか得られない現場の分析にその効力を発揮します

総論

 正しい判断を下すためには専門的な知識とともに、統計学による客観的な判断が不可欠です。統計学の活用によって、判断できるのも大きな魅力の一つだと思います。こういった点で統計学はかなり面白いため、ぜひその面白さを学んで体験してほしいと思っています!

 統計学による分析手法はこの記事以外にも奥深く、そして多岐に応用されていますので、統計の入り口として参考にしていただければ幸いです。

 

 

コメント

タイトルとURLをコピーしました