【独学したいあなたへ】確率分布と統計的な推測の基礎知識まとめ

はじめに:確率分布と統計的な推測を独学したい人へ

数学Bの最後の範囲である「確率分布と統計的な推測」って、通常のカリキュラムでは扱われないことも多いので勉強しにくいですよね。

しかしこの「確率分布と統計的な推測」、実は少し勉強するだけで簡単に高得点が取れる穴場の範囲なのです!

そこでこの記事では、素通りされがちな「確率分布と統計的な推測」の単元を独学したい人のために、基礎的な知識を網羅的に紹介します。

この記事で紹介する知識を踏まえて、ぜひ教科書や参考書の問題に挑戦してみてくださいね。

確率分布

確率分布①:確率変数

確率変数

サイコロの目は、「サイコロを振る」という試行の結果によって決まりますよね。このような、試行の結果によってその値が定まる変数を「確率変数」と呼びます。

サイコロの目の場合、確率変数Xは1〜6までの自然数の値をとり、それぞれの値をとる確率は\(\frac{1}{6}\)ですよね。

確率変数Xのとりうる値(この場合1〜6までの自然数)とその値のとる確率(この場合は全て\(\frac{1}{6}\))との対応を示したものを「確率分布」と呼びます。

期待値

期待値E(X)とは、確率変数Xのとりうるそれぞれの値と、その値のとる確率とをかけて全て足した値のことをいいます。

サイコロの目の場合、
$$E = 1 \times \frac{1}{6} + 2 \times \frac{1}{6} + 3 \times \frac{1}{6} + 4 \times \frac{1}{6} + 5 \times \frac{1}{6} + 6 \times \frac{1}{6} = \frac{7}{2}$$
になります。

偏差・分散・標準偏差

確率変数Xの個々の値から平均m(この場合期待値E)を引いた値を「偏差」といいます。

この偏差の2乗の期待値を、確率変数の分散と言い、V(X)と表記します。

ちなみに確率変数の分散は、

$$ V(X) = E(X^2) – {E(X)}^2 $$

という式で計算できるので、覚えておきましょう。

「分散」という言葉に聞き覚えがない、あるいは「分散」がよくわからないという人は、以下の記事をご参照ください。

【試験直前に読む数学】共通テスト受験生必見の「データの分析」用語・公式まとめ

2022.01.15

独立な確率変数の性質

2個の確率変数X・Yがあり、Xのとりうる全ての値\(x_{k}\)とYのとりうる全ての値\(y_{l}\)に対して
$$ P(X = x_{k}, Y = y_{l}) = P(X= x_{k}) \times P(Y= y_{l}) $$
が成り立つとき、「確率変数XとYは独立である」と言えます。

この場合「独立」とは、「それぞれの事象が生じる確率に関連が一切ない」ということです。

独立な2個の確率変数X, Yの分散をそれぞれV(X), V(Y)とすると、

$$V(X + Y) = V(X) + V(Y)$$

という関係が成り立ちます。この種の式はよく使うので、覚えておきましょう。

確率分布②:二項分布

二項分布の性質

サイコロの目を振るとき、3の倍数の目が出る確率は\(\frac{1}{3}\)で、3の倍数の目が出ない確率は\(\frac{2}{3}\)ですね。

サイコロを振るという試行において、生じうる事象は「3の倍数の目が出る」か「3の倍数の目が出ない」かのどちらかです。

「3の倍数の目が出る」事象が生じる確率をp、生じる回数をXとおきます。サイコロをn回振るとすると、Xは0以上n以下の自然数の値をとる確率変数として規定できますね。

この確率変数Xの確率分布のことを「二項分布」と言い、試行回数nと事象の生じる確率pを用いてB(n, p)と表記します。

二項分布の平均と分散

確率変数Xの確率分布が、B(n, p)の二項分布であるとき、Xの期待値E(X)と分散V(X)について以下の方程式が成立します。

$$E(X) = np$$
$$V(X) = np(1-p)$$

確率分布③:正規分布

正規分布の性質

二項分布と形が似ているため混同されやすい確率分布として、「正規分布」があります。

形は似ていても性質は全く違うので、ここで正規分布の特徴を整理しておきましょう。

確率変数Xの確率分布が、以下の特徴を持つ時、その分布を正規分布と呼びます。

  1. Xの平均をmとすると、分布のグラフが直線x = mで線対称になる
  2. X = mのときの確率値がグラフの最大値になる
  3. x軸が漸近線になる
  4. σをXの標準偏差とすると、σの値が大きいほど値のばらつきが大きくなり、逆にσの値が小さくなると値のばらつきが小さくなる

以上4つの特徴を持つ分布が正規分布であり、\(N(m,σ^2)\)と表します。

正規分布の標準化・標準正規分布

正規分布の最も標準的な形が「標準正規分布」です。

標準正規分布は、平均が0、標準偏差が1の正規分布で、N(0,1)と表されます。

平均m、標準偏差σである確率変数Xについての正規分布\(N(m,σ^2)\)を、

$$ Z = \frac{X – m}{σ} $$

という式を用いて確率変数Zに変換すると、確率変数ZはN(0,1)の標準正規分布に従う変数になります。

この操作は「標準化」と呼ばれ、正規分布に関連する問題でよく出題されるので、ぜひ覚えておいてください。

二項分布の正規分布による近似

二項分布\(B(n, p)\)と正規分布\(N(m,σ^2)\)は全く違う確率分布ですが、二項分布を規定する試行回数nが十分に大きいとき、

二項分布\(B(n, p)\)は正規分布\(N(np,np(1-p))\)に近似できる

という性質を持っています。ただし、問題文中に「nは十分に大きいものとする」という趣旨の注意書きが無いと使えない性質なので注意しましょう。

統計的な推測

ここまでが「確率分布」の説明になります。以下では、「統計的な推測」の範囲に関する基礎的な知識をご紹介します。

統計的な推測①:母集団と標本・抽出

母集団と標本

特定の集団を対象として調査を行う際、集団の中の一部分だけを取り出して調べる調査を「標本調査」と言います。

この標本調査において、調査対象となる集団全体を「母集団」と呼び、調査のために取り出された個体の一部を「標本」と呼びます。

ちなみに標本を取り出す作業を「抽出」と言い、標本の中に含まれる個体数を「標本の大きさ」と呼ぶので、こちらも併せて覚えておきましょう。

抽出の方法

母集団に属する個体を等しい確率で取り出す抽出方法を「無作為抽出(ランダムサンプリング)」と呼びます。できるだけ偏りのない調査を実施するため、基本的に標本調査は無作為抽出によって行われます。

標本平均

母集団から無作為抽出された個体の数(標本の大きさ)をnとして、それぞれの個体を\(X_{1}, X_{2}, …X_{n}\)とするとき、\(X_{1}, X_{2}, …X_{n}\)の平均値を「標本平均」と言い、\(\overline{X}\)と表します。

標本平均の期待値・分散

\(\overline{X}\)の期待値\(E(\overline{X})\)・分散\(V(\overline{X})\)は、それぞれ以下のように表されます。

母集団に属する個体の平均値(母平均)をm、標準偏差(母標準偏差)をσとすると

$$ E(\overline{X}) = m $$
$$ V(\overline{X}) = \frac{σ^2}{n}$$

標本平均の分布の正規分布による近似

母平均m、母標準偏差σの母集団から無作為抽出された標本平均\(\overline{X}\)の分布は、標本の大きさnが十分に大きいとき、正規分布\(N(m, \frac{σ^2}{n})\)に近似できます。

二項分布の正規分布による近似と同じく、問題文中に注意書きがない場合は使えないので注意しましょう。

統計的な推測②:信頼区間

統計的な推測では、「母平均の値は、〇〇から××という範囲に95%の確率で含まれている」という形で推測結果を出します(区間推定と言います)。

推測結果の中に母平均が含まれている確率を「信頼度」と言い、母平均が含まれると推測される範囲を「信頼区間」と言います。

津城、信頼度は95%に設定されており、信頼度が95%になる信頼区間を「95%信頼区間」と呼びます。

最後に、この「95%信頼区間」の導出方法を紹介しておきましょう。

母平均に対する95%信頼区間

母平均m、母標準偏差σの母集団から無作為抽出された大きさnの標本の平均\(\overline{X}\)について、nが大きいとき、母平均mに対する95%信頼区間は、

$$ \overline{X} – 1.96 \times \frac{σ}{\sqrt{n}} \leq m \leq \overline{X} + 1.96 \times \frac{σ}{\sqrt{n}} $$

と表されます。

おわりに:確率分布と統計的な推測は独学できる!

この記事では、確率分布と統計的な推測を独学したい人向けに基礎的な知識をまとめて紹介しました。

この記事で紹介した定理・式を使えば大抵の問題は解けるようになるので、ぜひチャレンジしてみてくださいね。

それでは!




皆さんの意見を聞かせてください!
合格サプリWEBに関するアンケート