はじめに:平均値とは何か?
平均値というワードは、中学3年のデータの分析の単元で出てきます。
データの読み取りの際には、「平均値」がどのようなものなのかを知識として知っておかないと問題は解けないようになっています。
さらに厄介なことに平均値とともに「中央値」、「最頻値」というワードも一緒に出てきて混乱しがちです。
そこで今回は平均値とは何かを説明するとともに、他の用語との違いは何なのかを解説していこうと思います。
ぜひ最後まで読んでいってください!
目次
平均値の求め方
学校の定期テストで平均点という言葉を聞いたことがあると思います。
この場合の平均点というのは、全てのテストの点数を足して、教科数で割った値です。
このように平均値とは、「データを全部足してデータ数で割ったもの」をいいます。
試しに先ほどの定期テストを例に挙げて実際に平均値を求めてみましょう。
A君は10月に中間考査を受けました。次のグラフはその点数の一覧です。
A君のテストの点の平均点を求めてみましょう。
平均の求め方は「全てのテストの点数を足して、教科数で割る」でしたね。
よって、\[\displaystyle \frac{ 64+58+79+47+82 }{ 5 }=66(点)\]となります。
平均の求め方は以上です。
最後に平均値を求めることのメリット、デメリットを紹介しておきます。
平均値のメリットは「全てのデータについて考えることができる」ということです。
この特徴は平均値だけが持っています。
一方、デメリットは「特定の値(外れ値)に影響されやすい」ということです。
どういうことかというと、先ほどのA君の国語の点数を\(64\)点から\(0\)点にしてみましょう。
A君のテストの平均点は、\[\displaystyle \frac{ 0+58+79+47+82 }{ 5 }=53.2(点)\]となります。
たった一教科の点数を変えただけなのに平均点は\(12.8\)点も下がってしまいました。
このように平均値は特定の値(ここでは\(0\)点のこと)に大きく左右されてしまうのです。
以上が平均値の紹介です。
平均値などを求めるときには単位を忘れないようにしてください。
(先ほどの例で言えば「点」のことです。)
減点されても文句は言えないと思いますので、問題を解くときに常に単位をつけることを意識するようにしてください。
平均値、中央値、最頻値の違い
データの分析の単元では、平均値とともに中央値、最頻値というものがセットで出てきます。
この3つが代表値と言われるものの中で有名なものになります。
代表値とはデータ群の特徴を一つの数値で表したもののことをいい、平均値、中央値、最頻値が有名どころです。
ここでは主に中央値、最頻値とは何か、そのメリット・デメリットは何か、平均値とはどのように違うのかを説明していこうと思います。
中央値とその求め方
中央値とは、「データを大きい順(または小さい順)に並べたとき、真ん中に来る値」のことを言います。
中央値はメジアンと呼ばれたりもします。
真ん中の値を図で確認してみましょう。
データの数が奇数個のときは真ん中の値がちゃんと出てきましたが、偶数個のときは真ん中がありません。
偶数個のときはどうするのでしょうか?
データの数が偶数個のときは真ん中の2つのデータを足して2で割るという作業によって中央値を得ます。
中央値のメリットは「特定の値(外れ値)に影響されにくい」ということです。
一方、デメリットは「全てのデータを十分に考慮できていない」ということで、平均値と全く逆の性質を持っています。
例で確認してみましょう。
A君のクラスでは、20点満点の英単語の小テストが行われ、A君からE君までの得点は下の表のようになりました。
この得点のデータを点数の低い順から並び替えると、2点、4点、6点、7点、12点となり、中央値は6点となりますね。
仮にB君が満点の20点をとったとしましょう。
しかし、データは点数の低い方から並び替えても2点、4点、6点、7点、20点となり、中央値はD君の6点のままですよね?
このように中央値の場合、20点のような特定の外れ値の影響は少ないですが、優秀なB君の点数が完全に無視されてしまいます。
以上が中央値の説明です。
最頻値とその求め方
最後は最頻値です。
最頻値とは「データの中で最も頻度が高い値」のことをいいます。
つまり、データが最も集中している値のことです。後ほど例を出して確認します。
最頻値はモードといったりもします。
例で確認してみましょう。次の表は、A君からF君の6人の数学の評定をまとめたものです。
このデータの最頻値を求めてみましょう。
最頻値とはデータが最も集中している値のことでした。
そこで、表を見てみると評定が3のところに3人と人が最も集中していますよね。
よって、最頻値は3となります。簡単ですよね。
最頻値のメリットは中央値同様に「特定の値(外れ値)に影響されにくい」ということです。
評定が3のところに最も値が集中しさえしておけば、残りのデータがどこにあろうと影響はありませんね。
一方で、デメリットは「一つに決まらないことがある」ことや「サンプル数が少ないと使えない」ことが挙げられます。
「一つに決まらないことがある」とは例えば、先ほどの評定の例で考えてみると、評定が2、3、4のところに2人ずつ分布していたとすると最頻値が決定できません。
「サンプル数が少ないと使えない」とは、例えば5人のテストの点数が32点、32点、72点、74点、75点だったとしましょう。
感覚的には最頻値が70点台かなぁと思ってしまいますが、実際の最頻値は32点ですよね。
このように母集団が少ないとデータがぴったり一致することは珍しいので、変なところ(感覚とズレるところ)に最頻値が来ることが多いのです。
以上が最頻値の説明です。
最後に平均値も含めたまとめをしておきます。
- 平均値:全部足してデータ数で割ったもの
メリット:全てのデータについて考えることができる
デメリット:特定の値(外れ値)に影響されやすい - 中央値:データを大きい順(または小さい順)に並べたときの真ん中の値
メリット:特定の値(外れ値)に影響されにくい
デメリット:全てのデータを十分に考慮できていない - 最頻値:データが最も集中している値
メリット:特定の値(外れ値)に影響されにくい
デメリット:一つに決まらないことがある、サンプル数が少ないと使えない
つまるところ、1つの代表値だけで物事を考えるのは、偏りが出てよくないということなのですね。
平均値と中央値が同じ値になることもありますが、それは偶然ですので注意してくださいね。
平均値の練習問題
最後に平均値を求める問題にトライしてみましょう。
練習問題1
次の表はあるクラスの6人の身長を示している。
このデータの平均値を求めよ。
練習問題1の解答・解説
平均値は全部足してデータ数で割ったものでしたので、身長を全部足して、人数の6で割れば良いのですね。
答えは\[\displaystyle \frac{ 157+163+148+155+174+163 }{ 6 }\]\[=\displaystyle \frac{ 960 }{ 6 }=160\]となり、
答えは\(\style{ color:red; }{ 160(cm) }\)になります。
ちなみに解説を省略しますが、中央値は\(\displaystyle \frac{ 157+163 }{ 2 }=\style{ color:red; }{ 160(cm) }\)、最頻値は\(\style{ color:red; }{ 163(cm) }\)となります。
この問題では平均値と中央値が同じになりましたが、たまたまですのでいつも同じになるわけではありません。
まとめ:平均値・中央値・最頻値を扱うときは、言葉の意味を覚える!
いかがでしたか?
データの分析の単元は言葉の意味をきちんと覚えてさえいればさほど難しい単元ではありません。
問題を解く前にきちんとまずは平均値、中央値、最頻値がどのようなものだったかを確認しましょう!
もし言葉の意味を忘れてしまったと感じたら、すぐに確認するようにしましょうね。