【3分で分かる!】相関係数の求め方(練習問題つき)

皆さんは相関係数について知っていますか?

学校でも詳しくやらない高校が多いですし、センター試験でも影が薄くて名前だけ知ってるという人が大半なのではないでしょうか?

しかし、センター数1Aでは選択問題として大問でデータの分析を出してきますし、侮ることはできません。

今回はそんなデータの分析のラスボス的存在である相関係数について解説していこうと思います。

是非最後まで読んで、相関係数についてマスターしてみてくださいね!

相関係数ってなに?

教科書にちらっと出てくる相関係数。
いまいちイメージがつかみにくいですよね?

定義の式もなんでそうなるのかわからない…という人も多いかと思います。
どうせやるなら単に暗記ではなく、理解して覚えたいですよね!

では、相関係数っていったいどのようなものなのでしょうか?

Wikipediaによると
相関係数とは「2つの確率変数の間にある線形な関係の強弱を測る指標」ということらしいのです。
しかし、イメージが湧きにくい…

ここで、この定義をもっと噛み砕いでみると「2つのデータの間の関係を表す指標」ともいえそうです。
よって、2つのデータに関連性がみられるときに相関係数は大きくなるということです。

先ほど「線形」と出てきましたが、データのグラフで個々のデータの集まりが線のようになっていれば相関係数は大きいということになります。

ここで例をあげましょう。男子高校生の身長と体重に関するデータを集めてみたとします。

スクリーンショット 2017-11-09 11.14.10

ご覧のように、個々のデータの集まりが線のようになっていれば、相関関係は強いということになります。
もちろんこれは、見た目の問題であって正確ではありません。

そこで、この相関を数値化したものが相関係数というわけです。
相関係数を使うことによって、相関の強さのわずかな違いも比較することが可能になります。

では、相関係数の具体的な説明に入っていきます。

相関係数は先ほども言った通り、データの集まりを数値化して比較しやすくしたものです。
その数値ですが、必ず-1から1の間をとります。

相関が大きい場合は、1か-1に近づき、相関が小さい場合は0に近づきます。
目安ですが、相関係数の値による相関の強さは以下のようになっています。

スクリーンショット 2017-11-09 11.29.49

では、相関が強いと言っても相関係数が1の場合と-1の場合では、何が違うのでしょうか?

相関係数が0より大きい時は正の相関、0より小さい時は負の相関があるといいます。
これは、どういう意味でしょうか?

例えば、あるクラスの生徒の勉強時間とテストの点数の相関を考えてみましょう。
イメージですが、勉強時間を多くとっている生徒ほど、テストの点数が高そうですよね?
このように一方が高くなればなるほど、他方も高くなる相関にある時、これを正の相関と言います。

一方で次は、信号機の設置台数と交通事故の発生件数の相関を考えましょう。
なんとなくですが、多く信号機の設置されている方が事故の発生が少なそうですよね?
このように、一方が高くなればなるほど、他方が逆に低くなる相関にある時、これを負の相関と言います。

グラフ上で言えば、このようになります。

スクリーンショット 2017-11-11 15.07.38

つまり、相関係数が1の時は正の相関が一番強い、-1の時は負の相関が一番強いということになります。

以上が大まかな相関係数の説明になります。
次は具体的な相関係数の求め方について説明していきます。

相関係数の求め方

では、相関係数の求め方を説明していきます。

\(x\)、\(y\)の相関係数を\(r\)とします。

また、あとで説明しますが、\(x\)、\(y\)の共分散を\(S_{ xy }\)、\(x\)の標準偏差を\(S_x\)、\(y\)の標準偏差を\(S_y\)とします。

相関係数は、\(\style{ color:red; }{ r=\displaystyle \frac{ S_{ xy } }{ S_xS_y } }\)で求めることができます。

したがって、共分散と標準偏差がわかれば相関係数が求められるというわけです。

そこで、一旦相関係数の求め方の説明を終えて、共分散・標準偏差の説明に移っていこうと思います!

相関係数攻略の鍵:共分散

共分散とは、「2つのデータの間の関係性を表す指標」です。
共分散は、2つの変数の偏差の積の平均値で計算できます。

個々のデーターの値が平均から離れていればいるほど、共分散の値は大きくなっていきます。
したがって、関連性が小さいと、共分散の値は大きくなっていきます。

2つのデーターを\(x\)、\(y\)とすると、共分散は一般的に\(S_{ xy }\)と表記されます。

共分散は、\[\style{ color:red; }{ S_{ xy }=\displaystyle \frac{ 1 }{ n }\displaystyle \sum_{ i = 1 }^{ n } (x_i-\overline{ x })(y_i-\overline{ y }) }\]で求められます。

例を出しましょう。

数学のテストの点数と英語のテストをある高校の1年1組で行ったとします。
その得点表は次のようになりました。

スクリーンショット 2017-11-15 14.01.56

この数学と英語のテストのデータの共分散を求めてみましょう。

共分散を求める手順は、以下の3ステップです。
①:それぞれのデーターの平均を求める
②:個々のデーターがその平均からどのくらい離れているか(偏差)を求める
③:②で求めた偏差をかけ算して、平均値を求める

では、このステップに基づいて共分散を求めていきましょう!

まずは①です。
これは簡単です。単純に平均値を取るだけです。
平均は、全部のデーターを合計して個数で割って求めますね。
またデーター\(x\)の平均値を\(\overline{ x }\)と表します。

よって、数学のデーターを\(x\)、英語のデーターを\(y\)とすると、平均値は
\[\overline{ x }=\displaystyle \frac{ 1 }{ 5 }(64+45+89+77+65)=\style{ color:red; }{ 68 }\]

\[\overline{ y }=\displaystyle \frac{ 1 }{ 5 }(74+39+96+72+69)=\style{ color:red; }{ 70 }\] になりました。

次に②です。偏差を求めていきます。
偏差は、平均値とどれだけ離れているかを表す指標です。
よく偏差値とか言いますが、あれも平均値からどれだけ離れているかを表しています。
ただ、ここでいう偏差とよく使う偏差値は別物ですので注意してください。

やり方は単純です。全部のデーターを平均値から引き算します。
そうして集めたデーターが下のようになります。
・数学
スクリーンショット 2017-11-15 14.17.40
・英語
スクリーンショット 2017-11-15 14.21.20

これで②の作業は終了です。

③に移ります。最後に偏差の積\((x_i-\overline{ x })(y_i-\overline{ y })\)の平均を出せば共分散が求まります。
よって、次は\((x_i-\overline{ x })(y_i-\overline{ y })\)の表を作ります。

偏差の積はAさんならAさんの偏差の積、BさんならBさんの偏差の積などそれぞれについてやっていきます。

スクリーンショット 2017-11-15 14.32.59

あとは、偏差の積の平均値を出せばおしまいです。
よって、共分散\(S_{ xy }\)は\[S_{ xy }=\displaystyle \frac{ 1 }{ 5 }(-16+713+546+18+3)\]\[S_{ xy }=\style{ color:red; }{ 252.8 }\]になります。

いかがでしたか?
少しイメージが湧きにくいとは思いますが、共分散の値が大きくなればなるほどデーターの散らばりが大きくなっていることが理解できていればOKですよ!

相関係数攻略の鍵:標準偏差

次は、相関係数を求める式の分母で出でくる標準偏差について学習していきましょう。
標準偏差とは「データのばらつきの大きさを表わす指標」です。

あれ?と思った人はいませんか?共分散と変わらないじゃないかと思いませんでしたか?

2つの言葉の違いは、対象にしているデーターが違うからです。

共分散は2つのデーターの関係性を表す指標です。
一方で、標準偏差は1つのデーターについてばらつき具合を表す指標です。

ここの違いはしっかり押さえておいてくださいね。

標準偏差の表し方は対象のデーターを\(x\)とすると\(S_x\)と表します。

また、標準偏差は、「各データの値と平均の差の2乗の合計を、データの総数で割った値の正の平方根」というやり方で求められます。
式で書くと、\[\style{ color:red; }{ S_x=\sqrt{ \displaystyle \frac{ 1 }{ n }\displaystyle \sum_{ i = 1 }^{ n } (x_i-\overline{ x })^2 }}\]となります。

ここで√(ルート)がでできましたが、このルートがつかないものを分散と呼びます。
よく問題では、分散が問題文中で与えられるので、標準偏差を求めたければ、単純にルートをかけるだけでOKです。

式だけでは、よくわかりにくいので、こちらも例を出して考えましょう。

先ほどの共分散の例で出てきた、数学の標準偏差を求めてみましょう。
今一度AさんからEさんまでの数学の点数と偏差をみてみましょう。

スクリーンショット 2017-11-15 15.13.11

今回は公式にもある通り、偏差を2乗します。

これはなぜかというと、2乗をしなければ\(S_x\)の値は必ず\(0\)になるからです。
常に\(0\)になれば、データーのばらつき具合を比較することができなくなってしまいますよね。
そのため、偏差を2乗して\(0\)になるのを防いでいるというわけなのです。

では、偏差を2乗した値も表に加えておきましょう。

スクリーンショット 2017-11-15 15.20.05

あとは、偏差の2乗の平均値を求めて、ルートをつけてあげれば終わりです。
よって、\[\displaystyle \frac{ 1 }{ 5 }(16+529+441+81+9)=\displaystyle \frac{ 1076 }{ 5 }\] \[S_x=\sqrt{ \displaystyle \frac{ 1076 }{ 5 } }=\style{ color:red; }{ \displaystyle \frac{ 2\sqrt{ 1345 } }{ 5 }
}\]が標準偏差になります。

いかがでしたか?
今回の例は少し複雑でしたが、ちゃんとした問題であれば整数として標準偏差が求まることが多いです。
面倒な計算を毎回しなければならないわけではないので安心してください。

相関係数を求める際のポイント

ここまで、相関係数を求めるために必要な共分散・標準偏差の求め方を説明してきました。

相関係数を求める際には、必ず共分散・標準偏差を計算しなければなりません。
逆を言えば、共分散と標準偏差が求められてさえいれば、あとは公式に当てはめるだけで相関係数は求めることができます。

そして、センター試験などで相関係数を求めるときなどは、基本的に誘導ではじめに共分散と標準偏差を求めるように要求されます。
したがって、相関係数だけを求めろという問題は少ないということを知っておくと良いです。
誘導に素直に従い、あとは公式をキチンとおさえられていれば、自然な形で相関係数を求めることができますよ!

相関係数の練習問題

では、最後に相関係数を求める問題を解いてみましょう。

問題

20人の生徒に対して、20点満点で行った国語と英語のテストの得点のデータについて、それぞれの平均値、分散を調べたところ、下の表のようになった。
スクリーンショット 2017-11-16 1.03.19

ただし、テストの得点は整数値であり、表の数値は四捨五入されていない正確な値である。

(1)国語と英語の共分散は\(4\)であった。このとき、国語と英語の相関関係を求めよ。

また、2つのデーターの間にはどのような相関があるか。
正の相関がある負の相関がある相関関係にないのいずれかで答えよ。

(2)新たに1人の生徒について国語と英語のテストを行ったところ、国語の得点は10点、英語の得点は12点であった。
この生徒の得点を含めて計算し直したときの新しい共分散を\(A\)、もとの共分散を\(B\)、新しい相関係数を\(C\)、もとの相関係数を\(D\)とするとき、\(A\)と\(B\)、\(C\)と\(D\)の大小関係をいえ。

問題の解答・解説

(1)の問題を解く前に今一度、相関係数の求め方をおさらいしておきましょう。
仮に今回の国語の得点のデーターを\(x\)、英語の得点のデーターを\(y\)とします。
相関係数\(r\)は、\[r=\displaystyle \frac{ S_{xy} }{ S_xS_y }\]でしたね。

今回は分散が問題文中で与えられているので、標準偏差はそれにルートをかけるだけで簡単に求められそうです。
あとは共分散ですが、これはもろに問題文中に\(4\)と与えられていますね。

よって、\[r=\displaystyle \frac{ 4 }{ \sqrt{ 6.4 }\sqrt{ 6.4 } }\]となり、最終的な答えは\[\style{ color:red; }{ r=\displaystyle \frac{ 5 }{ 8 }}\]になります。

また相関ですが、\(r>0\)であることから、正の相関があります。
これで(1)は終わります。

次に(2)に移ります。
ここで登場してくる新しい生徒ですが、国語、英語共に平均点と同じ点数です。
共分散の公式的に考えると、この人が加わったことで平均点に変動がないわけです。

ちなみに共分散の公式をおさらいしておくと、\[S_{xy}=\displaystyle \frac{ 1 }{ n }\displaystyle \sum_{ i = 1 }^{ n } (x_i-\overline{ x })(y_i-\overline{ y })\]です。

問題の指示に従って、新しい共分散を\(A\)、もとの共分散を\(B\)、新しい相関係数を\(C\)、もとの相関係数を\(D\)と表記します。

よって、
スクリーンショット 2017-11-16 1.40.41
になります。
新しい生徒の得点は平均点と変わりがないわけですから、この生徒の得点の偏差の積は\(0\)です。

ゆえに、\[A=\displaystyle \frac{ 20 }{ 21 }B\]であることがわかりました。

よって、\[\style{ color:red; }{ A<B }\]が答えになります。

次は相関係数の大小関係を調べていきます。

もとの相関係数\(D\)をまず押さえておくと、
スクリーンショット 2017-11-16 1.18.48
です。

共分散のところでやったように、\(A=\displaystyle \frac{ 20 }{ 21 }B\)となっていました。
では、標準偏差はどのようになっているのでしょうか?

標準偏差の公式をおさらいしておくと、データー\(x\)の標準偏差は\[S_x=\sqrt{ \displaystyle \frac{ 1 }{ n }\displaystyle \sum_{ i = 1 }^{ n } (x_i-\overline{ x })^2 }\]です。

こちらも新しい生徒も含めたものを求めてみます。
スクリーンショット 2017-11-16 1.37.29
共分散と同様に、新しい生徒の得点の偏差はデーター\(x\)、\(y\)に関わらず\(0\)になります。

よって、データーが\(x\)、\(y\)のいずれであっても
スクリーンショット 2017-11-16 1.27.28
になるのですね。

よって、新しい相関係数\(C\)を求めると
スクリーンショット 2017-11-16 1.31.43

ここで、分母と分子の\(\displaystyle \frac{ 20 }{ 21 }\)が打ち消しあうために、
スクリーンショット 2017-11-16 1.18.07
となって、なんともとの相関係数と同じになってしまうのです!

よって、(2)の最終的な答えは\[\style{ color:red; }{ C=D }\]となります。

相関係数のまとめ

いかがでしたか?

ややこしい数が多く出てくるし、何しているかわからないしで、苦手としていた人も少しは言葉の意味や、求め方の意味がわかっていただけたでしょうか?

センターでは避けては通れないデーターの分析。
その最終ボスとも言える相関係数を早いうちから理解しておきましょう!

データーの分析はやらなくなるとどんどん忘れていくので、忘れたらすぐに公式を確認するようにしましょうね。




皆さんの意見を聞かせてください!
合格サプリWEBに関するアンケート