注目の投稿

アンケートだけで卒論・修論を乗り切るためのエクセルで相関係数の差を検定する方法

アンケートだけで卒論・修論を乗り切る統計シリーズ.
記事のシリーズには,現在,
アンケートだけで卒論・修論を乗り切るためのエクセルt検定
アンケートだけで卒論・修論を乗り切るためのエクセルχ二乗検定
アンケートだけで卒論・修論を乗り切るためのエクセル相関関係
があります.

卒論や修論のテーマを頑張って考えてみたけど,ぜんぜん思いつかない.
そのまま時は過ぎ,気がつけば論文を書き始めなきゃいけないボーダーラインまで来てしまった,という学生のためのシリーズとなっています.

目次はこちら
(1)対応のないデータによる相関係数の差の検定
(2)対応のあるデータによる相関係数の差の検定
(3)基準となる相関係数との差を検定する


今回お示ししているデータの元になっているエクセル・ファイルが欲しい人は,
このリンク先→「統計記事のエクセルのファイル」から,
「相関関係について」
「その他・目的別」
のところにある該当するファイルをダウンロードしてご確認ください.




(0)アンケート調査における相関係数の差を知りたいケース

処理方法が知りたいだけの人は,(1)対応のないデータによる相関係数の差の検定 まで飛ばしてください.

なんと言っても,使い勝手の良い分析方法である「相関関係」をいじり回せるという強みがあります。
相関関係というのは、以下のようなAとかBのグラフです.見たことがある学生も多いでしょう.


横軸と縦軸の関係性を示すことで,「Xが大きくなれば,Yも大きくなる」といったシンプルな主張を展開することができ,考察が比較的簡単です.

しかも,このグラフは情報量が少ない割に紙面の縦幅をとります.
ですので,ページ数が稼ぎやすくなります.
とりあえず早く卒論を提出して楽になりたい学生にとっては,強い味方です.

「気分が乗ってきたから,もうちょっと分析を深めたい」とか,指導教員から「こっちよりもこっちの方が相関係数が強い/弱いだけじゃなく,明確に差があるかどうか分析しなさい」と言われた場合,どうすればいいのか?

今回の記事は,相関関係の分析について知っていることが前提になります.
もし相関関係についての知識が怪しい場合は,あらかじめ,
アンケートだけで卒論・修論を乗り切るためのエクセル相関関係
を読んでおいてください.

例えば,上記のAとBのグラフは,どちらもp値が0.05未満です.
しかし,どう見てもAの方がBよりも「相関関係がより強くある」ようです.
これを示すためにはどうすればいいのでしょうか?






(1)対応のないデータによる相関係数の差の検定

相関係数(r値)の差を検定する方法には,いくつかあります.
まず,以下のようなデータの場合からご紹介します.

これは,「給料と幸福度」の関係性をアンケートしたものと考えてください.
それを男性と女性とで分けられるようにしています.



給料と幸福度の関係性をみるため,グラフで相関関係を見てみると以下のようになりました.

見るからに相関関係が確認できますし,相関係数も「r= 0.76」ということも分かりました.

そこで今度は,この相関関係を「性別」で見ることにしました.
それがこちらです.


すると,女性は相関関係が弱いのに対し,男性はかなり強めになっています.
相関係数を算出してみると,
女性は「r = 0.534」,
男性は「r = 0.894」でした.

しかし,いずれも相関係数のp値は0.05未満であり,有意です.
つまり,どちらも「給料と幸福度には相関関係が認められる」ということになります.

そうは言っても,見るからに「男性の方が,女性よりも給料と幸福度の関係性が強い」ようですので,そのように言いたいところです.

それを統計学的に支持するには「相関係数の差の検定」を行います.
算出方法は以下の通りです.

なお,ここで紹介しているデータのことを「対応のないデータ」と言います.
詳細は後述する「対応のあるデータ」の検定の説明と合わせてご覧ください.

まず,さっきのデータを元にして,N数(調査した人数)とr値(相関係数)を算出し,次に「Z値」を出します.
その計算の様子がこちらです.



F列のところに男女のN数(15名ずつ),G列に男女別で相関係数を出しました.
その値を使い,Z値を出します.

女性のZ値を,H列2行目に出しています.
算出する式は,

=(1/2*LN((1+G2)/(1-G2)))

です.

同じようにして,男性の方も算出しました.


H列3行目に入れていますので,

=(1/2*LN((1+G3)/(1-G3)))

です.

その後,N数(調査した人数)と,Zを使ってもう一つのZを作ります.

算出式は,F列5行目に,

=ABS((H2-H3)/SQRT(((1/(F2-3))+1/(F3-3))))

を入れています.

最後に,このZの有意性をみるために,NORMSDISTの関数を使ってp値を求めます.


算出式は,

=2-(NORMSDIST(F5))*2

です.

全部まとめたものを以下にお示しします.
p値は「 0.038 」でした.
つまり,統計学的に有意と言える「0.05未満」です.

これで,自信を持って,
「男性は女性よりも【給料と幸福度】の関係性が強い」
と主張することができます.





(2)対応のあるデータによる相関係数の差の検定

前述してきた「対応のないデータ」に対し,「対応のあるデータ」というのは以下のようなものです.

エクセルにまとめると,このようになります.
ここでは授業の成績を調査したものと考えてください.
専門科目,国語科目,数学科目の3つの成績(点数)をデータとして使っています.


これを,それぞれの成績に相関関係があるか調べようというものです.
実際には,以下のような散布図になります.

相関係数を算出すると,
専門と国語には「p = 0.86」,
専門と数学には「p = 0.57」であり,
いずれも有意な相関関係が認められました.

つまり,専門科目の成績は,国語と数学の成績と相関関係にあると言えるのです.

しかし,もっと言えば「専門科目の成績は,数学よりも国語の成績が強く影響しているようだ」とも言えるように思います.
その点を分析しようというのが,今回の検定です.

このようなデータは「同じ対象者のデータから算出された相関係数を比較する」ことになるので,前掲してきた「男女別で算出した相関係数」とは異なる性質があります.
これを「対応のあるデータ」と呼びます.


算出方法は以下の通りです.

まず用意するのが,N数(調査した人数)と,お互いの相関係数です.
注意してほしいのが,今回の場合は「専門科目と他2つ」の相関係数を調べたいのですが,「他2つ(つまり国語と数学)」同士の相関係数も算出しておくことです.



G列のところに,それぞれ算出しました.

次に,算出に必要な自由度と行列式を用意します.


自由度は,「N数 − 3」です.
今回は20人ですので,「17」になります.

行列式は,それぞれの相関係数から求めます.
G列7行目に,

=(1-G2^2-G3^2-G4^2)+2*G2*G3*G4

と入れています.

次はその行列式とN数,各相関係数を使って「t値」を出します.


画像では算出式が入り切らないので省略しました.
以下のような式です.G列8行目に,

=ABS(G2-G3)*SQRT((G1-1)*(1+G4))/SQRT(2*G7*(G1-1)/(G1-3)+(G2+G3)^2*(1-G4)^3/4)

と入れています.

t値が出れば,そこから「TDIST」関数によってp値が算出できます.
G列9行目のところに,t値と自由度,あと最後に「2」を指定してp値を出します.

=TDIST(G8,G6,2)


最後にすべての状態をお示しします.

このように,p値は「0.0418」ですから,
専門と国語の「p = 0.86」と,
専門と数学の「p = 0.57」には,
有意な差が認められました.





(3)基準となる相関係数との差を検定する

先行研究を基にして,同じようなアンケート調査をする卒論のパターンは多いものです.
そのような先行研究の中には,項目間で相関関係を分析し,その相関係数(r値)を出しているものもあるでしょう.

この先行研究で提示されている相関係数と,今回調査したデータによる相関係数を比較したい場合もあります.
その場合はどうするのでしょうか?

たとえば.最初に示した「給料と幸福度の相関係数」について,先行研究でも同じものがあったとします.

これを分析してみましょう.
仮に,他の論文で示されている相関係数が「r = 0.537」だったとします.
以下のように,それをE列とG列の2行目に書き込みました.
そして,今回のデータは3行目に入れています.ここでは男女合わせた30名のデータで,相関係数は「r = 0.756」として分析しています.


必要なのは,今回のデータのN数だけです.
今回の相関係数と比べたい相関係数にはN数はいりません.


まず,Zを算出します.
H列2行目に,

=(1/2*LN((1+G2)/(1-G2)))

を入れます.

これを今回のデータによる相関係数でも同じように算出して,両者からZを算出します.
今回のデータによるN数のみになりますので,この部分が以前とは異なります.
F列5行目のところに,

=ABS(SQRT(F3-3)*(H2-H3))

を入れて算出しましょう.

最後に,このZからp値を出します.
やり方は以前と一緒です.


=2-(NORMSDIST(F5))*2


算出結果がこちらです.

0.05未満ですので,有意になります.

これにより,
「今回調査した人たちは,他の論文や調査で対象とした人たちと比べて,【給料と幸福度の関係性が強い】ようだ」
と解釈することができるようになります.


今回紹介した手法は,
で詳しく解説しています.こちらもどうぞ.


もっと詳しく知っておきたい人や,用語がよく分からなくて困った人,もうちょっと高度なことがしたいという人は,以下の書籍を買ったり図書館で見つけて読んでください.
  


手計算で算出するのが面倒な人は,思い切ってエクセル統計の購入をオススメします.
 


関連記事
アンケートだけで卒論・修論を乗り切るためのエクセルt検定
アンケートだけで卒論・修論を乗り切るためのエクセルχ二乗検定
エクセル散布図で相関係数・相関係数を確認する便利な方法
エクセルでの簡単統計(相関関係)