2015年2月19日木曜日

エクセル散布図で相関関係・相関係数を確認する便利な方法

しばしば,大量のデータを前にして相関関係の有無を探索的に確認しなきゃいけない作業というのがあります.

例えば以下の様なデータ.
上記の例では,テストA〜Eという5つしかありませんけど,場合によっては何十個もの列が並んでいるデータに出くわすことがあります.
それについて以下のように2つの列(変数)を選択してから・・・,
そして,下図のように【グラフ】から散布図を作成して,その散布図がどのようにプロットされるのか,ということから相関関係の有無を確認するというのが一般的です.
(以下の図,テストAとテストBの間には相関関係は見られないようですね)
これを「テストAとテストB.以下,AとC,AとD,AとE,BとC,BとD・・・」
という感じでずーっと確認していきたい,ということがあります.

今回の記事では,この作業をスムーズにする方法をご紹介しようというものです.
※ここでは「エクセルMac2011」を使って紹介していますが,ほぼ全てのエクセルにおいて同じ操作が可能です.

早速その作業方法ですが,
まずは散布図を作ってもらって,それを少し改造していきます.

とりあえず,下図のようにグラフ右側に出てくる邪魔な「系列」の表示を削除(「系列」を選択してDeleteキーで消せる).

次に,散布図にプロットされる点々を右クリックして下図のようなメニューを出して・・・,
そこに表示される「近似曲線の追加」 をクリックします.

するとこんなダイアログボックス画面が出てきますので,「オプション」を選んでもらって,「グラフにR-2乗値を表示する」にチェックを入れます.

そうすると,下図のように散布図の中にR二乗値が表示されるようになりますので・・・,

それを今度はその表示されたテキストボックス的なものをドラッグして,下図のように適当な位置に移してフォントを大きめにします(別にやらなくてもいいけど,その方が見やすから).
とりあえずこれで準備完了.

あとは,この散布図グラフを選択した状態で,その青い参照部分をドラッグ&ドロップすれば・・・,

こんな感じで・・・,
テストAとテストCの相関関係を確認することができます.
(AとCには強い相関があるようですね)
ご存知の方もいらっしゃるでしょうが,この散布図に表示させたR二乗値は,いわゆる「相関係数」を二乗したものです.
ですから,例えば上記のR二乗値は「0.85754…」となっていますので,その平方根をとった数値「0.92603...」が相関係数ということになります.電卓で計算すれば簡単です.

以降,同じように青い参照部分をズラしていけば・・・,

以下はAとD,

以下はAとE,
 という感じで確認していけます.

ところが,ここから先で不便さを感じる人がいます.と同時に,これが今回の記事の目玉です.

散布図グラフを選択した状態だと青い参照部分(Y軸)は自由に動かせるんだけど,紫色の参照部分(X軸)が動かせないから困っている
とか,
このデータベース配列のままでX軸とY軸を入れ替えたい
という学生は結構いるものでして.なので以下にご紹介する方法を教えてあげると大変喜ばれます.

その紫色の参照部分の動かし方ですが,グラフ自体を選択するだけでなく「プロットされている点々を左クリックして選択」した状態にします.
以下のような状態です.

すると・・・,
紫色の参照部分を掴んでドラッグできるようになりますので・・・,

下図のように,紫色の参照部分をテストAからテストBに移せるようになります.

あとは思いのまま自由に移していけば,どんなに大量のデータを前にしても相関係数を確認できるようになる,という寸法です.

でも,こんなことを仰る人もいるかもしれません.
「わざわざ散布図を出さなくても,相関係数を一気に算出する仕組みを作ってr値を確認しちゃえばいいのでは?」

たしかにそれも可能ですし簡単ではあるのですが,やっぱり散布図を出して確認することが大事です.
これは多くの統計学の教科書でも指摘されている点でもあります.

例えば,今回の例ですとテストBとテストDで相関係数を確認すると,以下のようになることを確認できます.
 R二乗値は「0.53686...」ですから,そこから算出できる相関係数は「-0.73271...」です.
かなりいい感じの相関係数の強さだなぁ,って思うかもしれませんが,散布図を良く見てください.
グラフの上部中央にプロットされている,他から大きく外れた値が確認できます.こいつが相関係数を強く見せていることが考えられるわけです.チェックしなければいけないデータかもしれません(入力ミスという場合もあるので,それを確認できたりする).

こういうのは相関係数だけを算出するだけでは分かりませんから,きちんと散布図で確認する必要があるのです.


確認した相関係数が有意かどうかを算出する方法はこちら↓
エクセルで相関係数のp値を出す

信頼性係数として扱いたい場合はこちら↓
信頼性係数をエクセルで算出する

関連記事


その他,こういう怪しいブログ記事よりも,ちゃんと勉強になる書籍もご紹介しておきます.
詳しくは,
独学で統計処理作業をスキルアップさせるための本
を御覧ください.