2011年8月31日水曜日

あまり知られていないt検定

あんまり(少なくとも私たちの分野では)知られていないt検定を取り上げます.

めっちゃ基礎的な統計学の本とか,研究方法を取り扱ったテキストなんかでは掲載されているのですが,私自身知らなかったこともあってあまり使ったこともありません.

一般的には 「1サンプルのt検定」 と呼ばれ,標本集団の平均値と母集団の平均値とを比較するt検定です.
SPSSにも装備されていて,ここでは「1サンプルのT検定」 という名称がついています.
for Windows Ver 11.0では以下のような表示です.

t検定といえば繰り返しのあるデータ同士の比較 (いわゆるあのt検定) だけだと思っていたのですが.

いつの頃だったか,友人から,
「今回の実験で測定した値が,標準値と比べて有意な差があるかどうかを検定する方法ってわかる?」

って聞かれて初めて,
「そういえば知らないなぁ.でも,あったら利用価値は高いよなぁ」
と思いながら調べた記憶があります.



この検定は簡単な研究報告とか卒論レベルでの利用価値が高いかと思います.
これからの季節は学生たちの無計画な卒業研究と実験や調査が始まる時期です.

適当な友達を集めてとりあえず何か測定したんだけど,その測定値が何を意味するのか分かんないので指導教員に聞いてみたら 「自分で考えろ」 と突っぱねられたので,仕方なく私のところに来た.というパターンが考えられます.

無計画な実験なので対照群とかを用意していることもなく,今から測定しろよと指示すると 「就活があるから...」 などと言って逃げまわるので,とりあえずそこにあるデータをいじるしかないオチです.
しょうがないので 「全国標準値と比べてみるか」 なんて状況になるんですね.

まぁ,測定したデータをパッと見て,印象だけで 「高い/低い」 「優れている/劣っている」 と結論づけちゃうよりは,
「データは統計学的な手順を踏んで有意性が認められないと,断定的な物言いはできないよ」
ということをわかってもらうだけでも十分だと思うんです.
研究活動というものに特段興味を示す学生以外にとっては,きっちりとした実験とか調査をやらせるだけ骨折り損のくたびれ儲けです.
卒論という活動を通じて,少なくともデータを解釈する重要性を伝えたいものです.卒論をやる価値はそこにあるのではないかと.

そんなわけで,学生自身に統計学的なフィルターを通すことの重要性を学んでもらうためにも,まずはアナログ式にExcelでの計算方法を学ばせるのも一考です.



SPSSでやってもいいのですが,操作を覚えさせるだけでも大変ですから.
そんなに難しくないので,Excelで計算できるようになっちゃいましょう.

以下のようなシートを作成します.

D列4行目とE列4行目は算出済みの数値を入力するだけで構いません.
C列4行目は,特に気にせずその時のN数(対象者数)を入力するだけでOKです.

比較したい母集団のデータですが,平均値がわかっていればOKです.D列3行目に入れています.

今回の例では「全国調査時の平均が30だった.今回の調査対象の平均は33.4だった.対象者は22名,標準偏差は6.4だった」 ということにして入力しています.


t検定をするわけですから,t値を算出するのですが,それをやっているのがC列6行目のセルです.式は以下のとおり.

=(D3-D4)/(E4/SQRT(C4))
おまけとして,このt検定の計算式を下に示します.
M : 母集団の平均値
μ : 標本集団の平均値
SM : 標本集団の標準偏差
n : N数(対象者数)

これでt値が算出できましたので,このt値からP値を求めたのがC列7行目です.

=TDIST(ABS(C6),C4-1,2)
統計の算出式の仕組みに興味がない人は,気にせずそのまま入力してください.
これで,1サンプルのt検定シートが完成です.


これをSPSSでやった場合も紹介しときます.
上記の例と同じデータを扱っています.
こんな感じのデータとして入力し,「1サンプルのT検定」 を選択します.

こういう画面が出てきますので,検定したいデータが入った列を 「検定変数」 のところに放り込みます.
そして,「検定値」 の部分を全国調査の平均である30と入力してOKをクリックです.
そしたら,以下のような結果の画面が出てきます.
Excelで検定した場合と全く同じ結果になるはずです.



あと最後に,以前紹介したt検定の時みたいに,一気にバーっと検定する方法もやっときます.

「t値なんてどーでもいいから,P値だけ知りたい」 というのが本音でしょうから,以下の例では,それ用の計算式にしています.
ポイントとしては,「基準値(比較したい数値)」 を列に揃えて並べておくことでしょうか.
当たり前のことかもしれませんが,念のため指摘しておきます.これでオートフィルしたときに自動的に参照してくれるようになりますので.

=TDIST(ABS((B14-B12)/(B13/SQRT(COUNT(B2:B11)))),COUNT(B2:B11)-1,2)
そしてこれをオートフィルします.
一気にP値を算出できます.

計算式がどういう意味なのか?は興味がある人だけ調べてください.
まぁ,とりあえずこれで母集団と標本集団の平均値のt検定は可能です.


ここで1サンプルのt検定について重要なことをお話ししますので,あともう少し聞いてください.
このt検定は 「母集団と標本集団の比較」 という前提の検定です.
こんな場合は検定できませんので注意が必要です.

例えば,A大学の学生のテストの平均値だけ入手できたとします.
そんで,このA大学の平均値と自分とこの大学のテスト結果を1サンプルのt検定で比較しましょう,ということは実はできません.
こういうのは標本集団同士の比較ですので,一般的に知られている 「対応のないt検定」 をしなければいけません.

ゆえに,この場合はA大学の学生一人ひとりのテスト結果を入手せにゃならんということです.


あと,自分とこの大学の結果とは言え,「前回のテストの平均点だけわかっているから,それと比較」 というのもダメです.

検定可能なのは,自分とこの大学の全学生のテストの平均値 (これが母集団平均) と,その一部の学生である◯◯学科のテストの平均値 (標本集団平均) を比較する,といった場合です.

あとは一般的に認知されている不特定多数から得たデータ,例えば 「ヒトの基準値」 とか 「日本人の平均値」 といったものとの比較ならOKです.


次回は,これも学生から多い質問なのですが,
ノンパラメトリック検定での多重比較はどうすればいいか?
というやつです.
2群の比較ならMann-WhitneyのU検定やWilcoxonの符号付き順位検定で問題なくできますよね.

でも,SPSSなんかを使ってみると,Kruskal-Wallisの検定とかFriedmanの検定には 「その後の検定」 という多重比較検定の操作がありません.
なので,どうしたらいいのか?という疑問があるわけです.
これについて取り上げようと思います.


※統計的有意にこだわらないのであれば,
効果量(SE:effect size)をエクセルで算出する
がオススメです.

※後日,こんな怪しいブログよりも信頼性が高いものに触れてもらうよう,
独学で統計処理作業をスキルアップさせるための本
という記事を書きました.参照してください.

2011年8月30日火曜日

相関係数の差を検定したいとき(エクセルでできる方法)

下の図をご覧ください.
AとBどちらの図の相関係数が高いと思いますか?
当たり前ですが,Aの方です.


相関係数はそれぞれ,
Aは「 0.791 」
Bは「 0.423 」
です.
※いずれも四捨五入している.


よくある統計分析中の苦労話として,
t検定や分散分析などで平均値の比較をやったんだけど,なかなか有意性が見られない.ってんで,それでもなんとか実験結果に統計学的な有意差が欲しいから行き着いたのが 「相関係数に差があるか?」 というものです.

卒論のデータを分析している多くの学生,あと院生もたまにこの 「相関係数の差を検定できないか?」 を聞いてきます.


例えば,給料の額と幸福感の相関関係を調べたとしましょう.
例に出したAの方は女性グループ,Bは男性グループだとします.

男女別に給料と幸福感の間に「相関関係があるのか?」を分析したら,上記のような相関係数がでました.

どちらもN数(調査対象者数)は26名でした.
そんなわけで,前回の記事で紹介したように相関係数の有意性を求めたら,どちらも有意な相関があると認められることになります.
N数が26の場合は0.388以上の相関係数があれば有意だからです.

ということは,“男女ともに給料と幸福感の間には有意な相関がある” ということになっちゃって,結果が面白くなくなってしまいます.

それに,Bの男性は有意とはいえ,散布図としてみるとAの女性よりも相関関係が弱いように見えるじゃないですか.
ここで引き下がるのは悔しいものです.

こんなとき,相関係数の差の検定をやってみましょう.

2011年現在,相関係数の差の検定ができる統計ソフトは見当たりません.ちゃんと探せばあるのかもしれませんが,詳しく確認していません.
でも,そんなに難しい操作はせずともExcelで計算できますので,それを紹介します.


※ここで紹介しているのは,対応のないデータ同士による相関係数の差の検定方法です.
後日,対応のあるデータによる相関係数の差の検定,
対応のある相関係数の差の検定
および,基準値みたいな相関係数との差を検定する方法
基準となる相関係数との差の検定
こちらもご参考にしてください.


下の図をご覧ください.例に出していたAとBの相関係数の差を検定してみました.その結果も出ています.
C列8行目のところにP値を示しています.
p=0.034697ということで,A(女性)とB(男性)の相関係数には5%水準で有意な差が認められました.
これで胸を張って “給料と幸福感の相関関係は,女性のほうが男性よりも有意に強い” と言えるのです.

では,このExcelのシートはどのような仕組みになっているか少しずつ解説します.
このファイルを一つ作っておけば,何かの時に役に立つやもしれません.

まず,水色のセルはただの参照元セルですので,特に何かがあるわけではありません.
正直にN数(調査対象者数)と相関係数を入力するところとして用意しています.


なんでそんな関数とか式を入れるのか理由は後回しにして,その他のセルの中身を示します.
E列3行目,ここではグループAのZ値を求めています.式は以下のとおり.
「Z値って何?」っていうのはこのブログでは割愛します.別に勉強してください.

=(1/2*LN((1+D3)/(1-D3)))


次にE列4行目,グループBのZ値.

=(1/2*LN((1+D4)/(1-D4)))


次は,C列6行目のZ値.
ちょっとカッコがごちゃごちゃして見にくいですけど,がんばって入力してください.

=ABS((E3-E4)/SQRT(((1/(C3-3))+1/(C4-3))))


最後にC列8行目のP値を求める式です.

=2-(NORMSDIST(C6))*2

これで完成です.
あとは水色のセルに比較したい群やグループのN数と相関係数を入力すれば,赤色の部分にP値が自動的に算出されるようになります.


一応,相関係数の差の検定の式がどういう意味なのか説明しておきます.

まず,図中にある表の右端E列の「Z」というところは,グループAとBの相関係数をZ変換したものです.
こうすることで,正規分布に近似させることができましたので,両者を比較できるようになるのです.
意味不明かもしれませんが,あと少しなので聞いてください.

んで,この両者の比較をしているのが 「 Z= 」 の右隣にあるC列6行目のセルです.
まぁ,こういう式で比較するんだそうです.

最後に,そのZの値が有意かどうかを計算してP値を出しているのがC列8行目.
「NORMSDIST」 という関数を使うことで,なんとかなります.
なんで2から引き算したり2を掛け算しているのか?は説明が面倒なので省きます.


次回は,もう一度t検定について取り上げます.
「標本集団と母集団の平均値の比較」 というt検定ですが,意外とその存在が知られていません.
私自身もこのt検定はあんまり使ったことがないんですけど,けっこう用途が広いt検定です.頭の片隅に置いとくのもいいでしょう.
それをExcelで計算する方法をご紹介します.


※そもそも,相関係数のp値をエクセルで求めたいという場合,
エクセルで相関係数のp値を出す

※信頼性係数として算出したい場合,
信頼性係数をエクセルで算出する

参考文献:Jerry R. Thomas, Jack K. Nelson 著 田中喜代次・西嶋尚彦(訳) 『身体活動科学における研究方法』,池田央 著『統計ガイドブック』

※後日,こんな怪しいブログよりも信頼性が高いものに触れてもらうよう,
独学で統計処理作業をスキルアップさせるための本
という記事を書きました.参照してください.

 

2011年8月29日月曜日

エクセルExcelでの簡単統計(相関関係)

今回はひたすらExcelだけを使った相関関係についての統計処理です.

相関関係がどんなものか,簡単に説明しときます.
よく下の画像のような図を持ちだしてきて,

“xが大きくなればなるほど,yも大きくなる”
というような表現がされます.

1.解釈が簡単
2.視覚的にも訴えかけ易い
3.おまけにそのグラフを作る作業も楽
と三拍子そろっており,素人を騙すうえでも非常に強力なツールです.

研究やなんかでも多用される統計手法の一つで,とにかく解釈が簡単なうえに “いかようにも言い逃れできる” ところから,私としては最強の統計手法と位置づけています.

実際,適当な研究報告書とか説明資料をつくる時には重宝します.しかも相関関係を表す図は大きくなりやすいことから,ページ数を稼ぐ力もありますのでまさに言うこと無しですね.

マジメな話,それだけに解釈の仕方には十分に気を付けなければならない統計手法です.
・二酸化炭素が増加すると気温が高くなる
・警察官が多い都市ほど犯罪が多い
・お小遣いが多いお父さんほど給料が高い
なんていう統計おもしろネタは多いものです.
※これらは全て逆から読んだほうが正しい解釈の可能性が高い
でも,これらを本気で信じちゃう人もいるので注意しなきゃいけないのです.


前置きはこれぐらいで,さっそくExcelの操作方法です.
下に示した図のようなデータが典型的な例でしょうか.
では相関関係を示す統計処理として有名なピアソンの積率相関係数というのを出しましょう.
G列2行目のセルに以下の関数を入力し,データAとデータBの相関関係を求めます.

=PEARSON(B2:B27,C2:C27)
以上,基本的にはこれで相関係数の算出は終了です.

このあと,このままセルをオートフィルで右方向にひっぱって自動的に算出してもいいのですが.
私は以下の図のように,どことどこを参照しているのかタイトルを付けておいて,$マークをを使って参照元を固定しながら(この場合データAであるB列を固定),

そしてオートフィルします.
この調子で全部の組み合わせをやっていきます.
今回の例のデータはA~Eの5つですが,処理しなければいけないものによっては10も20もある場合があります.
そうなると1組ずつ関数を入力してたら疲れますので,このオートフィルで楽しましょう.
上記の説明を読んで何がなんだかわからない人は,Excelの使い方をググッてください.

データが10も20もある場合は,先の例に出したように右方向にずっと組み合わせを並べていくと途方もない長さになります.
以下のように並べ変えておくとよいでしょう.
このようにすれば,結果が見やすいですし,作業も横スクロールが少なくて済みます.


と,ここまではウォーミングアップです.
もっとパパっと相関係数を求める方法があります.ちょっと慣れないと手間ですが,相関係数をだすだけなら,この方法が楽だと思います.
前回の記事で扱ったアドインによる 「分析ツール」 のなかに 「相関」 という分析機能があります.これを利用する方法です.

※分析ツールのアドインについては別に調べてください.

以下が分析ツールの中にある相関です.
(ちなみに,これはExcel2007を使用した説明です)
このなかにある 「相関」 を選択した状態でOKをクリックします.
すると以下のような画面が出ますので,
入力範囲の右端にある赤青白のマーク部分をクリックして,選択範囲としてB列2行目~F列27行目までを選択します.
そしてさっきの画面に戻るので,データ方向が「列」になっていることと,出力オプションで「新規ワークシート」になっていることを確認してOKをクリックします.
すると以下のような新規ワークシートが出現し,一気に全ての組み合わせの相関係数を見ることができます.
列1というのはデータAのこと,データEは列5です.

というわけで,分析ツールをつかった相関係数の求め方は以上です.


最後に,大量のデータを一気に扱うことはできないけど,もっとお手軽に相関係数を求める方法というのを説明します.
まず,データAとデータBによる散布図を作成します.
散布図作成は端折っていきますが,以下のようにしてデータ範囲を選択し,
挿入タブからグラフの散布図を選択し,
以下のように散布図を作成します.
そして今度は,散布図の点々を右クリックするなどして「近似曲線の追加」を行ないます.
以下のような画面がでるので,四の五の言わずに 「グラフにR-2乗値を表示する」 にチェックを入れて「閉じる」をクリック.
そしたら,以下のようにグラフ中にR2乗値がでます.0.6251と出ていますね.
(わかりやすいようにフォントを大きくする修正をしています)
出てきたこの「R2乗値」ですが,これを手元にある電卓とかWindowsのアクセサリにある電卓機能などで平方根を返すと,
0.7906.....
という数値が出ます.

さっき関数や分析ツールで算出した,データAとデータBの相関係数と比べてみてください.
四捨五入の関係で若干数値が違いますが,ぴったり合っているはずです.

逆に,データAとデータBの相関係数である0.790603を二乗してみてください.0.62505....ということで四捨五入すれば0.6251になります.


散布図の近似曲線のところで追加できるR2乗値,実は平方根を返せばピアソンの積率相関係数と同じ値になるのです.

この方法の良いところは,「この組み合わせの相関係数を知りたいだけなんだよなぁ」 という場合に,グラフを作成しながら確認できることです.
案外利用価値は高いですよ.
例えば,大至急にミーティング資料や報告書用にグラフを作成しているという時に,その相関係数はどれくらいなのかという確認をチャチャッとやりたい場合,作業を並行しながら行えるという特長があります.

ちなみに相関係数を2乗した数値のことを「決定係数」といいます.
決定係数についてはまた別の機会にしますが,そういうものがある,ということで覚えといてください.


ところで,求めた相関係数が有意かどうかの確認はどうすればいいか?
という疑問があるかと思います.
SPSSとかエクセル統計なんかの統計ソフトには相関係数だけでなく,その相関係数が有意かどうかのP値も一緒に出てきます.

でも,この相関係数が有意かどうかの算出はめんどくさい上に,その確認は「相関係数の棄却限界」を示した表が出回っているので,やらない人が多いです.

※後日,実はそんなに煩雑ではない「エクセルで相関係数のp値を算出する方法」を取り上げました.
そちらを参照してください.
エクセルで相関係数のp値を出す

というわけで,以下にその相関係数の棄却限界の表を示します.
例えば,例として出したデータAとBの相関係数が5%水準で有意かどうかを知りたければ,表中の対象数26(自由度24)の5%のところを見ます.
すると,「0.388」ですね.
この数値よりも相関係数が大きければ有意ということなのです.
データAとBの相関係数が0.790603ですので,有意ということになります.

ただ,これは統計学上で有意な相関というだけで,0.6~0.7以上の相関係数がなければ「関係がありそうだ」とは言えない気がします(私的に).

体力測定などの信頼性を評価するのであれば0.8以上が必要な気もしますし,精密測定機器であれば0.999...(限りなく1)が求められたりするでしょう.

相関係数の解釈について,こればっかりはこの記事1本で説明は無理です.あらためて記事にします.

早く知りたい,納得したい人もいるかと思います.
こういったことは本を読んで勉強してください.
D・ロウントリー 著 『新・涙なしの統計学』田中喜代次/西嶋尚彦 監訳 『身体活動学における研究方法』とかを参考にしてみてください.


次回は,この相関係数に差があるかどうか?を検定する方法を取り上げます.
意外と学生から質問が多いのが,この相関係数の差の検定なもので.


※後日,こんな怪しいブログよりも信頼性が高いものに触れてもらうよう,
独学で統計処理作業をスキルアップさせるための本
という記事を書きました.参照してください.

信頼性係数はこちら↓
信頼性係数をエクセルで算出する

2011年8月28日日曜日

エクセルExcelでの簡単統計(対応のあるt検定と多重比較)

今回は対応のあるt検定の場合を解説します.
対応のあるt検定というのは,同じ集団から得られたデータを比較したい場合に用いるt検定です.
「対応のある」 というのは,同じ集団という意味として捉えてもらえればいいかと思います.



前回の記事ではA群とB群を比較していましたが,あれは例えばA群はサッカー選手,B群は野球選手から得られたデータ,といったように異なる集団を比較する場合です.
今回は,A群とB群が同じ集団である場合として状況設定します.
なので,IDの部分をA群とB群で一緒にしてあります.
画像をクリックすると大きく表示されますので,お手数ですがお願いします.

前回の対応のないt検定ではF検定による等分散性の確認をしましたが,今回のような対応のあるt検定の場合は不要だと言われています.
なのでいきなりt検定の関数を放り込みましょう.

=TTEST(C3:C7,C15:C19,2,1)

前回の対応のないt検定の関数と大きく違うのは最後の数値の部分です.
一番最後の数値の部分,今回は1ですが,前回は2と3でした.
対応のあるt検定をしたい場合は一番最後の数値を1にします.

1番じゃなきゃダメなんですか?2番じゃダメなんですか?と聞かれたら,1番じゃなきゃダメですと答えましょう.

確定したらこうなります.
そして前回と同じようにオートフィルをします.
すると上下の組み合わせで全てのt検定が一気に完了です.

・・・・・・,
どうやら,どこにも有意性が認められませんでしたね.
なんか寂しいですけど,まぁ,いいでしょう.

対応のあるデータのリストをつくる上で重要なことは,「A群とB群のデータの行の順番を一緒にする」 ということです.
これはめちゃくちゃ重要なことで,適当にする学生がけっこう多いので気をつけましょう.
私も 「有意性があるはず」 という感触を持っていたデータから有意性が認められず,よくよく確認してみたら,被験者の順番をバラバラに入力していた,という経験があります.

例えば,B群のD氏(18行目)とE氏(19行目)を入れ替えてみます.
すると,
というように,t検定の値が変わってきてしまいます.
本来なら有意性が認められなかったF列の 「測定X1回」 が有意になりました.

同じデータの比較だから大丈夫,というわけではないのです.
ここは非常に気をつけなければいけないポイントです.


では今度は上半分のA群のデータだけで対応のあるt検定をしてみます.
これもよくある典型的な検定作業です.

まずは「測定X1回」 ~H列の 「測定X3回」 をそれぞれ検定してみましょう.
F列11行目のところに,以下のt検定の関数をいれていきます.

=TTEST(F3:F7,G3:G7,2,1)

で,確定したらこうなります.っていうのは省略します.
オートフィルを駆使しながらでもいいのですが,こんな感じでとにかく
1.「F列とG列」
2.「F列とH列」
3.「G列とH列」
をそれぞれ参照しながら検定していきます.

わかりやすいように,どことどこを比較したのか書いておきました.

ということで,検定結果の解釈としては,
“測定Xについては,2回目と3回目は1回目の測定値よりも有意に小さい値になった.しかし,2回目と3回目の測定値には有意な差は認められなかった”
ということになります.

と,ここで統計処理をかじってきた大学院生なんかから
「でも,t検定は2群までの検定にしか使えなくて,3群以上は分散分析をした後に多重比較検定をしなければいけないのでは?Excelでは多重比較検定できないでしょ?」
という声が聞こえてきそうです.

はい,そうです.

なので分散分析多重比較をやりましょう.
まずは分散分析

※後日,ノンパラメトリック検定版の「分散分析」をエクセルでできるように,
クラスカル・ウォリスの検定をエクセルでやる
フリードマンの検定をエクセルでなんとかする
で取り上げましたので,ご参照ください.


実はExcelは分散分析ができます.
でも,アドインという作業をして 「分析ツール」 なるものを利用可能な状態にしなければいけません.
Excelを特にいじっていなければ,初期状態では「分析ツール」は利用できませんので.
そのアドインの方法についてはググッてください.
Excel2000~Excel2010のいずれのバージョンでも利用可能なはずです.

ここではExcel2007の画面で説明します.
Excel2007では「データ」タブを選択したところにある「データ分析」をクリックしたら,以下のような画面が出てきます.
この中の「分散分析:一元配置」を選択してOKをクリック.
その後,以下のような画面が出てきますので,「入力範囲」のところをクリックして,
以下のような画面を出し,[ F:3,H:7 ] を参照します.
さっきの画面に戻りますので,あとは選択項目を確認.
例のようなデータのリストであれば,データ方向を 「列」 にします.
出力オプションは 「新規ワークシート」 を選択しとくのがわずらわしくなくて便利かと思います.
そしてOKボタンをクリックします.
すると,以下のような新規ワークシートができて,そこに分散分析の結果が出力されます.
とりあえず見なきゃいけないところは,F列12行目のP値を示したところ.
ここが0.05以下の数値であれば,いわゆる分散分析で有意性が認められたということです.
例の中であれば0.003637と示されていますね.有意です.

えっ?,等分散性の検定ですか?
まぁ,なかったことにしましょう.そんなに気にしなくてもいいと思います.標準偏差をつつみ隠さず出しておけば大丈夫.
どうしても,っていうなら計算方法を勉強するかSPSSを購入してください.


では次に多重比較ですね.
対応のあるt検定で算出したP値を使って計算します.
以下の式をF列12行目に入力しましょう.

=F11*3
あとはこれをオートフィルで...,
えっ?,多重比較がそんなに簡単なわけないだろっ!って?

いえ,これでいいんです.
実はこれがボンフェローニ(Bonferroni)の方法と呼ばれる多重比較検定です.
SPSSにもはいっています.
ということで,多重比較検定をしてみても解釈自体はt検定だけでみた時と違いはありませんでした.
よかった,よかった.

論文とかには,
“多重比較にはボンフェローニの方法を用いた” とか “ボンフェローニの補正を行なった”
などと記述します.


ところで,掛け算している3という数字は適当に決めてるわけではありません.

3群による多重比較ですので,組み合わせが3通りあります.
その組み合わせの数なのです.
もし例にある 「測定Y」であれば,4群ですので6通りですから,6をかけます.


ボンフェローニの方法は,t検定で出てきたP値に,組み合わせ数を掛け算するだけなので,Excelでも簡単に利用できます.

ですが,ボンフェローニの方法で注意したいところは,3群までの多重比較しか活用できない可能性があることです.
4群以上になったら6,5群だと10をかけなければいけません.
t検定によるP値がよほど小さい値でなければ,有意性が出にくくなるのです.
まぁ,“有意性がないことを証明したい” のであれば,そういう利用価値はあるかもしれません
でも,恣意的だと思われないよう注意しましょう.
※このボンフェローニの方法の解釈はまだまだ複雑なので,また別の機会に記事にするかもしれません.

4群以上になってくるとテューキーHSD(Tukey HSD)といった多重比較のほうが有意性が出やすくなります.
これを利用するにはSPSSを購入するか,算出手順を本やネットで調べてきて地道に計算することです.
※後日,こんな怪しいブログよりも信頼性が高いものに触れてもらうよう,
独学で統計処理作業をスキルアップさせるための本
という記事を書きました.参照してください.

※後日,その他(ボンフェローニより甘め)の多重比較方法を掲載しましたので,
Excelで多重比較まとめ
ExcelでTukey法による多重比較
繰り返し数(N数)が異なる群を,Excelを使ってTukey法で多重比較する
ノンパラメトリック版Tukey法による多重比較「Steel-Dwass法」
Steel-Dwass法をExcelで計算する方法について,もう少し詳細に
をご覧ください.


あと,対応のあるt検定に相当するノンパラメトリック検定である
という記事も載せました.ご参照ください.

統計的有意にこだわらないのであれば,
効果量(SE:effect size)をエクセルで算出する
がオススメです.

ところで,途中でアドインした 「分析ツール」 ですが,分散分析以外にもいろいろな統計処理が利用できます.
t検定も 「分析ツール」 から利用できます.
ただ,今回紹介しているような方法とは違い,一気にバーっと処理することはできません.
コツコツ処理していく感じです.

どちらがいいかは,好みと残された作業時間の問題です.

次回はExcelで相関をとってみようと思います.


とりあえず,いそぎ手計算で多重比較をしたい方は,以下の2冊がオススメです.