注目の投稿

卒論・ゼミ論で統計学的有意差が出なくて困っている時に読むブログ記事

 
 

卒論やゼミ論で,先生から「統計処理にかけて有意差があるかどうか確かめてこい」と言われ,
いろいろ勉強して,なんとか「統計処理」がどういうものか分かってきた.
・・・という人に向けて書いています.

ところが,なんとなく統計処理をしてみたところ,
「◯群と△群との間には有意な差がある」
と言いたかったのに,「p=0.0824」とかいう微妙な数字がでてきてガッカリしている人もいるのではないでしょうか.
そんな時は,以下のことを確認してください.

その他,
統計学の記事
統計記事のエクセルのファイル
も合わせて読むことをオススメします.

統計処理そのものが意味不明という人はこちらをどうぞ.
アンケートだけで卒論・修論を乗り切るためのエクセルt検定





(1)対応のあるデータに,対応のないt検定を使っている
統計処理ソフトを使って分析をしている人であれば,既にこのあたりのことは考慮しているかもしれませんが,エクセルなどで簡便にやっている場合は注意が必要です.

例えば以下のようなデータ.


左側のAさん〜Eさんの測定値を調べたものは,同じ人から得られた「前回」と「今回」のデータを比較したものなので,「対応のあるデータ」と呼びます.

一方,右側のFさん〜Jさんの「Aグループ」と,Kさん〜Oさんの「Bグループ」の測定値を比較したものは,AとBで異なる集団から得られたデータなので,「対応のないデータ」と呼びます.
分かりやすくするため,上記の例データでは,比較するそれぞれの測定を同じ数値にしました.

統計処理のルールとして,対応のあるデータには「対応のあるt検定」,対応のないデータには「対応のないt検定」を行わなければなりません.
すると,上記の例データのように,まったく同じ数値であっても,p値は違ってきます.
左の対応のあるデータでは,「p = 0.041」で有意差ありとなっているのに対し,
右の対応のないデータでは,「p = 0.260」で有意差なしです.

ところが,時々学生に見られるのが,
「対応のあるデータなのに,対応のないt検定をかけている」
というものです.
うっかりしていて,それで損をしている場合もあるかもしれません.

例えば以下のように・・・,


t検定の関数で「対応のないt検定」の方を採用してしまうと・・・.
(関数入力部分の,最後(検定の種類)を「2(対応のないデータ)」にしている)

当たり前ですが,以下のように「有意差なし」として算出されてしまうのです.


もしかすると,うっかり「対応のないt検定」を使っているかもしれません.
もちろん,対応のないデータに「対応のあるt検定」を使うのもダメです.
そのあたりを確認してみましょう.

もっと詳しく「対応のある/なし」を知りたい人はこちらの記事をご覧ください.
t検定:対応のある/なしの違いは何か

これは基本中の基本の確認です.次に考えられるのがこちら.



(2)4群以上の多重比較にボンフェローニ修正を行っている
「3群以上の平均値の比較には,t検定だけではダメ.多重比較をしないといけない」
というルールがあることを知った君は,がんばって調べたところ,アルファ水準(有意になるp値:α値)を「ボンフェローニ修正」しなければいけないことを勉強したことと思います.

ボンフェローニ修正は専門の統計ソフトで実施することが多いですが,エクセルでも比較的簡単に算出できます.

しかし,この「ボンフェローニ修正(補正)」というのは,算出する式の特性上,4群以上の多重比較では有意差が出にくいのです.
昔の記事である,
Excelで多重比較まとめ
に詳しく一覧にしましたが,ここでいくつかピックアップして説明します.


4群(A〜D群)のデータを,それぞれ2群ずつt検定したデータ例がこちらです.

その組み合わせは,A群,B群,C群,D群の4群ですから,
【 A×B, A×C, A×D, B×C, B×D, C×D 】
の6通りです.

以下に例として図を示しました.




このデータをボンフェローニ修正すると,p値は以下のようになります.


ボンフェローニ修正は,

=P値×組合数

つまり,p値に組み合わせ数(この場合6)をかけるだけで算出できます.
このデータ例では,【 A×C 】のp=0.079という非常に小さなp値のところにしか有意性が認められませんでした.

でも,A×DやB×Dの組み合わせのところにも,差があるように見えるし,実際にそこに差があった方が嬉しいという場合もあるでしょう.

そんな時は,改良型のボンフェローニ修正をおすすめします.

比較的簡単に算出できる改良型ボンフェローニとしては,
・Sidak(サイダック)の方法
・Holm(ホルム)の方法
・Ryan(ライアン)の方法
などがあります.

それを先程のデータ例に施してみたのが,以下の一覧です.
赤く網掛けしたところが「有意性あり」のところ.


このように,ボンフェローニ修正ではA×Cだけでしたが,有意性が認められる組合(p値)が,
サイダックではもう1つ増え,ライアンでは2つ増え,ホルムでは3つ増えました.

やり方をここで並べると冗長になるので,
Excelで多重比較まとめ
をご覧ください.

それでもまだ有意差が出ないというときは,こちらはどうでしょうか.



(3)t検定をあきらめ,ノンパラメトリック検定にする
もしかすると,t検定だからp値が小さくなりにくのかもしれません.
だったら,パラメトリック検定であるt検定ではなく,ノンパラメトリック検定にする手段があります.
パラメトリック検定とノンパラメトリック検定,それぞれなにがどう違うのかは,統計学の教科書や他の専門サイトをあたってください.

必ずt検定よりも有意性が出やすいというわけではなく,むしろ有意性が出なくなってしまう場合もありますが,試してみる価値はあります.

やり方を紹介している記事は以下の2つです.
対応のあるt検定に相当するのが,ウィルコクソンの符号付順位和検定.

対応のないt検定に相当するのが,マン・ホイントニーのU検定.
マン・ホイットニーのU検定(エクセルでp値を出す


【ノンパラメトリック検定の多重比較】
3群以上の多重比較の場合は分散分析が必要です.
その点,エクセルにはパラメトリック検定の「分散分析」が標準装備されていますが,
ノンパラメトリック版の分散分析は現時点で装備されていません.

多重比較をする場合は,
対応のあるデータの場合は,フリードマンの検定で分散分析に相当する手順を踏みます.
フリードマンの検定をエクセルでなんとかする

対応のないデータの場合は,クラスカル・ウォリスの検定を行う必要があります.
クラスカル・ウォリスの検定をエクセルでやる

これでデータに有意性があるか否かを確認してから,
対応のあるデータは「ウィルコクソンの符号付順位和検定」
対応のないデータは「マン・ホイントニーのU検定」
を使って検定します.

その後の多重比較の方法には,上記で紹介した改良型ボンフェローニ修正のどれかで補正をかければOKです.

しかし,それでも有意性が現れてくれない・・・.
でも大丈夫.
そんな君に,最終手段を提供しましょう.



(4)効果量(エフェクトサイズ)で差の大きさを示そう
詳しくは,
効果量(effect size)をエクセルで算出する
をご覧ください.

それを読んでもらえれば大丈夫かと思いますが.
「効果量」で平均値の差の大きさを示すことができる理由を,その記事から引用しておきます.
最近,実験結果などを「t検定」とか「分散分析」「多重比較」やなんかで統計処理するよりも,効果量で解釈しようというのを耳にすることが多くなってきました.
私のボスにあたる先生も,学生には効果量による分析を推奨するようになっています.
どうしてそんな話題が出てくるようになったのかというと,t検定とか分散分析などは「データが正規分布している」ことを仮定している統計手法なんですけど,でも実際の多くの研究実験では,そのデータが正規分布しているかどうかなんて確認できないからです.
詳細は■正規分布(wikipedia)を参照してください.
正規分布している(はずの)データだから,その比較しているグループの平均値に差があるかどうかを「p値(probability値)」で推計しようというのがt検定などです.
だとすると,サンプルサイズ(測定したデータの数)が少なかったりすると正規分布しているかどうかが怪しいわけで,そこを査読者とか質問者につっこまれると大変だという話なんですね.
なので,これに対してどうすればいいかという話になって,だったら「p値」,つまり確率で話をしなければいいという作戦になります.
そこで出てくるのがサンプル数の影響を受けない「効果量」です.
もともと効果量の算出は統計学では一般的なものですが,「統計的に有意」かどうかで研究結果を解釈したい人が多かったので,あんまり利用されてきませんでした.
どちらかと言うとシステマティック・レビューとか,メタ分析などで目にする統計手法です.
長ったらしく書いていますが,要するにここでの本音としては,
平均値の差を統計学的な有意性をもって話ができそうにないから,差の大きさを統計学的に示して説明しよう
ということです.

別に悪いことをしようとしているわけではありません.
主流じゃないだけで,ちゃんとした統計学的な手法です.
気にせず使ってください.


では,今回はここまで.


上記の記事を詳しくまとめたページもあります.
統計学の記事
統計記事のエクセルのファイル
も合わせて読むことをオススメします.



 
 

手計算で算出するのが面倒な人は,思い切ってエクセル統計の購入をオススメします.
 


関連記事
【卒論・ゼミ論】絶望的な君が無理矢理「急成長」する方法
Excelで多重比較まとめ
ExcelでTukey法による多重比較
ノンパラメトリック検定で多重比較したいとき
ノンパラメトリック版Tukey法による多重比較「Steel-Dwass法」
エクセルExcelでの簡単統計(対応のあるt検定と多重比較)

ちょっとした統計処理上のエクセル小技はこちら
エクセルで相関係数のp値を出す
エクセル散布図で相関関係・相関係数を確認する便利な方法
エクセルで大量のデータを等分割して統計処理したいとき
エクセルで大量のデータを処理したいとき
エクセルだけで統計処理する卒論・ゼミ論用アンケート調査のオススメ方法 part1
点数・得点を段階評価するためのエクセルシートの作成

その他,こういう怪しいブログ記事よりも,ちゃんと勉強になる書籍もご紹介しておきます.
詳しくは,
独学で統計処理作業をスキルアップさせるための本
を御覧ください.

外部サイトにも有益なリストがあります.こちらも参考にしてください.
大学生が自力で「統計学」の勉強をするための良書10選
1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ