注目の投稿

とにかく簡単に「多重比較が必要な理由」と「何を計算しているのか」を知りたい

統計学に興味があるわけではなく,研究テーマに興味がある


統計学を専門にしているわけでもない限り,多くの学生は統計処理作業に興味津々で取り組むということはありません.

学生たち(だけに限らず,多くの研究者たち)は,データの分析手法や処理手順ではなく,研究課題やテーマの解釈に興味があるのです.


しかし,そうは言っても統計学をある程度理解しておかなければ正しい解釈や考察はできません.
なので,「ある程度」の理解が必要なのですが,この「ある程度」の理解のための解説がけっこう少ない.

今回は,

「多重比較について,正確で緻密な解説でなくてもいいから,とにかくザックリ知りたい」

という人のための記事です.





計算式を一切使わない多重比較の説明



2つの群間の平均値を比較したいという場合,t検定だけで済んでいました.




こんな感じで,2つの平均値を比較すればOKだったのです.


ところが,3群以上になると,t検定だけではなく「多重比較をしろ」と言われてしまいます.




どうして多重比較をしなければいけないのでしょうか?


これについて多くの統計学の教科書やネット記事では,

「その理由は,この計算式で表される」

と言い放って終わりであるケースが多いですね.



いえ,それが実際正しいわけですけど,
「数字に弱いけど,なんとか頑張って研究している」
という人にとっては,統計学の理解の足かせになってしまいます.


そこで今回は,計算式を一切使わずに説明します.



そもそも,t検定では何をしているのか?


多重比較の説明をするには,そもそもt検定がどんな計算をしているのか知る必要があります.

しかし,上で約束したように,この記事では計算式で説明することはしません.


以下をご覧ください.
調査したり実験したりして得られたデータとは,以下の図のような感じになっています.



青丸1つが1個のデータだと解釈してください.

この例図では65個の点.
つまり,65人分とか,65回分とか,65匹分のデータということです.

そして,「平均値」「標準偏差」と呼ばれている部分も,そこに示したところになります.

平均値を中心として,全データ個数の68%分が入る範囲を「1σ(いわゆる標準偏差)」と呼びます.



また,平均値の付近ほどたくさんのデータが集まり,反対に,平均値から外れたデータは個数が少ないですよね.
なので,データは「釣り鐘のような形(ベルカーブ)」を描きます.

データがこのような状態になることを「正規分布する」と言います.
聞いたことがある人も多いと思います.



これを,2つ(2群)用意して90度回転させ,並べて比較すると,以下のようになります.

さらに,これを「棒グラフ」として表すと,以下のようになります.
ここまでくれば,馴染み深いものになりますね.

平均値の比較を図だけで示すと,このような仕組みになっています.



ではt検定は何をしているのかというと,この,

「平均値」
「標準偏差(分散)」
「データの個数」

といった3つの要素の数値を使って計算し,

片方のデータと,もう片方のデータとの重なり具合いについて,t検定の基準(t分布)と照らし合わせる

という手続きをとって,そこが確率的に有意(例えば,5%未満)か否かを算出しています.

いろいろなタイプのt検定があるのは,この「データの重なり具合い」の計算方法が違うからです.


また,論文や発表資料に

「平均値」
「標準偏差」
「データの個数」

の3つを書かなければいけないのは,そうした理由からです.
実は,群間の統計学的比較(t検定)は,この3つがあれば計算できるのです.


こうした計算の性質上,平均値の差が大きいだけでなく,

「標準偏差が小さい」
「データの個数が多い」

といったことにより,有意差は現れやすくなります.




多重比較の場合


上記のような比較を,3群以上で行うとどのようになるのでしょうか?

2つの観点から問題が生じます.


1つ目は,群の数が増えることは,比較する際に考慮すべき対象が増えることを意味しますから,

「2つの群間に現われた差の持つ意味が薄れる」

というものです.

例えば4群で比較するということは,以下のような状態です.




このうち,1つの群が他の3つより大きく離れている以下のような場合なら,






「D郡は,その他の群と比べて差がありそうだ」

と解釈して良いかもしれません.


しかし,こんなにきれいに「差がある/差がない」データは普通はなく,以下のようになります.





こうなると,例えばA群とB群には差があるようにも見えますが,全体を俯瞰してみると「たいした差ではない」という解釈も出来てしまいます.


これは,群が増えるとさらに強化されます.
4群ではなく, たとえば8群での比較になると以下のように見えます.





これだと,まるでそれぞれの「群間の差」が,たまたま現れた「誤差」,「よくある事」のようにも見えてきちゃうわけです.

実際,多重比較では「群数」が増えると有意差が検出されにくくなります.


つまり,ここに現れた差が「有意(意味が有る)差」だと言うためには,それなりの比較方法が必要になるわけです.




もう一つの観点は,2群間の比較を何度も行うと,確率が増加してしまうというものです.

統計学的な解釈は,「確率」で話をしています.

よく聞く「5%水準で有意」という表現は,

「今回の実験調査を繰り返し実施したとしても,同じ結果にならない確率は,たった5%しかありませんよ」

という意味を含んでいます.

だからこそ,そこに現れた「差」は意味が有るものだと解釈するのです.


しかし,何かと何かを比較をする場合には,当然,異なる2つのものを比べることになります.
AとB,BとC,CとDといったように.

こういった作業は,「確率」で話をする上で不都合なのです.

AとBを比較したあとで,またAとC,さらにAとDを比較してしまうと,Aのデータを3回使うことになります.

これは,5%未満しか発生しないから「有意」だぞ,と決めていたことが,実のところ,

5%が3倍になる = 15%

つまり,15%の確率で起きる現象を「5%だよ」と偽っていることになります.


さらに,例にした図のように4群なのであれば,BとC,BとD,CとDの組み合わせも存在しますから,この4群データをお互いに比較すると6倍の確率増加が起きてしまうのです.


とは言うものの,この解釈について解説しても,

「いや,その理屈がよく分かりません.どうして3倍とか6倍になるんですか? だって,2つの比較をしていることに違いないですよね.なんで確率が増えると言えるんですか?」

という疑問を持つ人が結構います.


そういう人は,プロレスのバトルロイヤル戦を想像してください.




「この4人のなかで生き残るのは誰だ!」
という形式で1回しか試合をしていないのに,t検定を繰り返すことというのは,

①A選手とB選手の試合,
②A選手とC選手の試合.
③A選手とD選手の試合,
④B選手とC選手の試合,
⑤B選手とD選手の試合,
⑥C選手とD選手の試合.

といった6試合を展開しているようなものです.

そんなのはバトルロイヤルではありません.


A選手が繰り出すパンチの量は1戦限りのものですし,途中でB選手が倒れて動けなくなれば,それは他の3選手(A,C,D)の「戦績」に影響を与えることになります.

これが多重比較というものです.


実験や調査も同じで,各群で比較しているデータは,1回しか測定されていないはずです.
AとBを比較するためにAとBを測定し,AとCを比較するために,もう一回Aを測定してからBと比較するなんてことはしていないわけです.





では,多重比較は何を計算しているのか?



これまでに述べてきた2つの問題点を解決するための計算をしています.

1つ目は,「何度も繰り返し比較しない」という課題を乗り越えるため,

「1回だけで比較できる基準値を用意する」


という方法です.
これを「シングルステップ法」と呼んだりします.

有名な多重比較であるテューキー法や,シェッフェ法,スティール・ドゥワス法などがこれに該当します.

なかでも特に「テューキー法」や「テューキー・クレーマー法」が好まれるのですが,なぜ好まれるかと言うと,考え方とその計算の仕方がクールでスマートだからです.


これらの方法では,比較したい全群に以下のようなイメージの「有意水準」を設定するのです.




この有意水準は,全ての群のデータをまとめて,各群ごとに,

お互いを比較し合った際に,この部分が干渉したら「有意差あり」と認める

という全てに共通した基準値のことです.


作業手順としては「2群間を繰り返し比較しているように見える」のですが,理論上は,全ての群を1回限りの基準値によって比較しているため,「シングルステップ(一段階手順)」しか踏んでいないと考える方法です.


比較検定作業としては,以下のようなイメージになります.




例えば,A群とその他の群を比較するのであれば,A群の平均値が他の群の「有意水準」と干渉するかどうかを検定しています.

この例では,A群と有意差のある群はないことになります.



この同じ基準値で,B群以降も比較していきます.



この例では,B群とC群に有意差ありとなります.


これを4群すべて,6通りの組み合わせで行えば,

「全ての群の対比較を,1回の確率だけで済ましている」

とみなすことができます.

なんだか誤魔化された気分になるかもしれませんが,それ以上の解説となると「計算式」と手計算による検定手順を見てもらうしかないように思います.

実際の算出方法を知りたい人は,
ExcelでTukey法による多重比較
ノンパラメトリック版Tukey法による多重比較「Steel-Dwass法」

をご覧ください.



もう一つのタイプの多重比較は,2群間の比較(t検定など)を繰り返す手順は踏むのですが,それによって増加してしまった確率を修正する方法です.

つまり,

「有意水準(α値,p値)を修正する」


という方法と言えます.
その具体的な方法としては,「ボンフェローニ修正」が有名です.


前述したように,t検定などを複数の群間で繰り返すと,4群であれば6通りの組み合わせになってしまいます.

なので,理論上は5%水準が「6倍」の30%になってしまうわけです.

そこでボンフェローニ修正では,

「6倍になるのが問題なら,6倍の確率でも有意だったら文句ねぇだろ!」

といった,「血の気の多いヤクザの若頭」のような発想で修正しています.


ですから,ボンフェローニ修正は極めて簡単な多重比較です.

方法としては,有意水準を,

5% ÷ 6 = 0.008以下

に設定する,または,t検定などのp値を6倍しても「5%(0.05)」以下になっているかで判断しようとするものです.


たしかに侠気あふれる発想による修正ですが,この方法では「群の数」が増えると「修正値」が跳ね上がってしまいます.

3群なら,「3」
4群なら,「6」

で済ませられるのですが,

5群だと,「10」
6群だと,「15」
7群だと.「21」

という途方も無い数値で修正しなくてはいけなくなります.
5群以上だと,ほぼ有意差が見つけられなくなっちゃうんですね.
t検定の結果が「p = 0.0063」で有意差ありの群間の差が,5群では「p = 0.063」で有意差なしになってしまいます.


そんなとき,血の気の多い若頭の側近が,その耳元でゴニョゴニョします.

「アニキ! うちら騙されてますぜ! 6通りの組み合わせだから6倍になる,っていうのは一番最初の組み合わせだけで,あとは組み合わせが1つずつ減っていくんじゃないですか?」

つまり,こういうこと.



この考え方によって改良型ボンフェローニ修正として知られているのが,「ホルム法」です.

詳細な方法については,
Excelで多重比較まとめ|ボンフェローニ(Bonferroni)|サイダック(Sidak)|ホルム(holm)|ライアン(Ryan)

をご覧ください.




ちなみに,多重比較しなてくもいい「多重比較」があります


詳細は別記事にしていますので,そちらも参考にしてください.

統計処理手法の選び方(3)多重比較が不要な多重比較?





Amazon広告



関連記事
統計処理手法の選び方(1)
卒論・ゼミ論で統計学的有意差が出ない時に読むブログ記事
Excelで多重比較まとめ
ExcelでTukey法による多重比較
ノンパラメトリック版Tukey法による多重比較「Steel-Dwass法」
エクセルExcelでの簡単統計(対応のあるt検定と多重比較)