注目の投稿

効果量(effect size)をエクセルで算出する



今回は,
「効果量(effect size)」“エフェクトサイズ”
についてです.

最近,実験結果などを「t検定」とか「分散分析」「多重比較」やなんかで統計処理するよりも,効果量で解釈しようというのを耳にすることが多くなってきました.

私のボスにあたる先生も,学生には効果量による分析を推奨するようになっています.


どうしてそんな話題が出てくるようになったのかというと,
t検定とか分散分析などは「データが正規分布している」ことを仮定している統計手法なんですけど,でも実際の多くの研究実験では,そのデータが正規分布しているかどうかなんて確認できないからです.

詳細は■正規分布(wikipedia)を参照してください.


正規分布している(はずの)データだから,その比較しているグループの平均値に差があるかどうかを「p値(probability値)」で推計しようというのがt検定などです.

だとすると,サンプルサイズ(測定したデータの数)が少なかったりすると正規分布しているかどうかが怪しいわけで,そこを査読者とか質問者につっこまれると大変だという話なんですね.


なので,これに対してどうすればいいかという話になって,だったら「p値」,つまり確率で話をしなければいいという作戦になります.

そこで出てくるのがサンプル数の影響を受けない「効果量」です.


以下の記事を読んでも不安がある場合や,元の作業ファイルで確認したい場合は,
このリンク先→「統計記事のエクセルのファイル」から,
「効果量をエクセルで算出する」
のエクセルファイルをダウンロードしてご確認ください.





もともと効果量の算出は統計学では一般的なものですが,「統計的に有意」かどうかで研究結果を解釈したい人が多かったので,あんまり利用されてきませんでした.
どちらかと言うとシステマティック・レビューとか,メタ分析などで目にする統計手法です.

日本では馴染みがないのか,日本版ウィキペディアにも載っていません(2017年現在).
ちなみに,英語版ウィキペディアには解説があります.
Effect size(wikipedia)

算出方法は簡単です.
比較したい両群の平均値を引き算し,それを標準偏差で割るというもの.


効果量 = ( A群平均値 − B群平均値 )÷ 標準偏差


具体例を出して説明していきます.

例えば以下のようなデータの場合.


このA選手〜E選手というのが超一流のアスリートで,せっかく苦労してデータをとったんだから,彼らならではのデータとして解釈したいということがありますよね.
でもこういうデータだと,先程のようにデータが「正規分布」しているかどか分かりません.

それにサンプル数も少ないもんだから,対応のあるt検定をしてみたら・・・,



こんな感じで,ガッカリすることもあります.

けど,平均値には「差がある」ように見えるし,なにより超一流アスリートにとってはこの練習前後の値は “ちょっとでも差があったら凄いこと” という場合は多いものです.

それをみすみす「練習前後で有意差はなかった」で済ますのも勿体無い.


では,効果量を算出するとどうなるか?

こういう計算をして,



こうなります.





ちなみに,後ほど解説しますが,「割り算するための標準偏差」をどこから取ってくるかが問題です.
コントロール群の標準偏差を使うことが推奨されていますが,異論もあるようです.


ここでは,ひとまず練習前の標準偏差としましたが,実は効果量用の標準偏差がいろいろ考案されてますので,これは後ほど.


ではこの-0.7246という値はどのように解釈すればいいのか?
ウィキペディアから引っ張ってきますと,こうなります.
Effect size (wikipedia) より
効果量は絶対値で評価します.今回は-0.6218ですから,「0.6218」です.

その上で表を見ると,効果量は「Medium(中程度)」付近の大きさだと言えます.
つまり,「本研究で課した練習は,被験者に中程度の効果を及ぼした」と解釈することができるわけです.


先程の「標準偏差(s)」の話ですが,これには効果量用の標準偏差が示されています.
「比較したい2グループの標本平均の差の標準偏差」とされるものです.
その代表的なもの(Cohenが示した標準偏差)はこちらです.ウィキペディアからスクリーンショットすると,こういうものです.



例データで計算するとこうなります.

なお,B9とC9のセルにはN数(サンプル数)を入れています.5人のデータなので5です.



B13 のセルに入れているのはこういう計算式です.


=SQRT(((B9-1)*B8^2+(C9-1)*C8^2)/(B9+C9-2))


そうやって算出した「s」を使って効果量を計算すれば,



このようになります.



-0.78773ですから,さっきの計算結果よりも大きな効果量になりました.


t検定にもノンパラメトリック検定にもフラれてしまったという人は,効果量の算出で2群間の差を評価してみてはいかがでしょうか.


Amazon広告



関連記事
卒論・ゼミ論で統計学的有意差が出ない時に読むブログ記事
Excelで多重比較まとめ
ExcelでTukey法による多重比較
ノンパラメトリック検定で多重比較したいとき
ノンパラメトリック版Tukey法による多重比較「Steel-Dwass法」
エクセルExcelでの簡単統計(対応のあるt検定と多重比較)

ちょっとした統計処理上のエクセル小技はこちら
エクセルで相関係数のp値を出す
エクセル散布図で相関関係・相関係数を確認する便利な方法
エクセルで大量のデータを等分割して統計処理したいとき
エクセルで大量のデータを処理したいとき
エクセルだけで統計処理する卒論・ゼミ論用アンケート調査のオススメ方法 part1
点数・得点を段階評価するためのエクセルシートの作成

その他,こういう怪しいブログ記事よりも,ちゃんと勉強になる書籍もご紹介しておきます.
詳しくは,
独学で統計処理作業をスキルアップさせるための本
を御覧ください.

外部サイトにも有益なリストがあります.こちらも参考にしてください.
大学生が自力で「統計学」の勉強をするための良書10選
1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ


コメント

  1. 効果量計算の参考にさせていただきました。ありがとうございました。

    「比較したい2グループの標本平均の差の標準偏差」のエクセル用計算式に誤りがある様ですのでご確認ください。
    ※SQRTの分子と分母のカッコの括りが抜けている様です。
    誤:=SQRT((B9-1)*B8+(C9-1)*C8/B9+C9-2)
    正:=SQRT(((B9-1)*B8+(C9-1)*C8)/(B9+C9-2))

    返信削除
    返信
    1. ご指摘誠にありがとうございます.大変助かります.
      引き続きよろしくお願いします.

      削除
    2. 効果量計算の参考にさせていただきました。
      恐縮ですが、
      もしかするとSDのままで「s」が計算されているように思えます。
      「s」を求める式では、SDではなく分散(SD^2)で求められているように思います。
      ご確認をお願いいたします。

      削除
    3. すみません,この記事にはミスが多いですね.気を引き締めて向かいたいと思います.
      元の例データでは解釈が代わりますので,例データも変更しました.
      読者の皆様にはご迷惑おかけしました.大変申し訳ありません.

      削除

コメントを投稿

常識の範疇でご記入ください。お問い合わせはメールでも受け付けています。その場合は「プロフィール」からお願いします。