注目の投稿

アンケートだけで卒論・修論を乗り切るためのエクセルt検定

アンケートだけで卒論・修論を乗り切る統計シリーズ


記事のシリーズには,現在,
アンケートだけで卒論・修論を乗り切るためのエクセルχ二乗検定
アンケートだけで卒論・修論を乗り切るためのエクセル相関関係
アンケートだけで卒論・修論を乗り切るためのエクセルで相関係数の差を検定する方法
があります.


卒論や修論のテーマを頑張って考えてみたけど,ぜんぜん思いつかない.
そのまま時は過ぎ,気がつけば論文を書き始めなきゃいけないボーダーラインまで来てしまった,という学生は多いものです.

今回は,そういう切羽詰まった学生のための,
「ひとまず【優れた研究論文】は諦めたから,卒業することを目的としたデータ分析・統計処理をしたい」
についてです.


目次はこちら
(1)F検定をする
(2)t検定をする
(3)3つ以上のグループでのt検定


今回お示ししているデータの元になっているエクセル・ファイルが欲しい人は,
このリンク先→「統計記事のエクセルのファイル」から,
「卒論・修論を乗り切るためのt検定」
をダウンロードしてご確認ください.







(0)アンケート調査でなんとかなる

テーマが思いつかない.
もうダメだ.オシマイだ.
という状況は,全国津々浦々で毎年,何千何万と発生しています.
特段,気にする必要はありません.

問題なのは,そこで自暴自棄になって「できません」と放棄することです.


こういう学生に最も有効な解決方法は,
「アンケート調査」「意識調査」
をやることです.
これは卒論・ゼミ論,修論以外にも応用できます.
とりあえずなんか研究っぽいことを求められた場合,アンケート調査をやっとけばお茶を濁せるのです.


アンケート調査の最大の武器として,研究分野を問わず行えます.
研究の背景や考察が比較的簡単ですし,アンケートの調査やそのデータ処理が短時間でできます.
調査対象者も,指導教員の授業で学生たちに回答してもらえばOKです.
もうちょっとやる気があるなら,学生を比較対象として,なんか別の人(集団)にアンケートに答えてもらえれば良いでしょう.

そして,こういうデータと分析であれば,難しい統計処理ソフトウェアを使わなくても,エクセルだけで分析できるのでお手軽です.


なお,アンケートの作成方法は,以下の関連記事をご覧ください.
かなり分かりやすく解説しているので,我ながら結構参考になります.
エクセルだけで統計処理する卒論・ゼミ論用アンケート調査のオススメ方法 part1


今回の記事では,アンケート調査の結果を「平均値」として比較したい場合の方法を解説します.
アンケート調査の例として,
エクセルだけで統計処理する卒論・ゼミ論用アンケート調査のオススメ方法 part1
エクセルだけで統計処理する卒論・ゼミ論用アンケート調査のオススメ方法 part2
から引用しています.
そちらもご参照ください.


ここでは「今回試食した料理の味は?」というアンケート調査をしたとします.
仮に,こんな感じで質問したアンケート調査だという設定です.



それをエクセルに集計し,「男性」と「女性」で回答結果が違うか分析するというものです.



19行目のところには,平均値を出しました(青字).
女性が2.8点,男性が3.6点ということで,どうやら男性の方が料理の味を高く評価している可能性があります.
夏休みの研究であれば平均値を比べて「男性の方が高い」と主張すればいいのですが,卒論や修論ではそうはいきません.
統計学的な有意差を調べる必要があります.

そこでt検定を用います.

この場合,「対応のないt検定」を行います.
「対応のある/ない」については,
t検定:対応のある/なしの違いは何か
を読んでおいてください.






(1)F検定をする

対応のないt検定を行うには,あらかじめF検定を行っておきます.
F検定は「等分散性の検定」といいます.
何を言っているのか意味がわからない人は,ひとまず気にしないでください.

エクエルで,セルに直接関数を書いてみましょう.

C列21行目に,

=FTEST(B5:B16,C5:C18)

と書いています.これでF検定になります.

なお,関数の「B5:B16,C5:C18」という部分は,カンマを入れながらセル(B5:B16とC5:C18)をドラッグ・アンド・ドロップすれば参照できます.
エクセルの基本操作なので,ここでは割愛します.分からない人はググってください.


では,算出結果がこちら↓


「0.20887」という数字が出てきましたね.
これが何を意味するのか?

この数字が,
「0.05」未満であれば,「等分散性が認められない」と解釈し,
「0.05」以上であれば,「等分散性が認められる」と解釈します.

皆さんにとっては,このあとのt検定の「種類」を選ぶことに影響します.
では,続いていよいよt検定です.





(2)t検定をする


C列22行目に,t検定の関数を書きました.

=TTEST(B5:B16,C5:C18,2,2)

先程のF検定で「0.05未満」でしたので,
その場合はこのt検定の関数の一番最後の数字を
「2」
にします.
どうしてか?っていうのは,この際気にしないでください.
「2」です.

ではt検定の結果を見てみましょう.

「0.037」が算出されました.
この数字を「p値(ピーち)」と呼びます.
このp値が「0.05未満」になると,統計学的に有意差があると解釈されます.

つまり,統計学的に「男性の方が女性よりも有意に高い(味を高評価している)」と解釈することができるのです.


次に,その「2」じゃないケースを解説しておきます.
例えば,比較対象を「性別」ではなく,学年でも比較してみようということで,そういう分け方をしてみたところ,こんなデータが出てきたとします.


これをF検定します.
F列21行目に,性別での比較のようにF検定の関数を入れます.

=FTEST(E5:E13,F5:F18)

その結果がこちら↓


F検定の結果は,「0.04277」と算出されました.
つまり,「0.05未満」.等分散性が認められない,ということです.

この場合,t検定は上述した「2」ではなく,「3」を使わなければいけません.
以下のようになります.



F列22行目に,t検定の関数として,

=TTEST(E5:E13,F5:F18,2,3)

を書いています.

一番最後の数字,「検定の種類」の部分を「3」にしているのが分かるでしょうか.
F検定で「0.05未満」の数字が出てきた場合,ここを「3」にするのです.
理由は長くなるので,「そういうもんだ」と思っておいてください.

結果はこちら.

F列22行目のところは,「0.045」です.
つまり,「0.05未満」ですので,ここに統計学的な有意差があると解釈されます.
「2年生は,1年生よりも有意に高い(味を高評価している)」と言えます.


ところで,この「検定の種類」の数字を間違えるとどうなってしまうのでしょうか.
ためしに,間違えてみましょう.


先程のF列22行目のところの,「検定の種類」の部分を「3」ではなく,「2」にしました.

=TTEST(E5:E13,F5:F18,2,2)

すると,検定結果は以下のようになります.


数字が「0.078」です.
つまり,判定基準の「0.05以上」になっています.

このことから,平均値では差がありそうですが,「2年生は,1年生よりも有意に高い(味を高評価している)」とは言えなくなってしまうのです.

学生たちがエクセルで「t検定の関数を,なんとくなく適当に操作してみた」結果,統計学的な有意差が現れなくてガッカリした,というケースのいくつかに,この「検定の種類を間違えている」というものが散見されます.
注意しましょう.






(3)3つ以上のグループでのt検定

最後に,比較するグループが3つ以上の場合です.
このようなケースです.
H列〜J列に,その人の「好きな食べ物」を聞いた結果で分類しました.
※このデータ例は,あくまでも例なので,「人数が合わない,おかしい」というツッコミはご容赦ください.



このように,「和食」が好きな人は,他の人たちより高評価しているように見えますし,中華が好きな人も,イタリアンが好きな人より高評価している気もします.

これを比較するには,「3グループすべての組み合わせ」でF検定とt検定をします.
つまり,
「和食」と「中華」
「和食」と「イタリアン」
「中華」と「イタリアン」
です.

それぞれでF検定とt検定した結果,以下のようになりました.
J列がF検定,K列がt検定です.
F検定では,3つともすべて「0.05以上」でしたので,t検定の種類は「2」を使っています.


「和食」と「中華」は0.029で有意.
「和食」と「イタリアン」は0.0093で有意.
「中華」と「イタリアン」は0.0979で有意ではない.
ということが分かりました.

しかし!
ここで終わったら指導教員から怒られます.

実は,t検定の結果をダイレクトに使えるのは2つのグループの比較だけです.
今回のように,3つ以上のグループでは,もう一手間かけなければいけません.

最も簡単な方法は「ボンフェローニの方法」と呼ばれるp値の補正方法です.
こういうのを多重比較と言います.
2つのグループ(群)は単純な比較ですが,3つ以上になると多重比較という状況になるのです.

まず,L列21行目の「和食*中華」のところにボンフェローニ補正をかけてみます.


やり方は,実はとても簡単.
組み合わせの数を掛け算するだけです.

=K21*3

今回の場合は3グループですから,組み合わせは3つ.
なので,「3」をかけます.
もし4グループであれば,「6」をかけます.

結果は,こちら.


p値は,0.08719となりました.
つまり,和食と中華の値には,統計学的に有意差は無いということです.

同様に,他の2つもボンフェローニ補正をかけたのがこちらです↓


まとめると,
和食*中華: 0.08719
和食*イタリアン:0.02783
中華*イタリアン:0.29384
です.

つまり,統計学的に「有意差がある(一方がもう一方より高い/低い)」と言えるのは,「和食とイタリアン」だけということになります.


「えぇ〜.和食と中華の間にも差がありそうだよ.だって平均で1点も違うんだよ」
と諦めきれない人は,
卒論・ゼミ論で統計学的有意差が出なくて困っている時に読むブログ記事
を読んで対策してください.



もっと詳しく知っておきたい人や,用語がよく分からなくて困った人,もうちょっと高度なことがしたいという人は,以下の書籍を買ったり図書館で見つけて読んでください.
  


手計算で算出するのが面倒な人は,思い切ってエクセル統計の購入をオススメします.
 


関連記事
アンケートだけで卒論・修論を乗り切るためのエクセルχ二乗検定
Excelで多重比較まとめ
ExcelでTukey法による多重比較
ノンパラメトリック検定で多重比較したいとき
ノンパラメトリック版Tukey法による多重比較「Steel-Dwass法」
エクセルExcelでの簡単統計(対応のあるt検定と多重比較)