注目の投稿

アンケートだけで卒論・修論を乗り切るためのエクセルχ二乗検定

アンケートだけで卒論・修論を乗り切る統計シリーズ.
記事のシリーズには,現在,
アンケートだけで卒論・修論を乗り切るためのエクセルt検定
アンケートだけで卒論・修論を乗り切るためのエクセル相関関係
アンケートだけで卒論・修論を乗り切るためのエクセルで相関係数の差を検定する方法
があります.

今回はカイ二乗検定を用いた分析方法です.

卒論や修論のテーマを頑張って考えてみたけど,ぜんぜん思いつかない.
そのまま時は過ぎ,気がつけば論文を書き始めなきゃいけないボーダーラインまで来てしまった,という学生のためのシリーズとなっています.

目次はこちら
(1)2つの選択肢で,比率としてどちらが大きいか? のカイ二乗検定
(2)3つ以上の選択肢で,予想した比率と異なるかどうか?のカイ二乗検定
(3)クロス集計でまとめた比率のカイ二乗検定



今回お示ししているデータの元になっているエクセル・ファイルが欲しい人は,
このリンク先→「統計記事のエクセルのファイル」から,
「カイ二乗検定」
のところにある該当するファイルをダウンロードしてご確認ください.





(0)アンケート調査でなんとかなる

※この部分は,シリーズの他の記事と同じことを書いています.
処理方法が知りたいだけの人は,(1)2つの選択肢で,比率としてどちらが大きいか? のカイ二乗検定 まで飛ばしてください.


適当なテーマでアンケートをとってみたものの,あとになって指導教員から,
「これを統計処理にかけてから提出しろ」
と言われ,何をどうすればいいのか分からず,
もうダメだ.オシマイだ.
という状況が,全国津々浦々で毎年,何千何万と発生しています.

安心してください.
データさえとっていれば,なんとかなるものです.

切羽詰まった学生に有効な解決方法は,
「アンケート調査」「意識調査」
です.
これは卒論・ゼミ論,修論以外にも応用できます.
とりあえずなんか研究っぽいことを求められた場合,アンケート調査をやっとけばお茶を濁せるのです.

アンケート調査の最大の武器として,研究分野を問わず行えます.
研究の背景や考察が比較的簡単ですし,アンケートの調査やそのデータ処理が短時間でできます.
調査対象者も,指導教員の授業で学生たちに回答してもらえばOKです.
もうちょっとやる気があるなら,学生を比較対象として,なんか別の人(集団)にアンケートに答えてもらえれば良いでしょう.

そして,こういうデータと分析であれば,難しい統計処理ソフトウェアを使わなくても,エクセルだけで分析できるのでお手軽です.


なお,アンケートの作成方法は,以下の関連記事をご覧ください.
かなり分かりやすく解説しているので,我ながら結構参考になります.
エクセルだけで統計処理する卒論・ゼミ論用アンケート調査のオススメ方法 part1
エクセルだけで統計処理する卒論・ゼミ論用アンケート調査のオススメ方法 part2
そちらもご参照ください.





(1)2つの選択肢で,比率としてどちらが大きいか? のカイ二乗検定

もっとも単純なχ二乗検定です.
「YES or NO」「AかBか」の選択肢です.
簡単にアンケートを分析をしたいのであれば,この形式でまとめることを想定した調査用紙を作りましょう.

この分析方法は,以下の記事で解説しています.
エクセルExcelでΧ二乗検定を
物凄く簡単なので,ここを知りたい人はリンク先の記事を読んでください.

一応,どんな感じの分析なのか画像を貼っておきます.






(2)3つ以上の選択肢で,予想した比率と異なるかどうか?のカイ二乗検定

これも過去記事で紹介したことがあります.

その記事で示しているのは,以下のようなデータです.

このデータ例は,140名の受験者を評価した結果です.
受験者の採点結果を,
AとFランクに5%ずつ,
BとEランクに15%ずつ,
CとDランクに30%ずつ,
あらかじめ,それぞれの人数の割り合いになるよう決めていた場合に,その割り合いの通りになっているかどうか検定するというものです.


p=という数字は「p値(ピーち)」と言います.
この数字が「0.05未満」であれば,期待値と比べて実測値(観測値などとも言う)に統計学的有意差(大きい/小さい)があると解釈します.
もし「0.05以上」であれば,期待値と実測値に差は無いと解釈します.

このデータであれば,p値が0.05より大きいので,ギリギリですが想定通りの分布で評価できていると解釈できます.


このタイプのカイ二乗検定には,その他にも以下のようなものがあります.

このデータ例は,対応したオペレーターに対するクレームの件数を調べたものです.
つまり,利用者からクレームを受けることの多いオペレーターがいないか統計学的に確認しようということです.
全部で39件あったうち,それぞれオペレーターごと件数をまとめています.



これをカイ二乗検定します.
カイ二乗検定は,「CHITEST」という関数を用い,それぞれのオペレーターに入ったクレーム件数の行(B列4行目〜E列4行目まで)と,期待値(B列5行目〜E列5行目)を参照します.

今回の場合の期待値は,39件のクレームが4名のオペレーターに向けて「完全に均等に」舞い込んできた場合を想定することになります.
ですから,

期待値 =39件 ÷ 4名

となり,それぞれの期待値は「9.75」で統一になります.



カイ二乗検定をしたその結果がこちら↓


p値は「0.826」です.
4名のオペレーターへのクレーム件数に統計学的な差は認められないと解釈できます.
つまり,田中さんが一番多くクレームが入っているように見えますが,それはこの件数の中であれば「偶然」と言える範疇だ.
というのが,統計学的な解釈になるのです.


以上のように,分析するにあたり「これくらいの比率になるはず」という数字を用意しておき,その比率と回答・調査結果が一緒か? 逸脱するか? を分析することができます.





(3)クロス集計でまとめた比率のカイ二乗検定

実際のところ,アンケート調査の分析ではこれが一番利用されるかもしれません.
これも過去記事でも紹介したことがあります.
エクセルExcelでΧ二乗検定を part3

その記事から以下にデータ例を引用します.

129名の人を対象にした調査で,「関東」と「関西」の人にアンケートをとったものです.
質問は「肉といえば?」というもの.
これは,「肉」に対するイメージに地域差があるのではないか? を調査しました.

その結果がこちら(実際に取ったデータじゃないですよ).
「関東・関西」で分けて「牛肉 or 豚肉?」の質問をしているので,2×2のクロス集計になりました.

これを見る限り,どうやら関東では「豚肉」,関西では「牛肉」が「肉である」と思っている人が多いように感じます.

実測値は揃いましたので,次は「期待値」を出す必要があります.
てっきり,合計値を単純に割り算すればいいと思っている人がいますが,違います.

こういう計算をしなければいけません.


B列6行目のセルに,以下の数式を入れています.

=$D3*B$5/$D$5


こうしておけば,あとはオートフィル機能を使ってコピーできます.
(オートフィルについてはググってください)




あとは,この期待値を使ってカイ二乗検定をします.


この例では,D列9行目に「CHITEST」の関数を入れています.
参照するセルは,4マスの実測値と,さっき作った4マスの期待値です.
上記の例では,

=CHITEST(B3:C4,B6:C7)

というカイ二乗検定の関数を入れています.


結果がこちらです.


p値が「0.03345」ですので,0.05未満です.
このことから,関東と関西で「肉といえば?」に対する回答の割り合いが違うということが分かりました.

これを応用することで,「2 × 2」以上のクロス集計のカイ二乗検定ができます.
例えば,以下は関東・関西に加え,「中部」地域を入れて,さらに回答に「鶏肉」も加えたものです.



ただし,この場合は3つ以上の項目数と選択肢になっているので,「実測値と期待値に有意差がある」と言われても,どことどこに差があるのか分かりません.

それには「残差分析」をしなければいけないのですが,それについては,
エクセルExcelでΧ二乗検定を part3
をご確認ください.

以下のような結果が出て,キレイに解釈できるようになります.



もっと細かい分析方法や,指導教員から「N数が少ないからダメだ」とか「Yeatsの連続性の修正をしろ」などと,意味のわからないことを言われた場合の対処方法については,後日また記事にします.


自習して詳しく知っておきたい人や,用語がよく分からなくて困った人,もうちょっと高度なことがしたいという人は,以下の書籍を買ったり図書館で見つけて読んでください.
  


手計算で算出するのが面倒な人は,思い切ってエクセル統計の購入をオススメします.
 


関連記事はこちら
エクセルExcelでΧ二乗検定を
エクセルExcelでΧ二乗検定を part2
エクセルExcelでΧ二乗検定を part3
信頼性係数をエクセルで算出する