注目の投稿

知識ゼロから始めるt検定の使い方・選び方|間違いやすいポイントを確認しておこう



実験報告とか研究論文を書くにあたって,t検定でデータ分析・統計処理をしなければいけない場面があります.

t検定は最も基本的な統計処理手法ですので,大学生の卒業論文でお世話になる人も多いことでしょう.
しかし,これまで「統計処理」なんてものに関わったことがない人にとっては,どうすればいいのか分からずギブアップしてしまうこともあります.

実際,大学の先生や大学院生のなかにも,きちんと統計処理方法を把握していない人がいます.
誰にも相談できずに悩んでいる人もいるでしょう.


その一方で,なんでもいいからエクセルでt検定をしておけば良い,と考える学生がいます.
とりあえずエクセルを操作してみたら,なんかそれっぽい値が算出されたからOKということにする危険な学生もいますが,それはダメです.
いやホントマジでダメなので,厳に注意してください.

見る人が見たらバレますし,もしバレずになにかの研究論文として掲載されたら,重大な倫理問題に発展します.
これが元で社会的信用を失う研究者もいます.

学生や駆け出し研究者の皆さんが考えている以上に極めて重大な事案ですので,覚悟して取り組みましょう.

そこで今回は,t検定の使い方について,エクセルによる具体的な分析方法から解説します.




(1)エクセルでt検定を算出する方法


このブログにおける,エクセルでt検定について解説した記事では,セルに直接関数を書き込むタイプの操作を解説しています.

たとえば以下のようなデータです.
ここでは仮に,7名の被験者に対し薬を服用させ,その前後の値を比較するというものにしました.
TTESTを使ったp値の算出
「TTEST関数」をセル(B列11行目)に記入しています.

この操作方法は,慣れると楽ですし,ブログでの解説もコンパクトに出来るので便利なのですが,初心者には少しハードルが高い場合があります.
そんなときは,関数選択・入力ダイアログを表示させた方がいいでしょう.

まず,p値を出したい「B列11行目」のセルを選択しておきます.


そうしたら,次は関数ダイアログを出します.
以下のような「Σ」マークをしたアイコンを探してください.
「ホーム」タブを押したら,そのメニューバーの右端のほうにあることが多いです.


Σマークを直接クリックせず,右にある下矢印をクリックし,
「その他の関数」
を選択します.

あとはウインドウズとマックで表示画面が異なりますが,マックのエクセルでは以下のような画面が登場します.



ここで「t検定」の関数である,「TTEST」または「T.TEST」を選択して,必要事項を入力していくのです.
※ここでは「Excel for Mac ver 16」を使っています.
なお,エクセルによる「t検定」は,これまでは「TTEST関数」が使われていましたが,最近は「T.TEST関数」が使われるようになっています.
Microsoftとしても,将来的には「TTEST関数」を排し,「T.TEST関数」を利用するとの文面が出ています.
ただ,TTEST関数の方が広く普及していますし,関数としての機能に違いはありませんので,現時点ではどちらを使ってもOKです.

上図では既に「TTEST」が「最近使った関数」のところに表示されていますが,皆さんのお手元には表示されていないかと思います.ご注意ください.

例えばTTESTを選択すると,以下のような画面になります.
※ウインドウズ版の画面も似たようなものが出現しますので,以下の操作に準じてください.


ここに現れた,
「配列1」
「配列2」
「検定の指定」
「検定の種類」
の4項目に入力していくのです.


まず,「配列1」のところをクリックしたあと,セルシートのデータにもどってB列2行目からB列8行目までを選択します.
つまり,服用前のデータを全て選択するのです.



以下のようになります.
次に,「配列2」のところをクリックしたら・・・・,


以下のように,「服用後」のデータであるC列2行目からC列8行目を選択します.

次は,「検定の指定」ですが,この部分については初心者は半角数字で「2」を入力してください.


そうは言われても気になるという人の場合,マック版の画面には以下のような文章が付されていますので注目してください.
選択マークさせた部分が「検定の指定」についてです.

「検定の指定:には片側検定の場合は1,両側検定の場合は2を指定します」
と書かれていますよね.
一般的なt検定は,両側検定を行なうことが統計処理の「お約束」になっています.
なので,特に理由がない場合は「両側検定」である「2」を入力してください.


最後に「検定の種類」です.
ここで何を選択するかが重要になってきます.
上図と同じように,「検定の種類」の部分を読んでみるとこのように書かれています.
選択マークさせたところです.

検定の種類:には実行する t 検定の種類を指定します。対応のある検定の場合は 1、2 標本の等分散が仮定できる場合は 2、2 標本が非等分散の場合は 3 を指定します。
よく分からないので,思わず右下の「この関数の詳細なヘルプ」を読んでみたくなるものです.

実際,エクセルで「t検定(TTEST関数)」の詳細なヘルプ見ると,こんなふうに説明されています.

以下に,「TTEST関数」のヘルプに書かれている文章をそのままコピりました.



***引用文****

スチューデントの t 検定における確率を返します。 TEST 関数を利用すると、2 つの標本が平均値の等しい母集団から取り出されたものであるかどうかを確率的に予測することができます。


書式
T.TEST(配列 1,配列 2,尾部,検定の種類)

T.TEST 関数の書式には、次の引数があります。


・配列 1 必ず指定します。 対象となる一方のデータ。

・配列 2 必ず指定します。 対象となるもう一方のデータ。

・尾部 必ず指定します。 片側分布を計算するか、両側分布を計算するかを、数値で指定します。 尾部に 1 を指定すると片側分布の値が計算されます。 尾部に 2 を指定すると両側分布の値が計算されます。

・検定の種類 必ず指定します。 実行する t 検定の種類を数値で指定します。


パラメーター
(以下のヘルプ文は省略)
************




(2)エクセルのt検定には3つの種類がある


上述したヘルプにもあるように,エクセルのt検定には3つの種類が用意されています.
ヘルプに記載にある,「検定の種類」のところの「パラメーター」です.

「検定の種類」の部分に1, 2, 3のいずれかの数値を入れるのですが,

「1」を入力すれば,対をなすデータのt検定が算出されます.
「2」であれば等分散の2標本を対象とするt検定,
「3」であれば非等分散の2標本を対象とするt検定が算出されます.


この3つがよく分からないので困っている人が多いのです.


ある程度わかっている人は,以下の記事を御覧ください.

でも,まったく知識ゼロで困っている人は,以下を読み進めてください.





(3)エクセルt検定で1・2・3のどれを入力すればいいのか?


対をなすデータのt検定とは?

具体的には,上述してきたデータが「対をなすデータ」にあたります.
同じ被験者の集団(Aさん〜Gさん)に対し,薬の服用前後で何かしらのデータをとったものですので,これは「対をなすデータ」です.

「対をなす」というのは,比較したいデータである「配列1」と「配列2」が対をなしている,つまり,同じ集団や抽出元であることを指します.

この「対をなすデータ」という言い方は,「対応のあるデータ」とも呼ばれます.
※英語では「ペア(paired)」と表現されます.

なので,今回のようなデータの場合は,「検定の種類」は対をなすデータである「1」を入力します.


これで「完了」ボタンをクリックすれば,以下のように「p値」が算出されます.

算出されたp値は,「0.0105」になっています.

このp値が,「0.05未満」であれば,配列1と配列2のデータは「有意差がある」と表現されます.
言い換えれば,「服用前の平均値[ 15.3 ] と,服用後の[ 16.9 ]には統計学的に有意な差がある」ということです.
つまり,薬を服用させたことで,その測定値に影響が見られた可能性を示唆しています.

逆に,ここの値が「0.05以上」であれば,配列1と配列2のデータに有意差はなかったということになります.


なお,このようにして算出したB列11行目のセルをダブルクリックすれば,以下のように「関数を直接入力した場合」と同じものであることが分かります.

実際,B列11行目に

=TTEST(B2:B8,C2:C8,2,1)

を直接入力すれば,同じ分析結果が得られます.


では,検定の種類が「1」以外のものである場合とはどのようなものでしょうか?




(4)対をなしていない2標本を対象とするt検定とは?


「2」または「3」を入力することで算出される,
「等分散の2標本を対象とするt検定」
「非等分散の2標本を対象とするt検定」
とはなんでしょうか?

まず大前提として,選択したい「配列1」と「配列2」が「対をなしていない」データです.

例えば,以下のようなデータのことを指します.
ここでは,仮に16名の被験者を対象に,何かしらの測定値を記録したとします.
その測定値をエクセルに入力したものがこちらです.

この測定値のデータそのものは,上述してきたAさん〜Gさんの薬服用データと同じものです.

しかし,ここで比較したいのは,Aさん〜Gさんのデータと,Hさん〜Nさんのデータということが異なっています.
これがつまり,「対をなしていない」,言い換えれば,「対応がない」ということ.

この「対をなしていないデータ」という言い方は,「対応のないデータ」とも呼ばれます.
※英語では「アンペア(unpaired)」と表現されます.


このようなデータの場合は,検定の種類を「2」または「3」を使わなければいけません.


というわけで,次に問題となるのは,「2」と「3」のどちらを使うべきか?という点です.

検定の種類の説明のところには,このように書かれていたことを思い出してください.
対応のある検定の場合は 1、2 標本の等分散が仮定できる場合は 2、2 標本が非等分散の場合は 3 を指定します。
ここでいう「2標本の等分散が仮定できる」というのは何なのでしょうか?
実は,この「等分散」の話をしっかり解説するのは面倒なのです.
ウィキペディアに掲載されていますので,そちらを御覧ください.
等分散性(Wikipedia)

「そんなことはどうでもいいから,2と3のどっちを使えば良いのか知りたい」
という人は,黙って「F検定」をしましょう.




(5)F検定で「2」を使うべきか,「3」を使うべきかを判断する


F検定は,「2標本の等分散が仮定できるか否か」を検定する手法です.

F検定によって,「2」を使うべきか,「3」を使うべきかが判断できます.
学生の中には,意外とこの確認をしていない人が多いので,きちんとやっておきましょう.


F検定は,エクセルの「FTEST関数」または「F.TEST関数」で算出できます.
今回のデータでは,E列12行目にF検定をしています.

E列12行目に,

=FTEST(B2:B8,E2:E8)

を入力しました.

すると,以下のように「0.92752」という数値が算出されました.

この数値は,t検定のp値と同じように「0.05」未満か以上かで判断します.
すなわち,

0.05以上 = 等分散を仮定したデータ
0.05未満 = 非等分散のデータ

となります.

今回のデータ例であれば0.05以上ですので,
「等分散を仮定したデータ」
と言えます.

よって,検定の種類は「2」になります.
以下のように,「検定の種類(右端の部分)」のところを,2と入力するのです.




(6)非等分散のデータとはどのようなものか?

では,「3」で選択する「非等分散のデータ」とはどのようなものでしょうか?
そのデータ例を以下に示します.

これは,上述したデータのAさんとBさんを,周囲の測定値よりも著しく差をつけてみました.
こうすることで,F検定の値が「0.0245」となっていて,0.05未満になっていることが分かるかと思います.

一般的に「非等分散のデータ」というのは,比較している「配列1」と「配列2」のデータのいずれかで,平均値から大きくハズレた値が散見される場合のことです.
これを「等分散していない」と表現します.

こういうデータの場合は,「3」を入力します.
以下のように,「検定の種類(右端の部分)」のところを,3と入力するのです.




(7)間違いやすい「対をなす/対をなしていない」データの例


(1)エクセルへの入力方法の間違い

「間違い」というよりも,誤操作というパターンがこちら.

まず,上述したデータの再掲ですが,正しい「対をなすデータ」の入力方法がこちら.
t検定の値も,0.0105となっていることを覚えておいてください.



ところが,初心者に多い間違い(誤操作)が,両方の配列をメチャクチャに入力するというパターンです.

以下を御覧ください.
平均値は,服用前も服用後も上図と同じですが,p値が0.05以上の「有意差なし」になっています.

これは,エクセルのセルに入力する段階で,「服用前」の測定値と「服用後」の測定値が,Aさん〜Gさんの順番に並んでいないことによるものです.

対をなしているデータといっても,データの塊が対をなしていればOKというわけではありません.
同じ人・同じ物・同じ対象を,エクセルの「行」を揃えて入力する必要があります.

せっかく「有意差あり」のデータになるはずだったのに,誤操作により見逃してしまっているというもの.
本当によくあるミスですので,注意してください.



(2)本当は対をなしていないデータ

同じ対象であれば「対をなすデータ」だろう,ということで,以下のような分析をする人がいます.

これは,1年生から3年生のクラス9件分のデータです.
なにかしら比較したい「成績」の平均値を並べたものと考えてください.

この平均値を,「春」と「冬」で「対をなすデータ」のt検定で分析したところ,0.043ということで「有意差あり」になったと喜びたいところですが,これには注意が必要です.



さて,この9クラスは全く同じ対象のデータと言えるでしょうか?
その確認が必要になってきます.

例えば,春と冬の間に,クラス間で人が入れ替わっている可能性はないか?
その成績を出すにあたって,クラスを構成している生徒が,同じ条件で関わっているか?
といったことが問題になるでしょう.

もしそうした生徒が特定できるのであれば,春・冬ともにその生徒のデータを除外すれば「対をなすデータ」にできます.
しかし,それが分からない場合は対をなすデータとして処理することは適切とは言えません.

それに,こういうデータの場合は,わざわざ「クラス」で分析するよりも,各生徒・個人のデータを持ってきて,「対をなすデータ」として扱った方がより適切です.


しっかり理解したい場合は,以下の書籍で学習することをオススメします.
 

大学教員になる方法も紹介しています

大学教員になる方法
大学教員になる方法「強化版」
大学教員になる準備