R言語を使いWeb教材「ハンバーガーショップで学ぶ楽しい統計学」1の「t検定(対応なし)」について進めていきます(第4回)。
ハンバーガーの味を評価する
ワクワクバーガーを食べた女子高生の点数(100点満点)および平均と標本偏差
> W女子高生評価<-c(70,75,70,85,90,70,80,75)
#点数
> mean(W女子高生評価)
#平均
[1] 76.875
> W女子高生評価の標本偏差<-mean((W女子高生評価-mean(W女子高生評価))^2)
> W女子高生評価の標本偏差
[1] 49.60938
モグモグバーガーを食べた女子高生の点数(100点満点)および平均と標本偏差
> M女子高生評価<-c(85,80,95,70,80,75,80,90) #点数
> mean(M女子高生評価) #平均
[1] 81.875
> M女子高生評価の標本偏差<-var(M女子高生評価)*(length(M女子高生評価)-1)/length(M女子高生評価) #不偏偏差の関数から標本偏差へ
> M女子高生評価の標本偏差
[1] 55.85938
ワクワクバーガーの平均点とモグモグバーガーの平均点の差
> 平均の点差<-mean(W女子高生評価)-mean(M女子高生評価)
> abs(平均の点差)
[1] 5
- 5点の差でも、モグモグバーガーの方が平均点が高かったから、モグモグバーガーの方が女子高生にうけている。
- 5点の差は意味があるとは考えない。つまり、データのばらつきを考えると5点の差は取るに足らないと考える。
平均差の信頼区間
ワクワクバーガーとモグモグバーガーとの平均の差が5点であったとき、その5点がどれくらい信頼できるものかを考えるために、信頼区間を求める。
差の信頼区間は、「標本平均の差±t値×差の標本標準誤差」で求まる。
この式の「標本標準誤差」推定する母分散が等しいと仮定した場合を考えているので、√
(推定母分散×((1/標本数A)+(1/標本数B))となる。なお、推定母分散は不偏分散と同じ考えか方なので、二乗和を標本数-1で割った値となる。
そこでまず、差の標本標準誤差を求める。
> 推定母分散<-
(sum((W女子高生評価-mean(W女子高生評価))^2)+sum((M女子高生評価-mean(M女子高生評価))^2))/
((length(W女子高生評価)-1)+(length(M女子高生評価)-1))
> 推定母分散
[1] 60.26786
> 差の標本標準誤差<-sqrt(推定母分散*((1/length(W女子高生評価))+(1/length(M女子高生評価))))
> 差の標本標準誤差
[1] 3.881619
次にt値を求める。
> t値<-qt(0.025,14) #自由度1(8-1)+(8-1)=14のt分布で下側確率0.025となるtの値を求める
> t値
[1] -2.144787
> t値<-qt(0.975,14) #自由度1(8-1)+(8-1)=14のt分布で上側確率0.975となるtの値を求める
> t値
[1] 2.144787
最後に上記の値を使って信頼区間
「標本平均の差±t値×差の標本標準誤差」
を求める。
> 下側信頼区間<-平均の点差-t値*差の標本標準誤差
> 下側信頼区間
[1] -13.32524
> 上側信頼区間<-平均の点差+t値*差の標本標準誤差
> 上側信頼区間
[1] 3.325244
このことから
差の95%信頼区間が-13.33~3.33の間であるため、5点の差は有意な差とは認められないという結果になる。
t検定
仮説の設定
帰無仮説H0:
ワクワクバーガー(全体)とモグモグバーガー(全体)のおいしさの評価点には差がない
。→2つの母平均は等しい。
対立仮説H1:
ワクワクバーガー(全体)とモグモグバーガー(全体)のおいしさの評価点には差がないとはいえない、つまり、差がある。
→
2つの母平均は等しくない。
指標tを計算してみよう
検定統計量となる指標tは「(標本平均の差)/(標本平均の差の標準誤差)」で求まる。
> 指標t<-平均の点差/差の標本標準誤差
> 指標t
[1] -1.288122
t分布表をみる
自由度は(8-1)+(8-1)=14となるので、いま有意水準を5%とするときの95%棄却域をを求める。
> qt(0.05,14) #自由度14のt分布で下側確率0.025となるtの値
[1] -1.76131
> qt(0.05,14,lower.tail=FALSE) #自由度14のt分布で上側確率0.025となるtの値
[1] 1.76131
有意水準5%を図示すると以下のようになる。
> curve(dt(x,14),-3,3)
> abline(v=qt(0.025,14))
> abline(v=qt(0.975,14))

t指標は
-1.288122 となり5%有意水準での棄却域には入っていない。したがって帰無仮説は棄却できません。
結論、ワクワクとモグモグの評価点の平均には差がないということになる。
念のため、p値も求めると以下のようになる。
> 2*pt(指標t,14) #両側検定なので下側確率を2倍してからp値を計算
[1] 0.218587
p値が0.218587 となり有意水準5%より大きい。
このことからも帰無仮説は棄却されないとわかります。
Rの関数を使いt検定をする
t検定を関数t.test()で一発検定する。
> t.test(W女子高生評価,M女子高生評価,var.equal=TRUE)
Two Sample t-test
data: W女子高生評価 and M女子高生評価
t = -1.2881, df = 14, p-value = 0.2186
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-13.325244 3.325244
sample estimates:
mean of x mean of y
76.875 81.875
オプションの
var.equal=TRUE をつけないと、t検定を行う際に前提条件となる分散の等質性を満たさなかった場合に用いるWelch検定を行ってしまう。
ちなみにRの関数では分散の等質性を検定できるので確かめてみる。
> var.test(W女子高生評価,M女子高生評価)
F test to compare two variances
data: W女子高生評価 and M女子高生評価
F = 0.88811, num df = 7, denom df = 7, p-value = 0.8796
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.1778034 4.4360383
sample estimates:
ratio of variances
0.8881119
p値が
0.8796と5%以上となり、分散の等質性の仮定を満たしていることがわかる。
もし、棄却域に入る場合はt検定のR関数においてオプション
var.equal=TRUEをつけずにWelch検定をする必要がある。
今回は上記のt検定のようにオプションをつけておいて良かったということになる。
- Web教材「ハンバーガーショップで学ぶ楽しい統計学」第4章 t検定(対応なし)http://kogolab.chillout.jp/elearn/hamburger/chap4/sec0.html