R言語を使いWeb教材「ハンバーガーショップで学ぶ楽しい統計学」1の「信頼区間」について進めていきます(第2回)。

平均的なポテトを推定する
母集団から抽出(サンプリング)した「ワクワクバーガー」のポテトの長さに関するデータについて、平均、(不偏)偏差、標準偏差を求める。
まず、サンプルサイズn=10の標本データを入力する。
> Wポテトの本数<-c(47,51,49,50,49,46,51,48,52,49)
> Wポテトの本数
[1] 47 51 49 50 49 46 51 48 52 49
平均を求める(ただし、今回は平均を求めるmean()という関数を使用) 。
> mean(Wポテトの本数) #平均
[1] 49.2
分散は母分散の推定値になるので不偏分散となる。
不偏分散は(データ-平均値)の二乗)の総和÷(個数-1)なので以下のように求める。
> 標本分散<-mean((Wポテトの本数-mean(Wポテトの本数))^2) #標本分散
> 不偏分散<-標本分散*(length(Wポテトの本数)/(length(Wポテトの本数)-1)) #不偏分散
> 不偏分散
[1] 3.511111

区間推定/信頼区間

信頼区間の求め方
信頼区間は、標本平均±t×標本標準誤差で求まる。
なお、標本平均の分散は(不偏分散σ2/標本数n)で、 標本平均の標準偏差は (不偏分散σ2/標本数n) の平方根で求まり、 標本平均の標準偏差は特に標準誤差(SE=standard error)ともいう。
まずはtの値から求める。
> t値<-qt(0.025,9) #自由度9(n-1)のt分布で下側確率0.025となるtの値を求める
> t値
[1] -2.262157
> t値<-qt(0.975,9) #自由度9(n-1)のt分布で上側確率0.975となるtの値を求める
> t値
[1] 2.262157
このtの値を図示すると、直線より内側が95%信頼区間となる。
> curve(dt(x,9),-3,3)
> abline(v=qt(0.025,9))
> abline(v=qt(0.975,9))
次にこのtの値を使い、信頼区間を求める。
> 下側信頼区間<-mean(Wポテトの本数)-t値*sqrt(var(Wポテトの本数)/10)
> 上側信頼区間<-mean(Wポテトの本数)+t値*sqrt(var(Wポテトの本数)/10)
> 下側信頼区間
[1] 47.85957
> 上側信頼区間
[1] 50.54043

t分布と自由度
自由度を変化させて表示したt分布を図示する(df=8→4→2→1)。
自由度の値が高いほど山頂が高く、両裾野が低くなる。
curve(dt(x,8),-5,5) #確率密度関数dtを引数に自由度df=8の確率分布
curve(dt(x,4),-5,5,add=TRUE) #確率密度関数dtを引数に自由度df=4の確率分布
curve(dt(x,2),-5,5,add=TRUE) #確率密度関数dtを引数に自由度df=2の確率分布
curve(dt(x,1),-5,5,add=TRUE) #確率密度関数dtを引数に自由度df=1の確率分布


  1. Web教材「ハンバーガーショップで学ぶ楽しい統計学」第2章 信頼区間 http://kogolab.chillout.jp/elearn/hamburger/chap2/sec0.html