R言語を使いWeb教材「アイスクリーム屋さんで学ぶ楽しい統計学」1の「散布図と相関」について進めていきます(第1回)。

散布図を描く
客数と最高気温の関係の散布図を描く。
> 最高気温<-c(29,30,29,32,33,32,34,27,28,32,34,32,30,28)
> 最高気温
[1] 29 30 29 32 33 32 34 27 28 32 34 32 30 28
> 客数<-c(312,348,284,369,420,536,652,275,294,368,451,405,458,422)
> 客数
[1] 312 348 284 369 420 536 652 275 294 368 451 405 458 422
> plot(最高気温,客数)
散布図のパターン
最高気温が高くなればなるほど、客数は多くなる右上がりのグラフ「正の相関」であることがわかる。
つまり、その日の最高気温がどれくらいになるかがわかれば、客数がだいたい予想できることになる。
しかし、この散布図は 曜日による影響で、データグループが分かれている。
上のグループは、土曜と日曜のデータで、下のグループは平日のデータである。
土日か、平日かによって予想が変わってくるので 常にデータに立ち戻って調べることが大切である。

(応用編)駅からの距離と客数の関係
駅からの距離(m)と平均客数の関係の散布図を描く。
> 駅からの距離<-c(10,1200,500,50,740,30,10,360,150,930,620,65)
> 駅からの距離
[1] 10 1200 500 50 740 30 10 360 150 930 620 65
> 平均客数<-c(795,213,465,694,403,782,769,561,692,361,385,723)
> 平均客数
[1] 795 213 465 694 403 782 769 561 692 361 385 723
> plot(駅からの距離,平均客数)
散布図からわかること
距離が離れれば離れるほど、平均客数は減る「負の相関」である。
駅からお店が250mの距離にある場合の予想客数は、約600人であることがわかる。

  1. web教材「アイスクリーム屋さんで学ぶ楽しい統計学」第1章 散布図と相関http://kogolab.chillout.jp/elearn/icecream/chap1/sec0.html