Chapter 7 仮説とデータの具体例
7.1 仮説の確認
データ分析に入る前に、卒業研究で何を分析したいのかを整理しましょう。 データ分析は何らかの目的・仮説を持っておこなうもので、やみくもにやろうとすると迷子になってしまいます。
具体的には、基本的な仮説は2変数の関係に帰着させましょう。
この文書では(経済学の例で申し訳ありませんが)家計のデータを用い、収入が教育年数や年齢とどう関係するか、といった分析を行います。 例えば、「教育年数が高いほど収入が高い」という仮説が考えられます。
仮説は複数あっても良いですが、あまり多すぎると論文の主題がぼやけてしまいます。少数に絞りましょう。
7.2 変数の確認
仮説を考えたあとは、インポートしたデータのうちどの変数を使うのかを考えましょう。 データにある変数をそのまま使える場合もあれば、自分で加工して作成する場合もあります。
使用したい変数が連続変数なのか、カテゴリ変数なのかは今後のデータ前処理や分析において重要です。
- 連続変数(身長、年齢、など)
- カテゴリ変数(性別、総合心理学部生かどうか、など)
例で示した収入は連続変数となります。 教育年数は連続変数として扱う場合もありますし、高卒かどうか、大卒かどうか、などカテゴリ変数に変換する場合もあります。 このように、分析者がどのような変数にするかを判断する場合もあります。
他の例をあげると、5件法(1〜5)で聞いたアンケート項目については、以下のパターンがあり得ます。分析の都合に合わせて使い分けましょう。
- 連続変数として使う
- 5段階のカテゴリ変数として使う
- 少数のカテゴリ変数として使う(1, 2を「低い」、3, 4, 5を「高い」と振り直す、など)
7.3 データの具体例
この文書では、wooldridge
1パッケージに入っているデータsaving
を用いた分析例を説明していきます。
パッケージをインストールして呼び出しましょう。
install.packages("wooldridge")
library(wooldridge)
データはdata()
で読み込むことができます。
data("saving")
head()
を用いて、データの先頭を確認してみましょう。
head(saving)
## sav inc size educ age black cons
## 1 30 1920 4 2 40 1 1890
## 2 874 12403 4 9 33 0 11529
## 3 370 6396 2 17 31 0 6026
## 4 1200 7005 3 9 50 0 5805
## 5 275 6990 4 12 28 0 6715
## 6 1400 6500 4 13 33 0 5100
このデータは、1980年代後半アメリカのデータとなっています。各変数の説明は以下のとおりです。
sav
: 貯蓄(年間、ドル)inc
: 収入(年間、ドル)size
: 家族の人数educ
: 教育年数age
: 年齢black
: 黒人ダミーcons
: 消費(年間、ドル)
このデータから、以下のような仮説を立て検証していきます。
- 教育年数が高いほど、収入や貯蓄が多い
- 年齢が高いほど、収入や貯蓄が多い
- 黒人とそれ以外では収入や貯蓄が異なる
ここでは、収入や貯蓄を被説明変数、教育年数・年齢・黒人ダミーを説明変数としています。 その他の変数も適宜使用します。
library(tidyverse)
library(wooldridge)
data("saving")
Wooldridgeは計量経済学の有名な教科書 “Introductory Econometrics: A Modern Approach”の著者です。この教科書に掲載されているデータを使用します。↩︎