Chapter 7 仮説とデータの具体例

7.1 仮説の確認

データ分析に入る前に、卒業研究で何を分析したいのかを整理しましょう。データ分析は何らかの目的・仮説を持っておこなうもので、やみくもにやろうとすると迷子になってしまいます。

具体的には、基本的な仮説は2変数の関係に帰着させましょう。

被説明変数　←　説明変数

この文書では（経済学の例で申し訳ありませんが）家計のデータを用い、収入が教育年数や年齢とどう関係するか、といった分析を行います。例えば、「教育年数が高いほど収入が高い」という仮説が考えられます。

収入（被説明変数）　←　教育年数（説明変数）

仮説は複数あっても良いですが、あまり多すぎると論文の主題がぼやけてしまいます。少数に絞りましょう。

7.2 変数の確認

仮説を考えたあとは、インポートしたデータのうちどの変数を使うのかを考えましょう。データにある変数をそのまま使える場合もあれば、自分で加工して作成する場合もあります。

使用したい変数が連続変数なのか、カテゴリ変数なのかは今後のデータ前処理や分析において重要です。

連続変数（身長、年齢、など）
カテゴリ変数（性別、総合心理学部生かどうか、など）

例で示した収入は連続変数となります。教育年数は連続変数として扱う場合もありますし、高卒かどうか、大卒かどうか、などカテゴリ変数に変換する場合もあります。このように、分析者がどのような変数にするかを判断する場合もあります。

他の例をあげると、5件法（1〜5）で聞いたアンケート項目については、以下のパターンがあり得ます。分析の都合に合わせて使い分けましょう。

連続変数として使う
5段階のカテゴリ変数として使う
少数のカテゴリ変数として使う（1, 2を「低い」、3, 4, 5を「高い」と振り直す、など）

7.3 データの具体例

この文書では、wooldridge¹パッケージに入っているデータsavingを用いた分析例を説明していきます。パッケージをインストールして呼び出しましょう。

install.packages("wooldridge")
library(wooldridge)

データはdata()で読み込むことができます。

data("saving")

head()を用いて、データの先頭を確認してみましょう。

head(saving)

##    sav   inc size educ age black  cons
## 1   30  1920    4    2  40     1  1890
## 2  874 12403    4    9  33     0 11529
## 3  370  6396    2   17  31     0  6026
## 4 1200  7005    3    9  50     0  5805
## 5  275  6990    4   12  28     0  6715
## 6 1400  6500    4   13  33     0  5100

このデータは、1980年代後半アメリカのデータとなっています。各変数の説明は以下のとおりです。

sav: 貯蓄（年間、ドル）
inc: 収入（年間、ドル）
size: 家族の人数
educ: 教育年数
age: 年齢
black: 黒人ダミー
cons: 消費（年間、ドル）

このデータから、以下のような仮説を立て検証していきます。

教育年数が高いほど、収入や貯蓄が多い
年齢が高いほど、収入や貯蓄が多い
黒人とそれ以外では収入や貯蓄が異なる

ここでは、収入や貯蓄を被説明変数、教育年数・年齢・黒人ダミーを説明変数としています。その他の変数も適宜使用します。

library(tidyverse)
library(wooldridge)
data("saving")

Wooldridgeは計量経済学の有名な教科書 “Introductory Econometrics: A Modern Approach”の著者です。この教科書に掲載されているデータを使用します。↩︎