Chapter 7 仮説とデータの具体例

7.1 仮説の確認

データ分析に入る前に、卒業研究で何を分析したいのかを整理しましょう。 データ分析は何らかの目的・仮説を持っておこなうもので、やみくもにやろうとすると迷子になってしまいます。

具体的には、基本的な仮説は2変数の関係に帰着させましょう。


被説明変数 ← 説明変数


この文書では(経済学の例で申し訳ありませんが)家計のデータを用い、収入が教育年数や年齢とどう関係するか、といった分析を行います。 例えば、「教育年数が高いほど収入が高い」という仮説が考えられます。


収入(被説明変数) ← 教育年数(説明変数)


仮説は複数あっても良いですが、あまり多すぎると論文の主題がぼやけてしまいます。少数に絞りましょう。

7.2 変数の確認

仮説を考えたあとは、インポートしたデータのうちどの変数を使うのかを考えましょう。 データにある変数をそのまま使える場合もあれば、自分で加工して作成する場合もあります。

使用したい変数が連続変数なのか、カテゴリ変数なのかは今後のデータ前処理や分析において重要です。

  • 連続変数(身長、年齢、など)
  • カテゴリ変数(性別、総合心理学部生かどうか、など)

例で示した収入は連続変数となります。 教育年数は連続変数として扱う場合もありますし、高卒かどうか、大卒かどうか、などカテゴリ変数に変換する場合もあります。 このように、分析者がどのような変数にするかを判断する場合もあります。

他の例をあげると、5件法(1〜5)で聞いたアンケート項目については、以下のパターンがあり得ます。分析の都合に合わせて使い分けましょう。

  • 連続変数として使う
  • 5段階のカテゴリ変数として使う
  • 少数のカテゴリ変数として使う(1, 2を「低い」、3, 4, 5を「高い」と振り直す、など)

7.3 データの具体例

この文書では、wooldridge1パッケージに入っているデータsavingを用いた分析例を説明していきます。 パッケージをインストールして呼び出しましょう。

install.packages("wooldridge")
library(wooldridge)

データはdata()で読み込むことができます。

data("saving")

head()を用いて、データの先頭を確認してみましょう。

head(saving)
##    sav   inc size educ age black  cons
## 1   30  1920    4    2  40     1  1890
## 2  874 12403    4    9  33     0 11529
## 3  370  6396    2   17  31     0  6026
## 4 1200  7005    3    9  50     0  5805
## 5  275  6990    4   12  28     0  6715
## 6 1400  6500    4   13  33     0  5100

このデータは、1980年代後半アメリカのデータとなっています。各変数の説明は以下のとおりです。

  • sav: 貯蓄(年間、ドル)
  • inc: 収入(年間、ドル)
  • size: 家族の人数
  • educ: 教育年数
  • age: 年齢
  • black: 黒人ダミー
  • cons: 消費(年間、ドル)

このデータから、以下のような仮説を立て検証していきます。

  • 教育年数が高いほど、収入や貯蓄が多い
  • 年齢が高いほど、収入や貯蓄が多い
  • 黒人とそれ以外では収入や貯蓄が異なる

ここでは、収入や貯蓄を被説明変数、教育年数・年齢・黒人ダミーを説明変数としています。 その他の変数も適宜使用します。

library(tidyverse)
library(wooldridge)
data("saving")

  1. Wooldridgeは計量経済学の有名な教科書 “Introductory Econometrics: A Modern Approach”の著者です。この教科書に掲載されているデータを使用します。↩︎