RでPISA2015

 PISA2015の「ICT活用調査」の分析記事が話題になっています。

  OECDのWebサイトには,各種報告書とともにデータファイルも統計ソフトファイルとして公開されていて,ダウンロードすれば自分で集計処理をすることが可能です。(集計概要は「Compendia」としてExcelファイルにまとめられています。)

 普通に詳細を検討するなら,概要ファイルをExcelで処理した方が楽だと思いますが,せっかくなので,Rという統計環境に挑戦することにしました。

 (追記20170114:「RでPISA2015〈その2〉」もご覧下さい)

 Rは,統計分析のためのプログラミング言語です。市販の統計ソフトが裏側で処理していることを利用者自身がプログラミングすることで,希望に応じた統計分析処理を行なわせることができるというわけです。その代わり,ボタン1つで処理させるような手軽さはないというのが敷居の高いところです。

 しかし,R言語とそのための環境を構成するソフトウェアは,オープンソフトウェアとして無償で公開されて,世界中の専門家が仕事で利活用している優れものです。研究を生業としているものとしては,一度はちゃんと触れておきたいソフトウェアです。

 取っ付き難さはあれど,導入手続は簡単です。

 1. Rをダウンロードする。 (たとえばこちらから https://cran.ism.ac.jp )

 2. RStudioをダウンロードする。 https://www.rstudio.com/products/RStudio/ 

 3. RとRStudioをインストールする。

 4. RStudioを起動する。

 これで,準備が出来ました。あとは,データファイルを読み込むなどして,統計処理を命令していきます。

 ちなみにRとRStudioですが,Rが言語命令を処理する本体ソフトウェアで,RStudioは操作のしやすい窓口(インターフェイス)を提供する統合環境ソフトです。

RStudio

 左上がプログラムを編集する場所,左下「コンソール」が実際に命令をする場所,右上にいろんなデータの一覧,右下がファイル一覧ですが,タブで切り替えるといろんな情報を表示できます。

 参考情報として三重大学の奥村先生による「PISA 2015データを読む(未完)」というWebページが貴重な入り口を示してくださっていますので,これをまず試してみましょう。

 初めてだと「取得から読み込みまで」の部分で音を上げそうですが,Rは標準で備わっている機能を命令で呼び出す以外にも,パッケージというものを足していくことで機能拡張させることが可能なので,PISAのデータファイルが他のソフト向けのものでも,該当するパッケージさえあれば読み込む機能を追加できます。そうやって読み込んでみるとPISAデータは結構メモリ食うねって話が書いてあります。

 しかし,ここではRStudioという統合環境ソフトを使うことにしたので,この辺をかなり楽にクリアできてしまいます。

 macOSであれば,PISAからダウンロードした圧縮ファイル(たとえば PUF_SPSS_COMBINED_CMB_STU_QQQ.zip)を展開して出来上がったファイル(Cy6_ms_cmb_stu_qqq.sav)を自分のホームディレクトリに移動させれば,RStudioのファイル一覧画面で確認することができます。これをダブルクリックなどして開こうと(インポートしようと)すると,必要なパッケージをダウンロードするか?と(英語で…)聞いてきますので,その指示に従って操作すれば読み込みに関しては完了してしまいます。

 上の画面写真の赤い矢印あたりにある「Pacakges」というタブで切り替えると,現在手元にあるパッケージ一覧と利用するかどうかのチェックマークが並んでいて確認できます。この一覧にないパッケージは「install」ボタンで探しに行ってダウンロードします。

 「PISA 2015データを読む(未完)」では,「data」という変数(オブジェクト)に読み込んだデータが格納されたのですが,RStudioを使って上記の方法をとると「Cy6_ms_cmb_stu_qqq」という名前になるんじゃないかなと思います。続く「回答の分析」の解説と命令はその部分を置き換えて,コンソール内で操作すればWebページ通りになると思います。

 さて,問題はここから先です。

 他の質問に対する回答集計や選択肢の異なる場合の処理など,どうやったらいろいろ見ることができるのでしょうか。できればExcelのようにグラフ作成したらパッと視覚的に確認できると嬉しい。

 しかし,Rに挑戦する場合には,パッと出るのを「自分でプログラミング」しなければなりませんから,R言語を使って試行錯誤することとなります。

  奥村先生のWebページが「(未完)」なのは,経験のある方でもそれなりに時間をかける仕事になるからで,さまざまな質問形式のPISAデータをRで読むとなると煩雑さはやむを得ないところです。

 というわけで,私も完成とまではいきませんが,少しチャレンジした成果を以下に載せておきたいと思います。R言語は初めてですので,各所のお知恵を拝借して組んでみた,とりあえず動いたというレベルです。Rプログラミングの参考にはなりませんが,とりあえずPISAデータをいじってみたいという皆さんの参考になればと思います。プログラムを編集する場所(左上)に貼り付けて実行してみてください。

 なお,このプログラムは学校質問紙「SC017Q07NA」という質問のグラフを描くものです。質問番号やファイルを変えて改良してください。

# For PISA2015 rev2
# K.RIN

library(haven)
library(ggplot2)
library(plyr)
library(tidyverse)

#student_raw <- read_sav("~/Cy6_ms_cmb_stu_qqq.sav")
school_raw <- read_sav("~/Cy6_ms_cmb_sch_qqq.sav")

#質問文(手動で質問文をコピペ)
q_title <- "Is your school’s capacity to provide instruction hindered by any of the following issues?\n[SC017Q07NA] A lack of physical infrastructure\n (e.g.building, grounds, heating/cooling, lighting and acoustic systems)"
#回答選択肢(手動で設定のこと)
ans_limits <- c("1","2","3","4")
ans_labels <- c("まったく\nあてはまらない","どちらかといえば\nあてはまらない","どちらかといえば\nあてはまる","とてもよく\nあてはまる")
#ラベル
y_label <- "パーセント %"
x_label <- "国"
legend_label <- "回答"

#回答データ抽出(国別クロス集計)
tmp <- subset(school_raw, school_raw$SC017Q07NA != "NaN")
country_ans_table <- table(tmp$CNT,tmp$SC017Q07NA)
ftable(country_ans_table)

#縦長dfへ変換
country_ans_long <- tbl_df(country_ans_table)
#横長df版クロス表
country_ans_wide <- spread(country_ans_long, Var2, n)
#国別idづけ(いまのところ利用せず…)
country_ans_wide <- country_ans_wide %>% rownames_to_column('id')
#idを文字から数値へモード変換
mode(country_ans_wide$id) <- "integer"
#国別id付き縦長df
country_ans_long <- gather(country_ans_wide, answer,count,-id,-Var1)

#並べ替え(表示の関係で逆順に)
country_ans_long <- arrange(country_ans_long, desc(Var1), desc(answer))

#列名変更
colnames(country_ans_long) <- c("id", "CNT", "answer", "count")
#パーセント計算(グラフ描写用)
country_ict <- ddply(country_ans_long, "CNT", transform, percent = count / sum(count) * 100, 0.1)
#小数点以下1桁処理(ラベル表示用,合計が100%にならないことあり)
country_ict <- ddply(country_ict, "CNT", transform, percent_rounded = round_any(count / sum(count) * 100, 0.1))
#ラベル位置計算
country_ict <- ddply(country_ict, "CNT", transform, percent_label_y = cumsum(percent)-0.5*percent)
country_ict <- arrange(country_ict, desc(CNT), desc(answer))

#フォントファミリー設定
quartzFonts(HiraKaku = quartzFont(rep("HiraginoSans-W3", 4)))
par(family = "HiraKaku")

#グラフ描画
graph <- ggplot(country_ict, aes(x = CNT, y = percent, fill = factor(answer))) + geom_bar(stat = "identity", position='stack') + scale_color_manual(values = rainbow(7)) + theme_bw() + geom_text(aes(y = percent_label_y, label = percent_rounded), color = "white", size = 3) + scale_y_reverse(breaks = c(100.0,75.0,50.0,25.0,0.0), labels = c("0%","25%","50%","75%","100%")) + coord_flip(expand = FALSE) +
ggtitle(q_title) + scale_fill_discrete(limits = ans_limits, labels = ans_labels) + ylab(y_label) + xlab(x_label) + labs(fill = legend_label) + theme(legend.title = element_text(family = "HiraKaku", size = 10),plot.title = element_text(family = "HiraKaku", size = 10), legend.text = element_text(family = "HiraKaku", size = 7), axis.title = element_text(family = "HiraKaku", size = 9), axis.title.y = element_text(angle = 0, vjust = 0.5))

print(graph)

参考資料

PISA 2015データを読む(未完)」(奥村晴彦)
Rクックブック』(オライリー)
Rグラフィックスクックブック』(オライリー)
ggplot2 — きれいなグラフを簡単に合理的に」「tidyr — シンプルなデータ変形ツール」(Heavy Watal)
ggplot2 documentation」(Hadley Wickham)
「plyrパッケージで君も前処理スタ☆」改め「plyrパッケージ徹底入門」」(tera monagi)

今年1年

2016年もお世話になりました。

ブログの更新が滞りがちになったのは残念でしたが,2016年も本当にいろいろありました。

1月に予想していた「教育とオープンデータ」の波のようなものは,残念ながら今年やって来ませんでしたが,大事なトピックスであり続けるとは思います。

360度カメラに関しては,VRが世間的にも注目を集め始めた年でしたので,徐々に盛り上がってきているのは確かです。Insta360 nanoの登場で,iPhone経由の共有もかなり手軽になりました。まだプラットフォーム側の対応が追いついていないという感じですので,これも今後少しずつ充実すると思います。

2月は昨年度から参加しているICT活用教育アドバイザー事業の仕事や,職場で担当している実習訪問などこなしていました。

というよりも,この1〜3月は「研究室のお引っ越し」という一大イベントが進行していて,外部仕事がない限りは,ひたすら研究室の掃除と荷物整理と梱包をしていました。とにかく体力勝負の日々だったと思います。運搬はプロの運送業者がやってくれましたが,梱包と開封と研究室の整理は一人でコツコツと。なんとか引っ越しができたわけですが,それ以外は何もできなかった年度末でした。

3月は,そういうわけでお引っ越し作業。

4月は,新しい研究室で始動したわけですが,職場での担当が新しい入学生の担任となり,新1年生達のサポートをする日々でした。引っ越したばかりで,あらゆる仕事の段取りが停滞気味。授業の方も自転車操業的な感じでした。そういう事情はお構いなしに厄介事も降ってくるし,とにかく慌ただしく始まった新年度でした。

5〜6月は,外部からの依頼仕事や出張も賑やかで,一段と落ち着きがない期間でした。「Get Active」という文献の翻訳作業も同時進行。これがなかなか作業に集中できず,相変わらず周りに迷惑をかけました。

7月には,高松でセミナー,教育と情報の歴史研究会,滋賀県への出張,鳴門教育大学での非常勤講師,日本教育工学会のワークショップ,前期試験,関西教育ICT展への参加,教員免許更新講習の担当などなど,準備が必要なものばかりなのに準備する余裕のない日々が続き,眩暈が…。

8月は,とうとう国外脱出です。とても久し振りに米国へ渡航しました。妹家族が住むアリゾナ州へ。実家の両親のお供でしたが,強制休暇です。

米国では,家で過ごすか,モールへ出かけてApple Storeでお買い物するかだけでしたが,米国の空気や雰囲気を直接感じられたのはよかったです。大統領選挙の行方が今のようなことになるとは,その時は誰も予想だにしていなかったと思います。ただ,クリントン候補がかなり嫌われていたことは印象に残っています。

9〜10月は,ようやく通常運転が始まり,後期の授業開始。それとともに出張も11月も含めて出かける機会が多かったです。そうこうしているうちに12月になり,今に至るという感じでしょうか。

とにかく,研究室引っ越しという大きな出来事があって,そのまま年度が始まった慌ただしさで駆け抜けてしまった1年でした。自分で振り返ると,何もしなかったんだなぁという感じですが,たぶん丁寧に拾えば,何かしていたとは思います。それはまた時間があるときにゆっくりと整理を。