狠狠撸

狠狠撸Share a Scribd company logo
国内外の政府統計コミュニティ
におけるRの活用について
独立行政法人 統計センター
和田 かず美
椿 広 計
2017年度統計数理研究所共同研究集会「データ解析環境Rの整備と利用」
2017年11月25日(土)統計数理研究所 セミナー室5
本発表の内容は、全て発表者個人に属し、所属組織の公式な見解を示すものではありません
目次
I. 身近な動きからみる国内の動向
II. EBPMについて
? EBPMのエビデンス
? 国際機関
? 英米EU
III. 公的統計部門の動向
? 各国とEUの統計作成事情
? 公的統計部門におけるRの利用事例
IV. 公的統計部門におけるRの普及
UNIDO? オーストラリア統計局?ニュージーラン
ド統計局?ノルウェー統計局?ルーマニア統計局
I. 身近な動きからみる
国内の動向
身近な動向
総務省統計研究研修所
? 統計技術に関する研究
? 国家公務員及び地方公務員に対する統計の基礎理論、
分析等の統計に関する専門的な研修の企画及び実施
他府省や地方公共団体からの要望によるR研修ニーズの増大
? 平成27年度から、本科(各種行政施策の企画?立案?
評価に必要な統計を教える三ヶ月の講座)で教えるRを、
メニュー形式のR Commander利用から、より本格的な
処理が可能な通常のRに転換
? 平成28年度にRの1日初心者講座を新規開設
? 平成29年度から 1日講座を年2回に
4
なぜR研修ニーズが増えているのか?
? EBPM: Evidence-Based Policy Making の要請に
よる、政策立案のための分析ニーズの高まり
? フリーの統計ソフトの普及とPCの性能向上
? 外注できないセンシティブな内部データも活用
したいというニーズ
統計関係の部局の所属ではなく、これまで分析やデータ処理の
経験がない職員の受講も増えている
5
国内のEBPMに関連する大きな動き
? 2009年新統計法全面施行
60年ぶりの統計法改正により、公的統計の位置付け
を「行政のための統計」から「社会の情報基盤として
の統計」に転換
? 高度情報通信ネットワーク社会推進戦略本部(IT
総合戦略本部)
官民データ活用推進基本法の制定
? 基本計画の策定
? 経済財政諮問会議
統計改革の基本方針
?統計改革推進会議
6
IT総合戦略本部
? 「世界最先端IT国家創造宣言」
H25.06.14閣議決定、その後H29.05.30に世界最先端IT国家
創造宣言?官民データ活用推進基本計画に伴う廃止まで、毎年
全文変更
ビッグデータの活用とオープンデータ推進
? 「官民データ活用推進基本法」[平成28 年法律第103
号]と、「世界最先端IT国家創造宣言?官民データ
活用推進基本計画」[H29.05.30閣議決定]
EBPMの環境整備として、分野横断的なサービスプラットホー
ムの整備(データ標準化、API、マイナンバー制度活用等)
EBPMの推進: 各府省にEBPM推進統括官をおき、各府省の取り
組みを総括するとともに、政府横断的なEBPMの推進に取り組む
ため、EBPM推進委員会を設置する
データ活用のための専門知識?技術を持つ人材の育成
小?中?高等学校でのプログラミング教育の充実
7
経済財政諮問会議
① 経済財政運営と改革の基本方針2015[H27.06.30閣議
決定]
公共サービスに関する情報の「見える化」とエビデンスに基づくP
DCAの重視
② 統計改革の基本方針[H28.12.21]
エピソード?ベースの政策形成から、エビデンス?ベースへ
「エビデンス / 証拠」となる統計等の整備?改善や、 ユーザーニー
ズを反映した統計の重要性への認識
? 統計委員会?統計行政部門の強化等
? 統計改革推進会議の設置 ← 次のスライド
③ 経済財政運営と改革の基本方針2017[H29.06.09閣議
決定]
重点課題6: 統計改革の推進
証拠に基づく政策立案(EBPM)と統計の改革を一体的に推進する
8
統計改革推進会議
政府全体における証拠に基づく政策立案(EBPM)の定着、
国民のニーズへの対応等の観点から、抜本的な統計改革及び
一体的な統計システムの整備等を政府が一体となって強力に
推進するために必要な検討を行う
最終取りまとめ[H29.05.19]
? EBPMの推進体制の構築
? 公的統計の改革
? 国?地方の職員一般のデータ?リテラシーの確保
? 社会全体のデータ?リテラシー向上のため、大学の統計
教育との連携?協力
9
国?地方公共団体の職員に求められる
データ?リテラシーとは
データに基づく合理的な思考により課題を解決す
る能力(情報処理技術の発展に伴うデータ処理?分
析能力の高度化に伴い世界的に求められている、統
計的な計算力にとどまらない行政課題の解決に向け
た統計的な思考力など)
EBPM ? エビデンスに基づく問題解決
問題の発見、要因の分析と効果の確認
? 因果関係を考える
? 擬似相関やバイアスに留意する
10
Ⅱ. EBPMについて
? EBPMのエビデンス
? 国際機関
? 英米EU
「エビデンスに基づく政策」に
関するエビデンス [森川, 2017]
? EBPの必要性への認識は極めて高いが、政策実務者はそれがあ
まり実行されていないと認識、政策研究者?国民一般の見方は
さらに厳しい
? EBPの障害は、統計データの解析や学術論文を理解するスキル
の欠如で、エビデンスと無関係に政策決定が行われ、政策現場
にEBPの慣行?組織風土が乏しい
? 高学歴者、特に理系出身者はEBPの必要性への意識が高い
? 定量的に、日本政府の白書における学術研究に基づくエビデン
スの活用度は、国際標準に比べて十分ではない
政府の政策実務者、RIETIの政策研究者、国民一般を対象と
した意識調査を行い、意識の違いについて分析した
12
? OECD
- 2004年 ”Statistics, Knowledge and Policy: Key Indictors to Inform Decision
Making”第1回国際フォーラム(Palermo)
経済?社会?環境政策の質評価指標の設定に基づくパフォーマンスの定量的評価(KPI)
- EBPの定義: 政策形成や政策オプションの選択において、既存の最も良いエ
ビデンスの誠実で明示的な活用[OECD, 2007]
? 2015年第3回IMF統計フォーラム(ドイツ連邦銀行共催)
"Official Statistics to Support Evidence-Based Economic Policymaking"
- the relevance of micro data for evidence-based policymaking;
- big data and micro-data hubs; statistics on a from-whom-to-whom basis;
- macroeconomic impacts of natural resources; and measuring material
conditions
? 世界銀行
開発インパクト評価 Development Impact Evaluation: DIME
国際機関 [山名, 2017]
13
政策形成への統計情報の活用
英国
1997年以降、ブレア政権が本格導入(田中, 2017)
1999年の白書「政府のモダニゼーション」以降
(UK Cabinet Office 1999: 15-16)、政策形成に際
し最良の情報あるいは客観的なエビデンス)を用
いるべきという主張が,OECD 諸国の行政に広
がった。 (原田, 2013 )
現在、官民出資のWhat Works Centre (WWC)とい
う組織が、エビデンスを創出?伝達?適用する機
関として内閣府から認定を受けて活動している。
(田中, 2017 )
14
米国
? EBPMについては1960年代から議論が進んでい
る(田中, 2017)
? Commission on Evidence Based Policy Making
エビデンスに基づく政策立案のための評議会
Evidence-Based Policymaking Commission Act of
2016が2016年3月に成立し設置された。
評議会は、連邦政府に関するデータ、統計プロ
トコル等について包括的な議論を行い、政策立
案のためのエビデンスを生み出すためのデータ
インフラ整備?拡張への提言を行う。
参考資料:
http://www.mext.go.jp/b_menu/shingi/chousa/gijyutu/025/shiryo/__icsFiles/af
ieldfile/2017/03/14/1383033_03.pdf
15
EU
欧州2020(Europe2020 / EU2020)
2010年からの10年間のEUの経済?社会政策。
成長を促進する三つの要因を、smart growth,
sustainable growth及びinclusive growthとし
て、雇用、研究開発?技術革新、気候変動?エ
ネルギー、教育、貧困?社会的疎外という5つの
政策目標を掲げる。
EU2020の各項目には、各国が目標とする統計
指標の数値が設定されている。
16
EU2020 / InGRID
Inclusive Growth Research Infrastructure Diffusion の略で、EU2020
の5つの目標うち最後の「貧困?社会的疎外」のためのプロジェクト。
EU域内の17の研究機関が参加し、2013年2月から2017年1月までに、
主に以下の3つの活動を行った。
? 公開されるデータインフラへの国を超えたアクセスを提供する
? 相互の知識交換活動を組織する
? 比較研究のためのツールや方法論の改善について、共同研究活動
を組織する
このプロジェクトは、これらの活動により、”evidence-based
European policies”の発展に主要な役割を果たすことを目標としてい
る。 2017年2月からは、次期プロジェクトInGRID2に移行。
Inclusive Growthの直訳は「包括的成長」で、経済成長やグローバ
ル化の恩恵を、広く平等に社会全体に行き渡らせることを指す。
NTTS2017
17
EBPM関係の参考文献
家子?小林?松岡?西尾(2016)「エビデンスに基づく政策形成:イギリスにお
ける『エビデンスに基づく政策』の動向、ランダム化比較実験による実証、
及び日本への示唆」, 三菱UFJリサーチ&コンサルティング政策研究レポート.
田中(2017) 「新たなICTを活用したエビデンス?ベースの政策運営~国や地方
公共団体政策部門における官民データ活用~」NTTデータ経営研究所
原田(2013)「エビデンスに基づかない政策形成? : 食品安全行政を素材にし
て」, 立教法学第87号, pp.224-205.
森川(2017)「『エビデンスに基づく政策』に関するエビデンス」RIETI Policy
Discussion Paper Series 17-P-008, (独)経済産業研究所(RIETI).
山名(2017)「『エビデンスに基づく政策形成』とは何か」, シリーズ日本経済
を考える68, 財務総合政策研究所
European Commission (2013), Scientific Evidence for Policy-Making, EUR 25765,
Directorate-General for Research, Socio-economic Sciences and Humanities,
Luxembourg: Publications Office of the European Union.
OECD (2007) Evidence in Education : Linking Research and Policy, OECD, Paris.
18
Ⅲ. 公的統計部門の動向
? 各国の統計作成事情
? EU諸国の事情
? 公的統計部門におけるRの利用事例
NTTS2017とuRos2017を中心に
各国の統計作成事情
? 人員?コストの削減
? 統計調査環境の悪化に伴う欠測の増大
? 調査負担軽減
? 行政データの活用
? ビッグデータ活用
? 推定技術の活用
「デザインベースからモデルベース、モデル
アシステッドへ」
20
EU域内諸国の状況
? European Statistical System (ESS)
ヨーロッパ統計システム
加盟国間の統計の比較性を確保する
統計調査の実施時期、カバレッジ、統計分類、集計
項目や公表時期など、定められた基準に沿う統計デー
タを提出するのは、加盟国の統計部局の仕事
既存統計の時系列的な継続性に問題が起こることも
時系列の断層を埋めるために推定技術を活用
21
NTTS2017
NTTS: New Techniques and Technologies for Statistics
2017.03.13-17にベルギーのブリュッセルでEurostatが開催した、
公的統計のための新技術や手法と、統計の収集?作成と公表シス
テムへの新技術の影響についての国際学会。
uRos2017
uRos: New Challenges for Statistical Software
–The Use of R in Official Statistics-
2017.11.06-07にブカレストでルーマニア統計局が主催した、公的
統計におけるRの利用に関する国際学会。統計局内の研究会的に
スタートし、今年が第5回。Rコンソーシアムが後援、 ICMS2017
がアジア太平洋地域版会合としてマレーシアでパラレル開催。今
後EU加盟国とルーマニアで交互に開催予定。
https://ec.europa.eu/eurostat/cros/NTTS2017_en
https://ec.europa.eu/eurostat/cros/ntts2017programme/day_1.html
http://www.r-project.ro/conference2017/
22
NTTS2017 セッション19A
23
公的統計部門におけるRの利用事例
A) Linked Open Data (LOD)
B) 小地域推定(SAE: Small Area Estimation)
C) 地図情報の活用
D) Shiny
E) データエディティングや補完(imputation)
F) 秘匿
G) 報告書作成
開発ツールの共有は、従来からコスト削減のために広く行われている。Rパッ
ケージ以外にも、NTTS2017では、インフォグラフィックについてもEU内で
共有する取り組みについて紹介された。
24
A) EU-US オープンデータプロジェクト
Eurostat (EU統計局) と BEA (U.S. Bureau of Economic
Analysis: 米国商務省経済分析局) との間のLODについて
の協力プロジェクト
元々両者ともデータ入手のためのAPI機能を個別に
持っているが、このパッケージにより比較可能なデータ
を一度に入手できるようになった
2016年7月 BEAがEurostatに打診
2016年8~9月 比較可能なデータセットの特定
2016年9~10月 Rパッケージ開発
2016年11月 Rパッケージ、アルファ版をGithub公開
NTTS2017
Luca Gramaglia and Denis Grofils (Eurostat)
https://www.bea.gov/developers/r-index.htm
https://www.youtube.com/watch?v=-fGGsYE0wQM
25
B) Rによる小地域推定の
メキシコ収入データへの適用
emdiパッケージの開発者による、 CRANのタスクビュー
"Official Statistics & Survey Methodology" で紹介されている小地
域推定(SAE)のための以下のようなRのパッケージの紹介。
? nlme, lme4: 混合効果モデル
? rase: ロバストな平均値予測
? hbsae: 調査単位?地域レベルのモデル推定(最尤法か階層ベイズ)
? JoSAE: 一般化線形回帰モデル対応
? emdi: ユーザーフレンドリーで特にお勧め
メキシコINEGIが2年に一度実施している家計調査への適用事例
メキシコ統計局が2年に一度実施している家計調査へのemdi
パッケージの適用事例あり。
NTTS2017
Ann-Kristin Kreutzmann (Freie Universit?t Berlin), S?ren Pannier (Freie
Universit?t Berlin), Natalia Rojas-Perilla (Freie Universit?t Berlin), Timo Schmid
(Freie Universit?t Berlin), Matthias Templ (Zürcher Hochschule für Angewandte
Wissenschaften), Nikos Tzavidis (University of Southampton)
26
Official Statistics & Survey Methodology
? Complex Survey Design: General Comments
? Complex Survey Design: Details
? Complex Survey Design: Point and Variance Estimation and Model
Fitting
? Complex Survey Design: Calibration
? Editing and Visual Inspection of Microdata
? Imputation
? Statistical Disclosure Control
? Seasonal Adjustment and Forecasting
? Statistical Matching and Record Linkage
? Small Area Estimation
? Indices and Indicators and Visualisation of Indicators
? Microsimulation
? Additional Packages and Functionalities
CRAN Task View:
Maintainer: Matthias Templ
27
C) オランダ統計局のドットマップ
ドットマップは、人口を人種で色分けしたドットで表示した
インタラクティブな統計地図
http://research.cbs.nl/colordotmap/NL/index.html
※ ドットはランダムに近隣に霍乱させ個人特定を防止
地図のタイルサーバー
? Google Mapなどで使われている共通技術
? 130万の256×256 pngイメージ (3GB)
? Rにより作成(tmap, png, raster 及び doParallel パッケージ)
インタラクティブな地図
? ドラフト版はRの短いコード (tmap 及び leaflet パッケージ)
? 最終版は、HTMLとJavaScript (leafletライブラリ)
NTTS2017
Martijn Tennekes and Edwin de Jonge (Statistics Netherlands)
28
D) Shinyによる sdcMicro のための新たなGUI
オーストリア統計局関係者が開発したsdcMicroパッケージに、
shinyにより非RユーザーのためのGUIインタフェースが組み込まれた。
sdcMicroは、ミクロデータを秘匿化する機能を持つ。過去に同じ
目的でsdcMicroGUI がリリースされたが、技術上の問題が生じた。
その後、世銀とイギリス政府の支援によりshinyベースの新しいGUI
インタフェースを開発。
shiny とは、Rstudio. Incが開発したRのパッケージの一つ。インタラクティブなRのWeb
アプリケーションを簡単に作成することができる。詳細は http://shiny.rstudio.com/ へ。
NTTS2017
Bernhard Meindl (Statistics Austria), Alexander Kowarik (Statistics Austria),
Matthias Templ (Zurich University of Applied Sciences (ZHAW))
sdcMicroの機能
? 世帯の下に数の決まっていない複数の個人が属するような、構造化データ
にも対応
? 数量変数の場合、トップ/ボトムコーディングやミクロアグリゲーション、
ランクスワッピングや、ノイズの付加もできる
29
E) Statistical data cleaning with R
Mark van der Loo (Statistics Netherlands)
[パッケージ]
uRos2017
validate: クリーニングルールの記述?適用?結果の可視化
validatetools: ルール管理
dcmodify: ルールを適用して実際にデータを修正する
errorlocate: データの修正状況を表示し、原因究明を助ける
deductive : deductive imputation* を行う
VIM: 欠測値の可視化と補完
simputation: 様々な補完手法の提供
rspa: 補完済みデータへのルール適用
lumberjack: データの変更ログの管理
* deductive imputation : 同一調査単
位内で調査項目間の論理的な根拠
により行う欠測補完
発表スライドとデモコード
http://github.com/markvanderloo/
uRos2017
30
F) ミクロデータと統計表のための
秘匿ツール
オーストラリア統計局関係者により開発された二つのパッ
ケージの紹介
? sdcMicro: ミクロデータを秘匿
初版から10年。ShinyによるGUIインタフェースにより、非
Rユーザーが利用できるようにするのが目標。μ-Argusの機能
も使えるようにする予定。
? sdcTable: 統計表を秘匿
τ-Argusとのインタフェースを開発中。また、ABS(オースト
ラリア統計局)のcell key法や、アドオンとしてShinyのGUI機能
を持つノルウェー統計局開発のeasySdcTableも準備している。
uRos2017
Bernhard Meindl (Statistics Austria)
EUのSDC(Statistical Data Confidentiality)ツール開発のSGA(Specific Grant
Agreenemts)プロジェクト https://github.com/sdcTools/
sdcMicroはバグ報告歓迎、貢献したい方はプルリクエストをとのこと
31
G) knitr による刊行物作成の自動化
? knitr の可能性について
作業の効率化と費用削減
ソフトコーディングによる誤りの最小化
内容とデザインの一貫性と比較可能性の向上
? 事例紹介: Statistical country profiles
英?独二か国語表示で、多くの異なるデータソースか
ら193か国について、PDFとインタラクティブなHTMLを
作成し、定期的に更新する
uRos2017
Guido Schuultz (Federal Statistical Office of Germany)
32
Ⅳ. 公的統計部門における
Rの普及
? UNIDO
? オーストリア統計局
? オランダ統計局
? ニュージーランド統計局
? ノルウェー統計局
? ルーマニア統計局
Rの利用が進んでいる組織
国の統計部局
カナダ
オーストリア
オランダ
イタリア
アメリカ
イギリスなど
国際機関
世銀
UNIDO
FAO
OECD など
? ほとんどの組織が、Rの
利用は新規業務から
? 従来ソフトの最大勢力は
SAS
学会参加のUNIDO, ノルウェー、ド
イツ、ルーマニアの統計部局関係者
に直接聞いてみたところ、少なくと
もヨーロッパ諸国はほぼSASとのこ
とでした
34
UNIDO(工業開発機関)
2008年、メインフレームからクライアントサー
バへの切替に伴い、Rを導入。それまでの主流はSAS
と.Net。
データ収集?交換から、欠測補完、報告書刊行に
至るまで、幅広くRを使用し、開発?公開パッケー
ジも複数存在、Rに関する刊行物も二冊作成。
NTTS2017
uRos2017
yearbook: 報告書作成
rrcov : 外れ値検出
indstat : Industrial performance indicators算出のための
データセットと事例集
35
Rの導入
非公式利用で、個人インストールの様々なバージョンが散在した、
現在インストールは標準化され、部署によりRの利用が公認
サポートと職場の方針
? Jiraによる職場のサポートと、方法論の担当部局
? サーバー上とデスクトップにRstudio
? Rの各種プロジェクトについてのプレゼンを年二回
現在の状況
? 現在100インストールで、ユーザーは毎週40人前後
? Windowsデスクトップに、R, Rstudio, Latex, SVNとRtoolsを含むパッ
ケージのインストール
? 16コア、128GBメモリのUbuntuサーバー上にRstudio サーバー
今後の予定
? デスクトップのRの廃止
? Linux機上のRstudioサーバープロを全員に
オーストリア統計局
uRos2017
Alexander Kowarik (Statistics Austria) and Mark van der Loo (Statistics Netherlands)
36
オランダ統計局
2010年のFOSS*のインストールが最初のハードル。今
では誰もがコードを書いている。
? アプローチ
熱心なリーダーを据えたプロジェクト
ユーザーの類型別に3種類のインストールを準備
コードとドキュメンテーションを標準化
? 現状
200ユーザー、うちアクティブなのが100ユーザー程度
職場内のユーザーグループ kennR!
uRos2017
*FOSS(Free and Open Source Software)とは、フリーソフトウェアやオープン
ソースソフトウェアなど、利用者に自由が認められているソフトウェアの総称
Alexander Kowarik (Statistics Austria) and Mark van der Loo (Statistics Netherlands)
37
ニュージーランド統計局
RstudioとShinyの内部サーバーを設置し、組織内のRの利用を支援
? 小地域推定
Stanによるモデル選択 (rsStanパッケージ) と、Rmarkdownによる文書
化、Shinyを使い公表
? データ収集のモニタリング
2018年国勢調査のインタラクティブな日々のモニタリングを、Rと
Shinyで行っており、自動化と利用の容易さという利点がある
? 生命表の作成
地域?年齢?人種別の寿命の推定、
Rパッケージを内製し公開 https://github.com/statisticsnz/R
Reproducible Research の重視
透明性確保や省力化、作成した統計への理解促進に役立つ
DSSV2017
Chris Hansen, Tracey Savage and Gareth Minshall (Statistics New Zealand)
38
ノルウェー統計局
? 内部のRプログラミングガイドは、GoogleのRスタイルガイド
が出発点
? OSフリーなコードを推奨
=> data.table や dplyrパッケージの利用は必要最低限
? 外部パッケージや関数などは、内部用にカスタマイズし標準化
ただし標準は絶対的なものではなく、必要に応じて標準外の関数も
作成するが、標準化された関数から呼び出す形にして内部公開する
外部パッケージの関数も、標準化された内製関数から呼び出す。
? 地方からのデータ収集システムであるKOSTRAの近代化プロ
ジェクトで、方法論のRライブラリを組み込む報告
?yvind Langsrud (Statistics Norway)
39
uRos2017
ルーマニア統計局
uRosを毎年主催し今回5回目。各国のRに特化した知見を集め、内部
利用することが目的。国内企業を対象に高度な有料研修も提供している。
統計調査の集計には、従来SASを使用。まだ現場でRユーザーが最大勢
力というわけではないが、組織内にRサーバーを持つ。
? アプローチ
導入は新規業務あるいは大規模変更があるものが対象
無理強いはせず、作業が効率化できることを納得してもらう
職員はRに限らず週4時間を研修にあてるので、継続的なフォローアップを行う
? 現在の取り組み
CPI作成のためのwebスクレイピング(公表は少なくとも2年先)
knitrやsweaveパッケージを用いた審査リストの作成は実用化済み
RとPythonについて
開発はPythonの方が保守性が高いのでは、と質問したところ、我々はITの専門家ではな
くStatisticianなのでRが良いし、コードの可読性など保守面についても特段の問題は生じ
ていないとのこと。ただし、Pythonを全く使っていないわけではない。
40
得られた知見
? インストールは標準化し、進んだところはサーバーを設
置している
? ITセキュリティの観点から内部にCRANミラーを立てて
いるところもある
? 継続的な研修コースが必要で、それによりコードの可読
性も向上する
? ユーザーが増えればサポートが必要
? ユーザーコミュニティが重要
? ユーザーを増やすには、Rを使いこなす学生の採用が最
も早道
41

More Related Content

2017搁ユーザ会用