狠狠撸

狠狠撸Share a Scribd company logo
2017/07/06 1 P
オープンデータ?プラットフォーム
KYOTO OPEN DATA
2017年7月6日
ANNAI 株式会社
2017/07/06 2 P
アジェンダ
?データプラットフォームのトレンドと現状の問題点
?KYOTO OPEN DATAのソリューション
? DKANとは?
? 自治体に向けて
? 開発者に向けて
? 市民に向けて
?今後の課題
2017/07/06 3 P
データポータルとは
? 総務省や経産省の旗振りのもと、自治体が保有する様々なデータを「オープンデータ」として広く公開し、
利用を促進する動きが強まっています
? 「官民データ活用推進基本法」に基づき「官民データ活用推進基本計画」が閣議決定されました。
? オープンデータの公開は、一般ユーザー向けのWebプレビュー機能と、エンジニア向けのAPI提供の両方
を備えたオープンデータポータルサイトとして公開することが求められます
2017/07/06 4 P
? 情報が探しやすいデザインであること
? 情報が探しやすい検索のインターフェースを持つこと
? ファイルの中身も検索できることが大切!
? ファイルに公開/非公開の権限設定ができること
? データのプレビュー機能が充実していること
? データがAPI化されていること。
> APIであれば、最新のデータを入手できる
> 手動ではなく、プログラムにより自動でデータを入手できる
? データの販売機能やソーシャル機能など拡張が自由にできること
データプラットフォームに求められること
2017/07/06 5 P
これらの機能をパッケージした
『データ?ポータル』の
オープンソース?ソリューション が
普及してきています
2017/07/06 6 P
http://ckan.org/ckan
? オープンソースのデータカタログエンジン
? 世界中でデータポータルが普及するきっかけとなった
? すぐに使い出せる簡易性がすばらしい
2017/07/06 7 P
しかし「ckan」には強い制約が。。
? ckanはデザインの自由度が低く、
Extentionを開発しなければデザイン変
更ができません。
? ニュースなどの簡単な情報発信するこ
ともカスタマイズが必要です
? ckanの独自カスタマイズはマイナーな
フレームワークのため技術的難易度が
高く、セキュリティ面の脆弱性リスク
増大につながります
? ckanはCMS機能を持たないため、多く
の既存オープンデータポータルサイト
は、DrupalやWordPress等の外部CMS
をckanと並行稼働していますが、運用
とメンテナンスにコストがかかります ckan
データカタログ
WordPress
Drupal CMS
メンテナンスコストが倍かかる
2017/07/06 8 P
既存ソリューションの限界
? 各自治体が「5つ星」オープンデータ化を目指していますが、すべてのデータには適用できません
? ごく一部の「加工処理しやすい形のデータ」だけでもLOD化できれば先進的という状況
? 「データを共通フォーマットに合わせる」取り組みは、まだまだ緒についたばかり
http://www.nikkeibp.co.jp/atcl/tk/PPP/news/012500154/
2017/07/06 9 P
SPARQL エンドポイントの必要性
? LODデータを公開するには、SPARQL(スパークル)エンドポイントを用意する必要があります
? しかしckanの場合、そのための「データ変換」作業と、別途サーバを立ててのSPARQLエンドポイント構
築が必要で、手間とコストがかかります
? CKAN + Sparqlのパターンでは、データカタログとSparql Endpointにはデータの関連性がありません。
? 別のシステムに別のデータが搭載されています。
データ変換が
必要
SPARQL エンドポイント
2017/07/06 10 P
DKAN データプラットフォーム?ソリューション
? Drupalのディストリビューションで、CKANとの機能互換性をもっている。
? CKANの課題を解決し、データポータルとして使いやすい機能を備える。
2017/07/06 11 P
DKAN の事例
2017/07/06 12 P
国連データポータル
http://www3.unog.ch/web/hlcm/inventory/
http://www3.unog.ch/web/hlcm/inventory/
2017/07/06 13 P
https://www.climatesmartplanning.org/
世界銀行?気象情報データポータル
2017/07/06 14 P
http://www.healthdata.gov/
アメリカ保険福祉省
2017/07/06 15 P
http://www3.unog.ch/web/hlcm/inventory/
http://data.gov.ru/
ロシア政府データポータル
2017/07/06 16 P
http://www.dati.gov.it/
イタリア政府データポータル
2017/07/06 17 P
http://www.data.gov.ua/
ウクライナ政府データポータル
2017/07/06 18 P
http://www3.unog.ch/web/hlcm/inventory/
http://data.g0v.tw/
台湾政府データポータル
2017/07/06 19 P
http://data.gov.sa/
サウジアラビア政府データポータル
2017/07/06 20 P
http://opendata.by/
ベラルーシ政府データポータル
2017/07/06 21 P
http://abrepr.org/en
プエルトリコ政府データポータル
2017/07/06 22 P
http://www.datoselsalvador.org/
エルサルバドル共和国政府データポータル
2017/07/06 23 P
http://opendata.cambridgeshireinsight.org.uk/
イギリス?ケンブリッジシャー州データポータル
2017/07/06 24 P
http://www.offenedaten-koeln.de/
ドイツ?ケルン市データポータル
2017/07/06 25 P
http://www.data.mosreg.ru/
ロシア?モスクワデータポータル
2017/07/06 26 P
http://data.mfcr.cz/
チェコ共和国財務省
2017/07/06 27 P
https://it.pami.org.ar/
アルゼンチン統合医療プログラム
2017/07/06 28 P
http://www.eboladata.org/
エボラデータポータル(Ebora Open data jam)
2017/07/06 29 P
http://opcm.uclab.jp/
名古屋大学COI
2017/07/06 30 P
http://www3.unog.ch/web/hlcm/inventory/
http://data.code4ikoma.org/
CODE for IKOMA
2017/07/06 31 P
http://udct-data.aigid.jp/
アーバンデータチャレンジ
2017/07/06 32 P
http://www3.unog.ch/web/hlcm/inventory/
https://data.city.kyoto.lg.jp/
KYOTO OPEN DATA
2017/07/06 33 P
KYOTO OPEN DATA
DKANをもとに拡張したシステム
2017/07/06 34 P
データプラットフォーム 3 つのユーザー
? 行政職員
? アプリケーション開発者
? 市民
2017/07/06 35 P
行政職員向け
2017/07/06 36 P
KYOTO OPEN DATAの特長
① CMS機能を備えており、ポータルサイトとしての使いやすさを大幅に高められる
② PDF/Excelのファイルを、加工の手間をかけずにそのまま「LOD=五つ星のオープンデータ」として公開
できる
dkanは、世界中で高いシェアを持つオープンソースCMS
“Drupal 8” をベースに、オープンデータ関連業務に便利な機
能を組み込んだパッケージ=ディストリビューションです。
2017/07/06 37 P
CMS機能
? 基盤となるDrupalは、日本政府CIOポータル、ホワイトハウスやNASAでも利用されている、世界的にポ
ピュラーなCMSです
? PHPベースで、柔軟なデザインカスタマイズが可能なので、オリジナリティのあるサイトデザインを用意
し、一般ユーザーへのユーザビリティを高められます。
https://appel.nasa.gov/https://www.whitehouse.gov/
2017/07/06 38 P
オープンデータの品質は「5段階評価」
? オープンデータ化にあたり、データの利用しやすさ等による5段階の評価があります
? 各自治体では、最高ランク「5つ星」の形式《 LOD (Linked Open Data) 》での公開が望ましいとされて
います(★の数が多いほど、低コストで多くのアプリ=活用事例が作れる)
? Excel→CSV→RDF→LODとステップアップするには
所定のフォーマットへの変換等
準備が必要です
http://5stardata.info/en/
「1つ星」
PDF
「2つ星」
Excel
「3つ星」
CSV
「4つ星」
RDF / JSON
「5つ星」
LOD
2017/07/06 39 P
《問題》いわゆる「ネ申Excel」問題
? しかし、自治体の各部局が保有するデータの形式は、《紙データをスキャンしたPDF》や《見栄え優先で
CSV化しにくいExcel》がほとんどで、CSV/RDFへの変換は困難です
? 各部局にデータの修正やフォーマット統一を依頼することは、大変な負荷となります
http://5stardata.info/en/
高い壁
https://twitter.com/h_okumura/status/793305155932295168
×
×
×
2017/07/06 40 P
KYOTO OPEN DATAによるLOD化の考え方
? KYOTO OPEN DATAでは、従来の「1行1レコードとして利用できないとオープンデータとして使えな
い」という前提を覆し、「ファイル単位で情報を発見できること」をオープンデータ化のゴールとして再
設定しました
? これにより、Excel->CSV->RDFに変換するプロセスを省略し、既存ファイルをそのままLOD形式で公開
できます
登録
公開
https://data.city.kyoto.lg.jp/
2017/07/06 41 P
1ページ=1つのLODデータ
? 考え方のベースは「1ページ=1つのLODデータ」というとらえ方です(LOD 4つ星の条件 参照解決(コ
ンテンツネゴシエーション)を実現しています)
? 例えばKYOTO OPEN DATAサイトをブラウザで開くとRDFaとしてのWebページ(HTML)が閲覧できます
が、同じURLでRDF/JSONなどの形式でもデータを出力?提供しています
https://data.city.kyoto.lg.jp/node/14558
https://data.city.kyoto.lg.jp/node/14558.rdf
https://data.city.kyoto.lg.jp/node/14558.json
2017/07/06 42 P
SPARQLエンドポイント
? KYOTO OPEN DATAページに紐づけたファイルへのリンクは、そのまま(別途加工の手間をかけずに)
SPARQLエンドポイントに自動で送り込むことが可能です。規定されたフォーマットでオープンデータを
提供することが容易にできるのです
RDFはデータとデータを繋ぐための形式 RDF形式のデータ
2017/07/06 43 P
ckan互換API
? もちろん、API利用にも対応。DKANのAPIはckan互換なので、既存のソリューションを再利用すること
も問題ありません。
2017/07/06 44 P
日本の自治体に即した複数カテゴリの切り口
2017/07/06 45 P
メタデータだけでなく、ファイル内検索も可能
? DKANは、ApacheSolrと連携させることで、全文検索が可能
? メタデータの検索に加え、ファイルの中身もすべて検索することができる
PDFやエクセルなどのファイル内コンテンツの中身も検索できる
? Drupalのモジュールと連携させることで、管理画面からSolrの設定ができる
? ユーザーの検索を補助する、オートコンプリート機能も搭載
2017/07/06 46 P
データの一括登録補助機能
データポータルのデータセット及びリソースの一括登録を行う機能です。
リソース一括登録用のExcelテンプレートに、DKAN及びリソースに関する情報(メタデータ等も含む)を入
力し、CSVで出力します。
一括登録するリソースファイルを
まとめてフォルダに入れておく
①ローカル環境でExcel
テンプレートで登録用
データを準備
一括登録対象
リソースファイル
リソース一括登録用CSV(Excelテンプレートで作成してCSV出力)
②DKANで
CSVファイル
を読み込み
③ファイル登録
リソース作成
組織 データセット リソース 実ファイル …
情報統計担当 人口統計 人口統計2015 toukei2015.csv …
情報統計担当 人口統計 人口統計2014 toukei2014.csv …
ローカル
サーバー
2017/07/06 47 P
API化のためにIPA共通語彙基盤による変換機能搭載
共通語彙基盤に合致させたAPIを作れるようにするため、表形式データのヘッダ部分をローマ字
に自動変換するためのテーブルを、ポータルサイト上に準備しています。ローマ字の変換を担
当課に任せるのは難しい範囲になると想定されるため、変換表をメンテナンスの担当課で整備
し、自動で変換を行えるようにします。
住所 緯度 経度 address lat lon ??
?
日本語 語彙
住所 address
緯度 lat
??? ???
登録時、変換表を元にヘッダを日本語から自動変換します
共通語彙基盤対応表(Web上)
データ(リソース) データ(リソース)
2017/07/06 48 P
Excel to CSV – データ変換支援機能
? セル結合やマクロ処理等がなく、CSV加工がしやすい形状のExcelファイルについては、CSV化作業を効率化する
ツールを備えています
? タイトル行の日本語を、経産省?IPAが規定する「共通語彙基盤」の英数字表記に自動置換する機能を使えば、
APIなどでのデータ利用が可能になります。
住所 緯度 経度 … address lat lng …
日本語 語彙
住所 address
緯度 lat
経度 lng
自動変換
データ(リソース) データ(リソース)
CSV
共通語彙基盤対応表(Web上)
2017/07/06 49 P
CSV/Excel to RDF 変換サービス
? 統計データなどデータそのものをRDF化しやすいものに関しては別途変換を掛けて登録しています
? SPARQLエンドポイントで取り出しやすいデータに加工が可能です
2017/07/06 50 P
自治体Webサイトとのファイルアップロード同期 【オプション】
? 既存の自治体公式Webサイトにファイルをアップロードしている場合、公式Webサイト側のCMSをカスタ
マイズして、KYOTO OPEN DATAと公開データを同期することが可能です
? KYOTO OPEN DATAが持つAPIに対してメタデータとファイルを送信すれば、普段通り自治体Webサイト
を運用するだけで、自動的にオープンデータカタログが構築できます。
公式Webサイト
CMS
API経由
ファイル同期
組織 データセット リソース 実ファイル …
情報統計担当 人口統計 人口統計2015 toukei2015.csv …
情報統計担当 人口統計 人口統計2014 toukei2014.csv …
ファイルアップロード?登録
2017/07/06 51 P
コミュニティ機能 【オプション】
? 「五つ星」のオープンデータ提供を実現したら、次はそれを「活用」してもらう段階です
? Drupalのフォーラム機能を使って市民、自治体、開発者の意見交換
? ホワイトハウス請願サイト的な仕組みで市民からNeedsを吸い上げることも https://petitions.whitehouse.gov/
2017/07/06 52 P
ckan -> KYOTO OPEN DATA マイグレーション【オプション】
? 既存のckanからKYOTO OPEN DATA
への載せ替えも可能
? 200の組織、6000データリソースを移
行してdkan化を実施しました
? 【実績】アーバンデータチャレンジ
http://udct-data.aigid.jp/
※現在は、国からG空間情報センターを運営を委託されてい
るAIGIDがサポートしています。こちらもフロントのDrupal
はANNAIが担当しています。
2017/07/06 53 P
KYOTO OPEN DATA vs ckan 機能比較表
技術項目
KYOTO OPEN
DATA
ckan
ユーザーの権限情報を自由に追加 ?
メタデータ項目の新規登録?追加?編集?削除 ?
データセットの公開期間設定 ?
リソースの多彩なプレビュー ◎ ?
リソースを共通語彙基盤に基づく語彙に自動変換 ?
共通語彙基盤の語彙の変更時にリソースを一括更新 ?
大量データの一括登録?編集?削除に対応 ?
1つのリソースを複数のデータセットに紐づけることができる ?
編集者による掲載申請と、管理者による承認 ?
管理者による掲載申請の一括承認 ?
データリソースファイルのファイル内検索 ?
英語メニュー対応 ? ?
ダウンロード数?利用者数などの統計情報 ? △
機能拡張性(ECなどの他機能) ?
トップページなどのデザインを自由に変更 ?
レスポンシブ?デザイン ?
CKAN API互換 ? ?
RDFファイルをSPARQLエンドポイントから提供 △ △
上記の機能が入ったサイトを1つのサイトで管理?運用 ?
2017/07/06 54 P
アプリケーション開発者に向けて
充実したプレビュー機能①
●テーブル表示
? ファイルをアップロードすれば、あとは最適にプレビュー化される
充実したプレビュー機能②
●MAP表示
? ファイル内に緯度/経度のデータが含まれていれば、このようにMAP化される
●ExcelやOpenXMLの他、SHP, Arcgis, KML、GeoJSONなど
様々なプレビュー機能を搭載
充実したプレビュー機能③
2017/07/06 58 P
ファイル内検索
? Webサイトからのデータの検索は、DKANに組み込まれたファイル内検索機能を利用し、
PDFやExcelのファイル内検索にも対応しています
DKANの機能
2017/07/06 59 P
? データをダウンロードすると、ある時点でのデータしか取得できないが、APIで取得する
ことで常に最新のデータを取得することができる
? 手動ではなく、プログラムを通じて自動でデータを取得することができる
イラスト出典:http://www.mashery.com/api-management/evolution
API 化するメリット
2017/07/06 60 P
API機能①
? DKANは、標準でCKAN互換のAPIを持っています
? APIの追加やカスタマイズも非常に簡単。必要フィールドのみのデータ取得も可能。
2017/07/06 61 P
? APIのクエリ例が表示されるためわかりやすい
API機能②
2017/07/06 62 P
市民?ユーザー向け機能
2017/07/06 63 P
市民?ユーザー向け 機能
アプリ紹介ページ お問い合わせフォーム
DKANのCMS機能を利用した市民向けページ
2017/07/06 64 P
今後の課題
2017/07/06 65 P
行政職員向け
?いかに部局にデータを出してもらいやすくす
るか
?仕組みと意識
?メリット訴求
?クローズドなデータ共有環境として
?API利用を前提としたCSVのデータストア化
?自治体間共通フォーマットの協議
2017/07/06 66 P
開発者向け
?欲しいデータを行政へフィードバックするコミュニ
ティ
?フォーラム機能
?Code for Xのようなリアルコミュニティ
?ビジネスに使ってもらいやすいデータ提供
?DBPediaなどSPARQL Endpoint間のデータ連携と数
珠つなぎ検索はまだまだこれからの機能
2017/07/06 67 P
市民向け
?市民が感じている課題を集約する
?開発者が燃えるポイントはそこ
?いかに課題を見つけるか
?情報開示請求を必要とせず、データが自分で探して
ダウンロードできることを周知
?欲しいデータのフィードバック
2017/07/06 68 P
ありがとうございました!
既存データを加工する手間を最小限に抑えながら、広く市民に利用されるオープンデータ提供を実現。
KYOTO OPEN DATAを利用したオープンデータ化業務の推進、KYOTO OPEN DATAの導入支援?構築に
ついては以下の連絡先まで、お気軽にご相談くださいませ。
ANNAI株式会社(アンナイ)
E-MAIL support@annai.co.jp
URL http://annai.co.jp
TEL 050-3754-7111
KYOTO:京都市下京区中堂寺南町134 KRP内 ASTEM8F
OSAKA:大阪市北区鶴野町4-A-202
TOKYO:東京都台東区台東1-9-4 松浦ビル5F
2017/07/06 69 P
ASP提供
? これらの特徴を備えたKYOTO OPEN DATAを、ANNAIはクラウドサービス(ASP)としても提供しています
? 国内でホストされるMicrosoft Azure、Amazon Web Service (AWS) 、GCP (Google)上にシステムを構築。
月額の利用料という形で費用をご負担いただくため、初期費用を抑えることができ、サーバメンテナンス
などの負荷からも解放されます

More Related Content

オープンデータ?プラットフォーム KYOTO OPEN DATA

Editor's Notes

  • #7: 世界中で使われていて、日本でも、政府?省庁?地方自治体など事例も多い。Python 、PostgreSQL, Python 言語で書かれた オープンソース の webアプリケーションフレームワークである Pylonsフレームワークを使って構築されています。
  • #11: 顿碍础狈は、颁碍础狈との机能互换性を保ちながら、颁碍础狈にはない机能を加えつつ、开発されているデータポータルソリューションです。単なるデータカタログエンジンではなく、顿谤耻辫补濒のディストリビューションとして作られていますので、颁惭厂机能をもち、さらに顿谤耻辫补濒の数あるモジュールを使って自由に拡张することができます。
  • #46: データを活用してもらうには、まずどのようなデータがあるのか探しやすいサイトであることが大切です。颁碍础狈などのデータカタログ机能では、メタデータの検索は出来ますが、データ自体の検索はできません。顿碍础狈では笔顿贵やエクセルなどのファイルの中身までを含めた、全文検索が可能です。また、検索バーでキーワードを入力すると、文字入力を补完してくれるオートコンプリート机能も搭载しています。
  • #47: データを活用してもらうには、まずどのようなデータがあるのか探しやすいサイトであることが大切です。颁碍础狈などのデータカタログ机能では、メタデータの検索は出来ますが、データ自体の検索はできません。顿碍础狈では笔顿贵やエクセルなどのファイルの中身までを含めた、全文検索が可能です。また、検索バーでキーワードを入力すると、文字入力を补完してくれるオートコンプリート机能も搭载しています。
  • #48: データを活用してもらうには、まずどのようなデータがあるのか探しやすいサイトであることが大切です。颁碍础狈などのデータカタログ机能では、メタデータの検索は出来ますが、データ自体の検索はできません。顿碍础狈では笔顿贵やエクセルなどのファイルの中身までを含めた、全文検索が可能です。また、検索バーでキーワードを入力すると、文字入力を补完してくれるオートコンプリート机能も搭载しています。
  • #60: データのダウンロードすると、もしデータが更新されても开発者は知ることができます。しかし、础笔滨で取得することで、开発者は何も考えずに、常に最新のデータを取得できます。手动でデータを取得しなくても、プログラムを通じて自动でデータを取得することもできます。
  • #61: 顿碍础狈の採用事例が増えている理由のひとつに、颁碍础狈互换の础笔滨を持っていることが挙げられます。データが活用されるというのは、开発者にいかに使ってもらえるか、ということになります。础笔滨でデータを取得したり、连携できることはとても大切な机能です。
  • #62: 顿碍础狈なら、础笔滨のクエリ例が表示されるためわかりやすい。贬补谤惫别蝉迟颈苍驳机能によって、础笔滨互换のある颁碍础狈とも连携できる。