狠狠撸

狠狠撸Share a Scribd company logo
Linked Open Data入門
その意義と考え方
大向 一輝
国立情報学研究所
NPOリンクト?オープン?データ?イニシアティブ
@i2k
自己紹介
?? 国立情報学研究所(NII)
?? セマンティックウェブ?オープンデータ
?? ソーシャルメディア
?? 学術情報サービスCiNiiの中の人
?? リンクト?オープン?データ?イニシアティブ(LODI)
?? Linked Open Dataの普及?啓発活動
?? 経済産業省Open DATA METIの構築支援
?? 政府データカタログサイトdata.go.jpの構築支援
?? オープンデータに関する活動
?? 内閣官房電子行政オープンデータ実務者会議公開支援WG
?? 経済産業省IT融合フォーラム公共データWG
?? VLED利活用?普及委員会
?? データエクスチェンジ?コンソーシアム
オープンデータの開放性
?? 制度面の開放性
?? 技術面の開放性
?? Open De?nition 2.0より
?? オープンライセンス
?? アクセス
?? オープンフォーマット
?? 機械可読
?? 利用に際する制約がない
?? 公開された仕様に基づく
?? 1つ以上のフリー?リブレ?オープンソースソフトウェ
アで処理可能
OL:オープンライセンス
RE:再利用可
OF:オープンフォーマット
URI:識別子
LD:
Linked Data
http://5stardata.info
つながるデータ
?? ウェブ上の複数のデータを比較?統合?連携したい!
?? 例:人口を比較する
?? 大阪市 推計人口(毎月1日現在)?人口異動
?? http://www.city.osaka.lg.jp/toshikeikaku/page/
0000014987.html
?? 大阪府 大阪府の住民基本台帳人口
?? http://www.pref.osaka.lg.jp/kikaku_keikaku/
opendata/index.html
?? 横浜市 男女別人口及び世帯数?行政区
?? http://www.city.yokohama.lg.jp/ex/stat/opendata/
suikei01.html
大阪市
大阪府
横浜市
つながらないデータ
?? 項目の有無 ?面積?人口密度?外国人…
?? 項目の順番 ?総数/男/女?男/女/合計
?? 項目名 ?区名?市町村名?市区名
?? 行の順番 ?北区/都島区?都島区/福島区
?? 値の表記 ?2,686,990?1245748
?? 値の単位 ?人?千人
?? 同名異義 ?旭区(!)
?? 暗黙的な階層関係?横浜市→鶴見区?神奈川区…
?? 画一的な処理は不可能
?? データ形式の標準化を待つ?
?? つながるための努力をする?
行をつなぐ
?? IDを与える
?? データの主題を明確にする
?? 同名異義を避ける
?? データ同士の階層関係を明確にする
?? 標準地域コード(総務省統計局)
?? 旭区(大阪市): 27117
?? 旭区(横浜市): 14112
?? 大阪市: 27100
?? 大阪府: 27000
列をつなぐ?値を える
?? 語彙を選ぶ
?? 項目の意味を統一する
?? 項目間の関係を明確にする
?? 共通語彙基盤(経済産業省?IPA)
?? 区名?市町村名?市区名→名称
?? 総数?計?人口総数→人数
?? 値の表記ルールを統一する
?? 数値のカンマ区切り
?? 日時表記(ISO 8601/W3CDTF)
?? ???
つながるデータ
グラフ構造への変換
27117
旭区
43390
名称
人数
27127
北区
121083
名称
人数
2710027000
大阪市大阪府
名称名称
部分
部分
グラフ構造への変換
27117
旭区
43390
名称
人数
27127
北区名称
人数
2710027000
大阪市大阪府
名称名称
部分
部分
1410014000
横浜市神奈川県
名称名称
部分
14112
旭区
247907
名称
人数
1000120
部分
121083
日本
名称
部分
Linked Data=ウェブ+RDF
?? RDF:Resource Description Framework
?? 主語?述語?目的語の3つ組(トリプル)を組み合わせた
グラフ構造を用いて情報を記述する
?? ウェブ:世界規模の分散型情報管理
?? URI(+DNS)によるグローバルな識別
?? HTTP?ハイパーリンクによる透過的なアクセス
?? Linked Dataの条件(ティム?バーナーズ=リー)
?? すべてのものごとにHTTP URIを与える
?? URIにアクセスすると情報が得られる
?? 他のURIへのリンクを含む
Linked Data=ウェブ+RDF
?? 文字列からURIへ:曖昧性の排除
?? 27117→さまざまな解釈の余地あり
?? http://statdb.nstac.go.jp/lod/sac/C27117
?? 「統計センターが管理する標準地域コードの27117」
?? 主語?目的語だけでなく、述語にもURIを与える
?? http://imi.ipa.go.jp/ns/core/rdf#人数
?? 「共通語彙基盤で定義された人数という概念」
?? さまざまな語彙
?? Dublin Core:書籍の基本項目
?? FOAF:プロフィール?ソーシャルメディアの知人関係
?? Schema.org:ウェブページの定型的詳細情報
Linked Data
旭区
43390
rdfs:label
ic:人数
大阪市
http://statdb.nstac.go.jp/lod/sac/C27100
dcterms:
hasPart
rdfs:label
http://statdb.nstac.go.jp/lod/sac/C27117
rdfs: ?http://www.w3.org/2000/01/rdf-schema#
owl: ?http://www.w3.org/2002/07/owl#
dcterms: http://purl.org/dc/terms/
ic: ?http://imi.ipa.go.jp/ns/core/rdf#
http://ja.dbpedia.org/resource/旭区_(大阪市)
owl:sameAs
DBpedia Japanese
<foaf:name xml:lang="ja">長野県</foaf:name>
<foaf:homepage rdf:resource="http://www.pref.nagano.lg.jp/" />
<prop-ja:iso xml:lang="ja">JP-20</prop-ja:iso>
<prop-ja:コード>20000</prop-ja:コード>
<prop-ja:木 rdf:resource="http://ja.dbpedia.org/resource/シラカバ" />
<prop-ja:郵便番号>380</prop-ja:郵便番号>
<prop-ja:code>20000</prop-ja:code>
<prop-ja:画像の説明 rdf:resource="http://ja.dbpedia.org/resource/小蓮華山" />
<prop-ja:画像の説明 rdf:resource="http://ja.dbpedia.org/resource/白馬岳" />
<prop-ja:鳥 rdf:resource="http://ja.dbpedia.org/resource/ライチョウ" />
<prop-ja:知事 xml:lang="ja">阿部守一</prop-ja:知事>
<prop-ja:before>松代県?須坂県?飯山県筑摩県の一部(信濃国)</prop-ja:before>
<prop-ja:before xml:lang="ja">
伊那県の一部(信濃国北部)龍岡藩の一部(信濃国)岩村田県?小諸県?上田県
</prop-ja:before>
http://ja.dbpedia.org
LOD Cloud
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jenvtzsch. http://lod-cloud.net/ CC BY-SA
RDFクエリ言語SPARQL
?? SPARQL
?? NoSQLの一種?スキーマレス
?? W3Cによる標準化
?? 本質的には部分グラフのパターンマッチング
?? RDFストア(トリプルストア)
?? SPARQLインターフェイスを持つRDFデータベース
?? ウェブでの公開:SPARQLエンドポイント
?? オープンソース実装多数
?? RDFを入れたら動く!
?? データをつくるとAPIができる
RDFクエリ言語SPARQL
?? 定数(URI)と変数で目的のトリプルを指定する
?? すべてのトリプル
?s ?p ?o.
?? 大阪市に関するトリプル
<http://statdb.nstac.go.jp/lod/sac/C27100> ?p ?o.
?? 「旭区」という名前の自治体の人口
?s rdfs:label 旭区 @ja.
?s ic:人数 ?o.
SPARQLによる問い合わせ
http://statdb.nstac.go.jp/lod/sparql/
データカタログのフォーマット
data.gov data.gov.uk data.go.jp
まとめ
?? 公開、開放、そして相互運用へ
?? グローバルなデータのネットワークに参加する
?? データとアプリのデカップリング
?? データの作成は専門家?コミュニティに
?? アプリの構築は開発者に
?? 「税金はどこへ行った?」「5374.jp」モデルの汎用化
?? RDFとSPARQLによる標準的なデータアクセス
?? コード体系?辞書の整備
?? できるところからはじめましょう!!!

More Related Content

Linked Open Data入門@関西オープンデータEXPO(2015.2.11)