狠狠撸

狠狠撸Share a Scribd company logo
1
情報の構造化
大向 一輝
i2k@nii.ac.jp @i2k
リンクト?オープン?データ?イニシアティブ
国立情報学研究所
2
講義の構成
(1)オープンデータ
からLinked Open
Dataへ
(2)情報の構造化
(3)RDF入門
(4)スキーマとURI
(5)LODの作り方?使
い方
(6)LODシステム実
践紹介
LODの枠組み全体を紹介
技術的な基礎知識
LODに関わる個々
の技術の紹介
実例の紹介
3
オープンデータへの5つのステップ
どんなフォーマットでもよいからオープンライセンスで
データ公開 例:PDF, jpg
コンピュータが処理可能なフォーマットで公開
例:xls, doc
オープンに利用できるフォーマットで公開
例:csv
RDF(とSPARQL)でデータ公開
例:RDFa, RDFストア
他へのリンクを入
れたデータを公開
4
あらまし
? 情報の構造化とは
? データモデル
? シンタックス
? セマンティクス
? メタデータ
5
情報の構造化
吾輩は猫である。名前はまだ無い。どこで
生れたかとんと見当がつかぬ。何でも薄
暗いじめじめした所でニャーニャー泣いて
いた事だけは記憶している。吾輩はここで
始めて人間というものを見た。しかもあと
で聞くとそれは書生という人間中で一番獰
悪な種族であったそうだ。この書生という
のは時々我々を捕えて煮て食うという話で
ある。…
6
情報の構造化
? 我輩=猫
–名前=なし
–出身地=薄暗いじめじめした所
? 吾輩→見る→人間
? 人間=書生
–特徴=人間中で一番獰悪な種族
–特徴=猫を捕えて煮て食う
7
情報の構造化
? 人間は知的能力と知識?常識を使って文
章から構造を導き出している
? コンピュータに同じことができるか?
–形態素解析?係り受け解析???
? あらかじめ構造化したデータを受け渡す
–解釈のためのコストを下げる
8
構造化の利点
? 型にはめる
–管理しやすい
–探しやすい
? コンピュータ?ネットワークの活用
–大量の情報を扱える
–組織を超えた共有
–新たな使い方
出典:ndl.go.jp
9
構造化の観点
? 情報の「かたち」
–データモデル
–シンタックス
? 情報の「なかみ」
–セマンティクス
? 情報そのものの説明
–メタデータ
10
情報の「かたち」
? テキスト
吾輩は猫である。名前は
まだ無い。どこで生れた
かとんと見当がつかぬ。
何でも薄暗いじめじめし
た所でニャーニャー泣い
ていた事だけは記憶して
いる。…
? 箇条書き(ツリー)
? ローマ誕生
– 落人伝説
– 建国の王ロムルス
? 共和政ローマ
– ローマ、共和国に
? ケルト族来襲
? 立ちあがるローマ
? ひとまずの結び
11
情報の「かたち」
? 表形式(テーブル) ? ネットワーク(グラフ)
12
データモデル
? 情報の捉え方
–1次元的:テキスト
–2次元的:表形式
–多次元的:ツリー?グラフ
? 表現力?柔軟性
–表現力が高い=解釈コストが低い
–テキスト<表形式<ツリー<グラフ
13
データモデルと表現力
ID タイトル 著者 掲載誌 発行年
1 オープンデータとLOD 大向一輝 情報処理 2013
2 LODによる地域情報を活
用した学術会議支援シス
テム
松村冬子, 加藤文彦,
大向一輝, 武田英明
人工知能学
会全国大会
2013
ID タイトル 著者1 著者2 著者3…
1 オープンデータとLOD 大向一輝 なし なし
2 LODによる地域情報を活
用した学術会議支援シス
テム
松村冬子 加藤文彦 大向一輝
どう解釈する?
14
人工知能学
会
全国大会
武田英明大向一輝
データモデルと表現力
オープンデータと
LOD
大向一輝 情報処理 2013
LODによる地域情報
を活用した…
加藤文彦松村冬子
著者
掲載誌
発行年
著者 著者 著者 著者 掲載誌
15
データモデルの選択
? もとの情報はどんなかたちをしているか
–単純な情報をあえて高度に表現する必要
はないが…
? トレードオフ
–表現力の高いデータモデルの作成は「難し
い」
–次元を下げると解釈に必要な情報は失わ
れていく
? コミュニケーションで补う必要あり
16
表からグラフへ
17
シンタックス
? 特定のデータモデルを(コンピュータ向けに)表現する
ためのルール
– 順序?区切り記号?前書き?後書きなど
? CSV
– 表形式のデータモデルをカンマ区切りテキストで
? XML
– ツリー形式のデータモデルをタグの入れ子で
? JSON
– ツリー形式のデータモデルをJavaScript形式で
? RDF/XML
– グラフ形式のデータモデルをタグの入れ子で
18
情報の「なかみ」
? 同音異義語と同義語
–Appleは果物?コンピュータ会社?レ
コード会社?
–価格と値段とPriceは同じ意味?
? 概念と個物
–吾輩は猫である→吾輩 is a 猫
–吾輩は個物(インスタンス)
–猫は概念(クラス)
19
情報の「なかみ」
? 階層関係
–真核生物脊索動物門哺乳綱霊長目ヒト科
ヒト族ヒト属ヒト
? 部分?全体
–日本→北海道?東北?関東?北陸甲信越?東
海?関西?中国四国?九州沖縄
? 関係
–書生→捕えて煮て食う→猫
20
セマンティクス
? 意味を共有するためのルール
–シンタックスが共有されていても解釈
が同じになるとは限らない
–できれば統一的なかたちで
–できればグローバルに一意な方法で
–できれば誰でもいつでもどこでも
? 語彙の共有?標準化
21
語彙の共有?標準化
? グローバルなIDを持つ概念の体系
? DBpedia
– Wikipediaのエントリーを自動変換
? Wordnet
– プリンストン大学のプロジェクト
? 各種オントロジー
– コミュニティによる整備
22
構造化のよしあし
? 途中でルールを変えない!
–ルールの変更を検知するのが大変
–複数のルールに逐一対応するのが大変
? 「ネ申(かみ)Excel」問題
–人間のための構造化とコンピュータのため
の構造化の方向性が異なる
? A4一枚に収めるための努力が裏目に出
る例
23
24
コンピュータと「ネ申Excel」
? 異なるデータが混ざっている
– 年度ごと?事業所規模ごと
→別のデータに分ける
? 表記の省略
– 平成18年度?19?20?21…
→ちゃんと書く
? 単位
– 千人?人
→統一する?開く
? 平均は必要?
25
情報そのものの説明
? まとめて管理したい?検索したい
– 総合目録?データカタログサイト
? メタデータ
– データに関するデータ
– タイトル?作者?年月日…
– 最大公約数的な属性群とその値
26
メタデータのための語彙
? (文書の)タイトル?著者名?発行年月日
– Dublin Core:主に図書館コミュニティ
? 美術品の所蔵館?展示館
– CIDOC CRM:博物館?美術館
? プロフィール?知人関係
– FOAF:ソーシャルネットワーク
? その他もろもろ
– Schema.org:検索エンジン事業者
– 共通語彙基盤
27
28
<rdf:Description
rdf:about="http://ci.nii.ac.jp/ncid/BB02488158#entity">
<foaf:isPrimaryTopicOf
rdf:resource="http://ci.nii.ac.jp/ncid/
BB02488158.rdf"/>
<dc:title>セマンティックWebプログラミング</dc:title>
<dc:title xml:lang="ja-hrkt">セマンティック Web プログラミ
ング
</dc:title>
<dcterms:alternative>Programming the semantic web
</dcterms:alternative>
<dc:creator>トビー?セガラン著 ; 玉川竜司訳</dc:creator>
<dc:publisher>オライリー?ジャパン</dc:publisher>
<dc:language>jpn</dc:language>
<dc:date>2010</dc:date>
29
<foaf:topic rdf:resource="http://ci.nii.ac.jp/books/search?q=
セマンティックウェブ" dc:title="セマンティックウェブ"/>
<cinii:ncid>BB02488158</cinii:ncid>
<dcterms:hasPart rdf:resource="urn:isbn:9784873114521"/>
</rdf:Description>
<rdf:Description
rdf:about="http://ci.nii.ac.jp/ncid/BB02488158#entity">
<foaf:maker>
<foaf:Person
rdf:about="http://ci.nii.ac.jp/author/DA15839119">
<foaf:name>大向, 一輝</foaf:name>
<foaf:name xml:lang="ja-hrkt">オオムカイ, イッキ
</foaf:name>
</foaf:Person>
</foaf:maker>
</rdf:Description>
30
31
32
<rdf:RDF>
<dcat:Dataset
rdf:about="http://www.data.go.jp/data/dataset/cas_08_ds_1403
27_00000001">
<owl:sameAs rdf:resource="urn:uuid:577bd189-cb27-4652-
80cb-50822cb57c5c"></owl:sameAs>
<dct:description></dct:description>
<dcat:keyword>データカタログ</dcat:keyword>
<dcat:keyword>メタデータ</dcat:keyword>
<foaf:homepage
rdf:resource="http://www.data.go.jp/data/dataset/cas_08_ds_14
0327_00000001"></foaf:homepage>
<rdfs:label>cas_08_ds_140327_00000001</rdfs:label>
<dct:identifier>cas_08_ds_140327_00000001</dct:identifier>
<dct:title>メタデータ一覧2014年3月分</dct:title>
<dcat:distribution>
<dcat:Distribution>
<dcat:accessURL
33
まとめ
? データの共有と再利用を促すためのルール
– データモデル
– シンタックス
– セマンティクス
– メタデータ
? LODの位置付け
– ウェブ上でのデータ共有?再利用のための最小構成
の技術群
– HTTP+URI+RDF
? To be continued…
34
今後の予定
第3回 6/9(月)▼RDF入門(小出誠二)
? RDF (Resource Description Framework) は,もともとはウェブ上に存在する資源(resource)について
のデータ(メタデータ)を記述するために定められたものですが,今日ではリンクト?オープンデータ
(Linked Open Data,LOD)を理解して使いこなすうえで,必須のものとなっています.ひろく一般の
RDFの初心者を対象に,RDFの基礎から始めてさらに実務に進む手引きとなるように,最近のRDF
に関する進歩も取り入れつつ講義します.
第4回 6/23(月)▼スキーマとURI(加藤文彦)
? 再利用しやすいデータを作成して共有するためには,データの構造やデータの中で使われる語彙を
共通にしたり,逆に違いを明確にしたりする必要があります.RDFにおいてそれらを実現する仕組み
であるスキーマとURIについて紹介します.
第5回 6/26(木)▼LODの作り方?使い方(松村冬子)
? これまで学んできたLODやRDFを実践的に作り,使う方法について講義します.日頃,データ管理に
よく用いられる表形式のデータを無料ツールを使ってLODに変換する方法や,公開されているLOD
からSPARQLと呼ばれる問合せ言語を使って,欲しいデータを引き出す方法について学んでいきま
す.
第6回 7/7(月)▼LODシステム実践紹介(小林巌生)
? LODを採用したシステム設計について実際の二つの例をもとに解説します。ヨコハマ?アート?LODで
は、公益財団法人横浜市芸術文化振興財団が管理する複数のウェブシステムをLODで統合し、
データの共有を実現しています。SPARQLエンドポイントを活用したアプリの開発などデータの応用
例も広がっています。かなざわ育なび.netでは市役所内の複数の原課によってそれぞれ管理されて
いたデータをLODによって統合して子育て世帯向けの情報提供サービスを実現しました。また、地域
でのLODの実践について今後の展望についても紹介します。

More Related Content

情報の構造化@Linked Open Data連続講座(2014.6.2)