狠狠撸

狠狠撸Share a Scribd company logo
关联数据的消费与应用构建:
以上海图书馆家谱开放数据为例
第十三届数字图书馆前沿问题高级研讨班 ADLS 2016, 上海图书馆, 12月5-6日
董行
关联数据与图书馆
? OCLC报告数据显示,2014-2015年,相比发布关联数据,图书馆
更多地 消费或使用 关联数据 (Smith-Yoshimura, 2016)。
? “小型关联数据项目在增多,为未来的应用提供机遇。” (Smith-
Yoshimura, 2016)
发布还是消费? 2014年 2015年
只发布关联数据 4 10
只消费关联数据 25 38
既发布又消费 47 64
关联数据的消费和应用
? 关联数据的消费(Consuming Linked Data)“主要涉及关联数据的访
问、获取、发现、查询、交换、传输、处理和利用等消费过程中
所相关的各类实现方式、技术标准及工具平台”(夏翠娟,刘炜,2013)。
[能力指标 5]
? 关联数据的应用 (Heath & Bizer, 2011):
? 通用的应用,多领域的关联数据览器和搜索引擎
? 领域内的应用,利用不同的消费方式来融合领域内的数据
? 消费关联数据是创建优秀关联数据应用的关键。
关联数据应用的宏观构架
图片来源:
Heath, T. and Bizer, C., 2011.
Linked data: Evolving the web
into a global data
space. Synthesis lectures on the
semantic web: theory and
technology, 1(1), pp.1-136.
关联数据应用
的微观构架
案例介绍
? Learn Chinese Surnames
? 一款方便外国人学习
中国姓氏文化和汉字的
安卓手机应用
方便外国人在生活中随时查阅和学习中国姓氏,
了解汉字的写法与含义、姓氏的来源、
姓氏的人口排名、早期的家谱等等。
封面设计:
小组成员
钟坤权
姓氏 = 汉字
《中国四百大姓》[1]
家谱中提及的
先祖名人数
家谱数
家谱
编纂年
修纂地
姓氏英文名(拼音) 动态书法图片
(笔顺) [简+繁]
字义[英文]
姓氏介绍
[英文]
姓氏起源
[英文]
历史和当代
的名人[英文]
地址[英文]
馆藏地
[英文]
其他收藏
信息(存量、
书号、备
注等)
用户角度: 信息
[1] 袁义达, 邱家儒. 中国四百大姓(上中下册). 南昌: 江西人民出版社, 2013-01-01
红色表示上图家
谱数据中不包括
的信息。
数据源 信息 获取方式 使用方式 版权声明
上海图书馆家
谱数据
家谱题名、纂修时间、
地理位置、馆藏地英
文名,姓氏英文名、
姓氏人数
SPARQL在线实时调
用Restful 服务获取
文字展示。 (1) CC2.0协议(署名-非
商业性使用-相同方式共
享)
(2) 比赛授权使用
DBpedia 和 维
基百科
姓氏的英文词条 SPARQL语句离线获
取
嵌入网页。 CC BY-SA 1.0-4.0
Wiktionary 汉字的英文词条 直接从URL获取 嵌入网页。 CC BY-SA 3.0
GeoNames 中国地理位置的英文
元数据
通过官方API获取 文字展示。 CC BY-SA 3.0
WrittenChinese.
Com
简体和繁体汉字的动
态笔顺书法图片
直接从URL获取 嵌入在线图片。 (1) Copyright (C) 2009 -
2016 v1.9.0
WrittenChinese.Com All
Rights Reserved.
(2) CC BY-SA 3.0
ChineseTools.eu 简体汉字的静态书法
图片
直接从URL获取 嵌入在线图片。 (1) Copyright (C) 2016 -
ChineseTools.eu
2d-code 繁体汉字的静态书法
图片
通过官方API获取 嵌入在线图片。 版权:二维码生成,闽
ICP备15012419号
(1) 《 中 国 四 百
大姓》
(2) 中 文 维 基 百
科:中国姓氏排
名词条
2013年由中国伏羲文
化研究会发布的中国
四百大姓
引用和离线获取。 列表展示。 (1) 袁义达,邱家儒,江
西人民出版社
(2) CC BY-SA 3.0 (中文维
基百科)
数
据
源
一
览
上海图书馆家谱开放数据
图片来源:
夏翠娟. 家谱关联开放数据的
内容及数据结构. PPT. 2016.
work
instance
item
TemporalValue (L)
Description
(L@chs)
organization
Organization
name (L@en)
Family
name
Family name
(L@chs+@en)
Title
(L@chs)
place
Country
(L@chs)
Province
(L@chs)
City
(L@chs)
County (L@chs)
Person
上海图书馆家谱本体图
[部分] [省略连接属性]
说明:
L = Literal 字符型
@chs 简体
@en 英文
未标注 L 的字段
即为URI类型
work
Family
name
Family name
(L@chs+@en)
place
Country
(L@chs)
Province
(L@chs)
City
(L@chs)
County (L@chs)
上海图书馆
家谱本体[部分]
Name
(L@en)
单个汉字
(L@chs)Page
Page
latitude
longitude
population
nearBy
Hierarchy…
Wikipedia
Page
abstract
people
origin
…
Text (L@en)
meaning
prononciation
examples
origin
…
家谱数据的匹配和丰富
通过消费关联数据实现跨语言
? 1 匹配姓氏汉字到维基百科词条 – 利用SPARQL端点调用
? 利用DBPedia的SPARQL Endpoint (Restful Service 访问限制,可离线使用) (采用)
? 人工匹配 (采用)
? 机器学习
? 2 匹配姓氏汉字到维基词典词条 – 构造URL直接调用
? Wiktionary API (访问限制)
? Wiktionary SPARQL Endpoint (访问限制)
? 构造URL (采用)
? 3 匹配中文的层级地址到GeoNames英文地点 - 利用官方API调用
? GeoNames API (采用)
匹配姓氏汉字到维基百科词条 – 利用SPARQL端
点调用
? Dbpedia的SPARQL Endpoint:
https://dbpedia.org/sparql
? 通过SPARQL端点批量获取
姓氏对应的维基百科英文词条
[能力指标 5.3]
? 对匹配结果进行人工筛选
匹配中文的层级地址到GeoNames英文地点
- 利用官方API调用
? 参考: http://www.geonames.org/export/geonames-
search.html
? 获取陕西省西安市户县(1731年家谱《段氏
世系》的修纂地)对应的GeoNames的JSON条
目
? http://api.geonames.org/searchJSON?name_eq
uals=%E6%88%B7%E5%8E%BF&featureCode=AD
M3&country=CN&maxRows=10&username=XXX
(将XXX替换为GeoNames用户名)
返回结果:
{
"totalResultsCount": 1,
"geonames": [
{
"adminCode1": "26",
"lng": "108.58764",
"geonameId": 1806562,
"toponymName": "Hu Xian",
"countryId": "1814991",
"fcl": "A",
"population": 556377,
"countryCode": "CN",
"name": "Hu Xian",
"fclName": "country, state, region,...",
"countryName": "China",
"fcodeName": "third-order administrative division",
"adminName1": "Shaanxi",
"lat": "33.99969",
"fcode": "ADM3"
}
]
}
匹配姓氏汉字到维基词典词条
– 构造URL直接调用
? 构造刘姓对应的维基词典链接
https://en.wiktionary.org/wiki/%E5%88%98
在浏览器中显示为“刘”
关联数据的消费与应用构建: 以上海图书馆家谱开放数据为例
关联数据的消费与应用构建: 以上海图书馆家谱开放数据为例
展现上海图书馆家谱数据的层级结构。
通过匹配到GeoNames显示一个work的英文地
点名。
比拼音转换的方式更加精准。
关联数据的消费与应用构建: 以上海图书馆家谱开放数据为例
关联数据的消费与应用构建: 以上海图书馆家谱开放数据为例
数据的核对和补充
姓氏 英文名 排名 姓氏 英文名 排名
龙 long 84 岳 yue 110
康 kang 105 葛 ge 124
牛 niu 108 甘 gan 137
姓
氏
姓氏英文名
(上海图书馆
家谱数据)
英文词条名
(英文维基
百科数据)
维基百科连接 注释
房 fang pang http://en.wikipedia.org/wi
ki/Pang_(surname)
fangpang
均有
柏 bai bo http://en.wikipedia.org/wi
ki/Bo_(Chinese_surname)
应为bo
区 qu ou http://en.wikipedia.org/wi
ki/Ou_(surname)
应为ou
强 qiang jiang http://en.wikipedia.org/wi
ki/Jiang_(surname)
应为jiang
危 wei ngai http://en.wikipedia.org/wi
ki/Ngai_(surname)
Ngai为广东
话读音
维基百科英文词条中未收录之上
海图书馆家谱数据中的姓氏
(仅列出前6/共93个)
总共400个姓氏,其中上海图书
馆中包括377/400个,英文维基
百科中295/400个有对应词条。
总结:对图书馆的意义
本项目探索了如何将中文的家谱本体与三种多语言关联数
据集进行融合,完成跨语言的移动应用。
? 馆藏资源与关联数据的整合
? 关联数据使得知识得以更加细粒度化的整合
? 跨语言应用保障获取
? 促进馆藏(文化遗产)资源在世界范围内的获取,有利于扩展
图书馆的服务范围,促进国际交流和数字人文的相关研究
重要参考文献和延伸阅读
? Heath, T. and Bizer, C., 2011. Linked data: Evolving the web into a global data
space. Synthesis lectures on the semantic web: theory and technology, 1(1), pp.1-
136.
? 编目精灵III. 关联数据应用现状:2015国际关联数据实施者调查的分析
http://catwizard.net/posts/20160904151045.html
? Smith-Yoshimura, Karen. Analysis of International Linked Data Survey for
Implementers. D-Lib Magazine, 22(7/8) doi:10.1045/july2016-smith-yoshimura
? 夏翠娟, 刘炜. 关联数据的消费技术及实现. 大学图书馆学报. 2013(3):29-37.
? 夏翠娟. 家谱关联开放数据的内容及数据结构. 2016.
http://pcrc.library.sh.cn/zt/opendata/doc/%E5%BC%80%E6%94%BE%E6%95%B0%E6%8D%A
E%E7%AB%9E%E8%B5%9B%E5%9F%B9%E8%AE%AD.pptx
? 上海图书馆基于BibFrame的家谱本体
http://gen.library.sh.cn:8080/ontology/view
谢谢聆听
感谢参赛小组成员Ilesanmi Olade和钟坤权
董行

More Related Content

关联数据的消费与应用构建: 以上海图书馆家谱开放数据为例

Editor's Notes

  1. 关联开放数据云(LOD Cloud,Linked Open Data Cloud)中的数据从2011年的294种,到2014年4月的1091种,包括800余万个资源链接。
  2. 开发者主要关注微观构架。
  3. 通过早期的家谱来了解姓氏的来源
  4. 通过设想一个外国用户可能需要的信息,和我们所能提供的信息。1-2尘颈苍 凡事做一个以展示数据为主要目的的app,一个很重要的关键在于去根据app的目的和现有的数据源来画出系统的数据流程图。
  5. 30s 前四种是以关联数据形式发布的数据集
  6. 合理地消费关联数据一定要对本体的结构有足够的了解 上海图书馆的三层主干结构
  7. 通过设想一个外国用户可能需要的信息,和我们所能提供的信息。1-2尘颈苍
  8. 仅用30蝉
  9. 1-2min 最主要的幻灯片
  10. 1-2min
  11. 30s
  12. 30s
  13. 2min
  14. 1m
  15. 30s-1m
  16. 1m
  17. Hang D. Enrichment of Cross-Lingual Information on Chinese Genealogical Linked Data. Accepted for iConference 2017.