狠狠撸

狠狠撸Share a Scribd company logo
§6.1 语义网
(Semantic Web)
徐悦甡(Yueshen Xu)
ysxu@xidian.edu.cn / xuyueshen@163.com
知识与数据工程研究中心
本科:Web信息搜索
软件工程系2017/5/29
本节提纲
?语义网(Semantic Web)
? 语义网提出的背景
? 语义网概念与体系结构
? XML与RDF格式
? 标记语言
? 可扩展标记语言(XML)
? 本体
? 语义网应用
软件工程系2017/5/29
语义网提出的背景
?互联网的发展过程
? 第一代互联网(Web 1.0)
? 通过超链接把资源联系在一起
? 以HTML 、URL 和HTTP 等技术为标志,以静态页面的形式来展
现信息
? 第二代互联网(Web 2.0)
? 动态的、允许用户与应用程序交互,动态的生成返回页面。
? 以动态HTML 语言、Javascript、Ajax、JQuery、PHP、C#等技
术为标志
? 第三代互联网(Web 3.0)
? 一个组成部分:语义网(Semantic Web)
软件工程系2017/5/29
?现有的Web存在的问题
? Web信息在内容上不容易自动关联
? Web信息在内容上不容易自动理解
? 传统的Web 侧重信息的定位与展示,并不侧重内容的理解
语义网提出的背景
?语义网的目标
? 当前“机器可阅读”的万维网扩展为“机器可理解”的语义
网
软件工程系2017/5/29
语义网提出的背景
10
?语义网的提出
? 2000年,Tim Berners-Lee
? Sir Timothy John “Tim” Berners-Lee, 超链接技术发明者,
浏览器第一批开发者,W3C万维网联盟创办者,语义网提出
者,网际协议提出者 ? 获得2017年图灵奖
软件工程系2017/5/29
语义网提出的背景
?语义网的愿景
? 语义网并不是一个从无到有孤立发展的,而是对当前万维网
的延伸和扩展;
? 语义网上的信息具有良好的定义(规范、标准、统一), 计算
机能根据定义声明和逻辑推理发现资源对象的含义
? 在语义网中定义和链接的数据能被各种不同的应用以更为有
效的方式查询重用和集成
? 语义网并非旨在取代万维网,而是作为万维网的提升与补充
11
软件工程系2017/5/29
语义网概念与体系结构
?语义与语义网
? 语义:数据的含义及含义之间的关联
? != 简单的含义,重点在于关联
? 即语义指代的是一个含义与关联的集合体
? 语义网
? 两层含义:
- 存储文档对象集合(如网页、图片、视频音频等) 的网络
- 描述现实世界对象资源关系的网络
12
软件工程系2017/5/29
语义网概念与体系结构
? 语义网与万维网的关系
? 万维网中,HTML起到重要作用, 正是通过HTML中的超链接
, 才得以将世界上的各种信息资源链接在一起
? 但丰富多彩的现实世界中还存在着各种复杂的关联关系
? 这就要求语义网不仅要能够反映资源之间的超链接关系, 而
且还应能描述资源对象之间的丰富的关联关系
? 对这种复杂关联关系的描述正是语义网的优势
13
软件工程系2017/5/29
语义网概念与体系结构
? 语义网体系结构
我们重点关注的:
XML ? 最基本的标记语言
RDF ? 最常用的资源描述语言
本体 ? 语义网中的核心概念
逻辑 ? 人工智能课的重点
软件工程系2017/5/29
语义网概念与体系结构
? 语义网体系结构
? 第一层(资源标记层)
? Unicode和URI是整个语义Web语法表示基础,Unicode提供了资
源编码,而URI用于标识资源
? 第二层(数据表示层)
? XML提供了表示数据内容和结构的语法
? XML作为一种标记语言,是语义Web的通用语法的载体,通过自
定义一系列的标签(tags),为语义Web创建结构化的文档模式
? 这里的“标签”与推荐系统中的“标签”不同
15
软件工程系2017/5/29
语义网概念与体系结构
? 第三层(语义交互层)
? XML层之上的RDF,Ontology和Logic三层是提供语义交互支持的
核心
? RDF:提供了描述Web资源的数据模型和类型原语,可以表示论
断、定义模式
? 本体层:在RDF基础上定义的概念和关系抽象描述,用于描述应
用领域的知识
? 逻辑层:主要定义逻辑描述原语,为更高层的逻辑推理提供语义
上的支持
16
软件工程系2017/5/29
XML
? XML与RDF产生背景
? 语义网为实现让计算机能够自动识别和处理网上信息,需要在文档
内容中加入供计算机读的“标记”,这就需要采用“标记语言”(
Markup Language )
? 不同应用领域的标记符或规则是不一样的
? 例如
在医疗系统常用的标记符有“病人序列号”、“药品名”、“药物反应”
、“就诊时间”等。因此“标记语言”必须是灵活的、可扩展的,以便给
使用者提供自定义功能,称为“可扩展标记语言”
? 常见标记语言
? 标准通用标记语言(Standard Generalized Markup Language,SGML)
- 不常见
17
软件工程系2017/5/29
XML
? 超文本标记语言(HyperText Markup Language,HTML)
- 现代各类网页的生成语言
? 可扩展标记语言(eXtensible Markup Language,XML)
- 应用最为广泛的标记语言
? 标记语言与通常的程序设计语言的比较
?XML
? 可扩展标记语言;eXtensible Markup Language
? 一个结构良好的的XML文档整体上由2部分组成
? 1) 一个可选择的头部;
? 2) 文件主体(包含字符数据的分级树)
软件工程系2017/5/29
XML
? 基本XML元素
? 三部分:开始标记、数据(元素值)、结束标记;开始标记
与结束标记对称
? 语法格式:
? <标记>文本内容</标记>
? 示例
<工资>8000</工资>
? 带属性的XML元素
? 属性给元素提供进一步的说明,位于起始标记中
? 以“名称=取值”对出现,名称与取值之间用等号分隔
软件工程系2017/5/29
XML
? 带属性的XML元素(续)
? 取值需用引号引起来,且属性不重复出现在同一标记中
? 示例
<工资 货币=“人民币”>8000</工资>
? 嵌套XML元素
? 以XML为代表的标记语言的一大特点:嵌套性
? 标记嵌套标记
? 由此衍生出了标记与标记之间的关系,包括
? 父-子关系,兄弟关系等
20
软件工程系2017/5/29
XML
? 嵌套XML元素(续)
? 示例
<教职工>
<姓名>XXX</姓名>
<职称>讲师</职称>
<工资,货币=“人民币”>8000</工资>
<学院>数学与统计学院</学院>
</教职工>
21
软件工程系2017/5/29
XML与
?XML格式总结
? XML 文档必须有根元素
? 文档整体描述的对象
? XML 文档必须有关闭标签
? 标签对称原则
? XML 标签对大小写敏感
? XML 元素必须被正确的嵌套
? 明晰的父子、兄弟关系
? XML 属性必须加引号
22
软件工程系2017/5/29
XML
?RDF
? Resource Description Framework /资源描述框架
? RDF是一个处理元数据的XML应用,所谓元数据,就是“描
述数据的数据”或者“描述信息的信息”
? 语义网中RDF存放的是具体资源间语义信息,或者说是资源
间关系的集合
? RDF解决了XML缺乏语义的缺点
? RDF是XML的扩展
23
软件工程系2017/5/29
本体(Ontology)
?本体(Ontology)
? “本体”作为一种可以在语义和知识层次上描述信息的概念模型
的建模工具,自提出以来就引起了国外众多科研人员的关注,在
许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复
用、信息检索、语义Web等
? 定义
? 给出构成相关领域词汇的基本术语和关系,以及利用这些术语和
关系构成的规定这些词汇外延的规则的定义 ~ Neches
? Ontology 是概念模型的明确的规范说明 ~ Gruber
? Ontology 是共享概念模型的形式化规范说明 ~ Borst
? Ontology是共享概念模型的明确的形式化规范说明 ~ Studer
26
软件工程系2017/5/29
本体(Ontology)
?本体结构
? (完整的)本体=概念(Concept)+属性(Property)+公理
(Axiom)+取值(Value)+ 名义(Nominal)
? 本体与语义网
? 作为知识表示工具,本体(Ontology)与语义网联系非常紧密
? 表示知识的形式
? 可以通过带标记的有向图来表示
? 适用于逻辑推理
软件工程系2017/5/29
本体(Ontology)
?本体的作用
? 澄清了领域知识的结构,为知识表示打好基础
? 本体可以重用,从而避免重复的领域知识分析
? 本体中使用统一的术语和概念,方便知识共享
? *本体(库)最简单的使用方法
? 近义、反义与同义词库
? 本体的描述
? Knowledge Interchange Format(KIF,少用/过时)
? XML与Resource Description Frame(RDF)
? Web Ontology Language(OWL)
28
软件工程系2017/5/29
本体(Ontology)
? OWL
? Web Ontology Language
? 背景与目的
? 语义网使用XML来定义定制的标签格式以及用RDF的灵活性来表
达数据,下一步需要的就是一种Ontology的网络语言(比如OWL
)来明确含义和它们之间的关系
? 目的是为了提供一种可以用于各种应用的语言,这些应用需要理
解内容,从而代替只是采用人类易读的形式来表达内容
? 作为语义网的一部分,XML或RDF支持通过提供针对术语描述的
词汇表,共同推进了机器的可靠性,但仍然不够
29
软件工程系2017/5/29
本体(Ontology)
?OWL
? 发展历程
? OWL是最新的Web本体语言标准
? 2002年7月,W3C组织公布了网络本体描述语言(Web Ontology
Language, OWL)的工作草案1.0版
? 2003年8月该工作草案发展成W3C的候选建议,并成为W3C正式
推荐的标准
? OWL已经发展成公认的未来的Web本体语言标准
? OWL的目的是提供一个标准的语言,用以描述Web文件或Web应
用中使用的实体类和各类之间的关系,以支持描述Web环境中文
件和应用的语义
30
软件工程系2017/5/29
语义网典型应用
? WordNet
? WordNet是由Princeton 大学的语言学家和计算机工程师联合
设计的一种基于认知语言学的英语单词网络
? 与传统词典不同,WordNet既按照“词形”也按照“词义”
组织单词网络
31
软件工程系2017/5/29
语义网典型应用
?词义关系类型
? 同义关系
? 示例,“自然”
你只要好好努力, 自然会有不错的工作
{自然、必然、一定、必定}
? 反义关系
? 示例
上升/下降,升高/下落
? 多义关系
? 自然景观中的“自然”与上面的“自然”
32
软件工程系2017/5/29
语义网典型应用
?词义关系类型
? 上下位关系(hypermymy & hyponymy)
? 例如:{枫树}是{树}的下位词,{树}是{植物}的下位词
? 上下位关系不是一种对称关系,通常下位词多于上位词
? 蕴涵关系(entailment)
? “打鼾”蕴涵“睡觉”
? 部分关系(组成关系,meronymy )
? “部分-整体”关系
? 例:“车窗”与“汽车”
33
软件工程系2017/5/29
语义网典型应用
? WordNet中多义词信息统计
34
词 性 单义词和语义 多义词 多义词语义
名 词
动 词
形容词
副 词
94685
5920
15981
3820
14510
5168
5479
787
40002
18221
15175
1900
总 计 120406 25944 75298
软件工程系2017/5/29
语义网典型应用
? WordNet中多义词信息统计(2)
35
词 性 平均词义(包括单义词) 平均词义
名 词
动 词
形容词
副 词
1.23
2.17
1.45
1.24
2.75
3.52
2.76
2.41
软件工程系2017/5/29
参考资源
? 胡鹤. PPT,《本体方法及其时空推理应用》
? 温有奎. PPT,《第5章 知识管理的革命》
? 董晓龙. PPT,《语义网概述》
36
软件工程系2017/5/29 37
知识图谱

More Related Content

Semantic web 本科课件