狠狠撸

狠狠撸Share a Scribd company logo
§7 Web搜索引擎
课程总结与复习
(Course Review)
徐悦甡(Yueshen Xu)
ysxu@xidian.edu.cn / xuyueshen@163.com
知识与数据工程研究中心
本科:Web信息搜索
软件工程系2017/6/9
本节提纲
?课程总结与复习
? Web信息搜索概述
? GFS + MapReduce + BigTable
? 全文检索 + 网页排序
? 多媒体检索
? 文本聚类
? 文本分类
? 推荐系统
? 语义网
? 知识图谱
复习、重述
重要知识点
软件工程系2017/6/9
整体课程安排
查询
(Query)
建模
(Modeling)
排序
(Ranking)
信息检索引擎
为了用户
/数据
为了系统
/智能
索引
倒排
查询
爬虫
分布式
…
聚类
分类
推荐
相似性
语义网
知识图谱
软件工程系2017/6/9
信息检索概述
4
信息检索 != 搜索引擎 != Web检索
一部分信息检索不需要涉及Web访问
软件工程系2017/6/9
搜索引擎
5
软件工程系2017/6/9
术语总结
? Web搜索
? WWW(World Wide Web)为典型代表的网络上检索、过滤和推荐信
息的的方法与技术
? 检索
? 由用户提出查询请求,系统根据此查询请求对所存储信息进行查询
并给出查询结果
? 过滤(聚类/分类)
? 系统根据预先设定的条件,对与该条件相符的信息进行提取、隔离
或封堵
? 推荐
? 系统将用户需要的重要信息从大量的一般信息中提取出来,并主动
推荐给用户
6
软件工程系2017/6/9
工具课
?网络文件系统
?分布式文件系统
?MapReduce
?HDFS
?Lucene
7
软件工程系2017/6/9
网络文件系统
8
软件工程系2017/6/9
分布式文件系统
9
软件工程系2017/6/9
分布式计算平台
? MapReduce
10
split0 map
sort
reduce part0
merge
split0 map
sort
split0 map
sort reduce part1
merge
Map Reduce
软件工程系2017/6/9
词频统计的例子
11
软件工程系2017/6/9
HDFS
12
软件工程系2017/6/9
Lucene
13
软件工程系2017/6/9
全文检索
14
Term:
清华大学
倒排
索引
doc1
doc2
doc3
…
docN
Doc list A
…
…
…
…
Doc list B
…… 归并
候选
集
Term:
邮编
倒排
索引
倒排索引
软件工程系2017/6/9
全文检索
15
索引表
软件工程系2017/6/9
网页排序
16
PageRank
软件工程系2017/6/9
网页排序
17
Page A
1.490
Page C
1.577
Page B
0.783
Page D
0.15
PageRank
软件工程系2017/6/9
网页排序
?HITS算法
? Hyperlink-Induced Topic Search
? 对每一个页面应该将其内容权威度(Authority)和链接权威度
(Hub)分开考虑,在对网页内容权威度做出评价的基础上
再对页面链接权威度进行评价,然后给出该页面的综合评价
? 链接权威度(Hub)
? 页面上所有导出链接指向页面的内容权威值之和。
? 内容权威度(authority)
? 所有导入链接所在页面的链接权威度之和
18
软件工程系2017/6/9
网页排序
?HITS算法
? 对于一个给定的查询,每个页面都被赋予了一个特定的链接
权威度(hub)和内容权威度(authority)
? 结果就是高权威度的页面
? 基本假设
? 1. 一个好的“Authority”页面会被很多好的“Hub”页面指向;
? 2. 一个好的“Hub”页面会指向很多好的“Authority”页面
19
软件工程系2017/6/9
多媒体检索
?基于文本的图像检索
? Text-based Image Retrieval
?基于标签的图像检索
? Tag-based Image Retrieval
?基于内容的图像检索
? Content-based Image Retrieval
20
软件工程系2017/6/9
文本聚类、文本分类与推荐
21
机器学习
(数据有无
label)
有监督学习 ? 分类(离散);回归(连续)等
半监督学习 ? 部分数据有label
无监督学习 ? 聚类、话题建模等
iijjij idftfDdtidftf ??? ),,(
)
|}:{|1
log(
dtDd
N
idf
i
i
???
?
TF-IDF
软件工程系2017/6/9
文本聚类
22
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
K=2;任意选择
K个对象作为初
始聚类中心
将每个
对象赋
给最相
似的中
心
更新簇
的平均
值
更新簇
的平均
值
重新划分
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
重新划分
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
K-Means
软件工程系2017/6/9
文本聚类
23
K-Medoid
C2
C3d4
d1
C1
当前聚类中
心(3类)
C2
C3
d1
C1(d4)
迭代一次后的
聚类中心
其它聚类方法,以及聚类方法效果的评估
软件工程系2017/6/9
文本分类
24
d
C1
C2
C3
K = 6
d
C1
C2
C3
K近邻
(KNN)
软件工程系2017/6/9
推荐系统
25
?对推荐系统依赖性较强的场景
电子商务网站 在线社交网络 在线内容站点
在线社区网络 在线综合类网络
软件工程系2017/6/9
推荐系统
26
推荐系统
?推荐系统中包含的要素
? 核心三个
人/用户 物/商品
反馈/评价
关联 内容
上下文/情境:时间,地点,情绪等
? 非核心三个
软件工程系2017/6/9
推荐系统
?基于内容的推荐方法
?基于标签的推荐方法
?基于网络的推荐方法
?基于上下文的推荐方法
27
软件工程系2017/6/9
推荐系统
?基于内容的推荐方法
? 用户内容
? 物品内容
?基于标签的推荐方法
? 标签来源
? 基于图的推荐方法
?基于网络的推荐方法
? 网络的类型
? 基于图的推荐方法
28
软件工程系2017/6/9
推荐系统
?基于上下文的推荐方法
? 时间上下文、地点上下文、情绪上下文
?推荐效果的评估
? 大规模随机双盲对照实验
29
软件工程系2017/6/9
语义网
?语义网(Semantic Web)
? 语义网提出的背景
? 语义网概念与体系结构
? XML与RDF格式
? 标记语言
? 可扩展标记语言(XML)
? 本体
? 语义网应用
30
软件工程系2017/6/9
语义网
31
软件工程系2017/6/9
知识图谱
?知识图谱的背景
?知识图谱的应用
?知识库的构建
?RDF格式
32
软件工程系2017/6/9 33
课件地址
课程邮箱:xdseirclass@163.com
个人邮箱:xuyueshen@163.com
软件工程系2017/6/9 34
请大家按时交齐作业
感谢大家本学期的配合
祝大家期末考试顺利

More Related Content

Course review for ir class 本科课件