狠狠撸
Submit Search
Course review for ir class 本科课件
?
1 like
?
224 views
Yueshen Xu
Follow
Course Review for IR Class (IR class for undergraduates )
Read less
Read more
1 of 34
Download now
Download to read offline
More Related Content
Course review for ir class 本科课件
1.
§7 Web搜索引擎 课程总结与复习 (Course Review) 徐悦甡(Yueshen
Xu) ysxu@xidian.edu.cn / xuyueshen@163.com 知识与数据工程研究中心 本科:Web信息搜索
2.
软件工程系2017/6/9 本节提纲 ?课程总结与复习 ? Web信息搜索概述 ? GFS
+ MapReduce + BigTable ? 全文检索 + 网页排序 ? 多媒体检索 ? 文本聚类 ? 文本分类 ? 推荐系统 ? 语义网 ? 知识图谱 复习、重述 重要知识点
3.
软件工程系2017/6/9 整体课程安排 查询 (Query) 建模 (Modeling) 排序 (Ranking) 信息检索引擎 为了用户 /数据 为了系统 /智能 索引 倒排 查询 爬虫 分布式 … 聚类 分类 推荐 相似性 语义网 知识图谱
4.
软件工程系2017/6/9 信息检索概述 4 信息检索 != 搜索引擎
!= Web检索 一部分信息检索不需要涉及Web访问
5.
软件工程系2017/6/9 搜索引擎 5
6.
软件工程系2017/6/9 术语总结 ? Web搜索 ? WWW(World
Wide Web)为典型代表的网络上检索、过滤和推荐信 息的的方法与技术 ? 检索 ? 由用户提出查询请求,系统根据此查询请求对所存储信息进行查询 并给出查询结果 ? 过滤(聚类/分类) ? 系统根据预先设定的条件,对与该条件相符的信息进行提取、隔离 或封堵 ? 推荐 ? 系统将用户需要的重要信息从大量的一般信息中提取出来,并主动 推荐给用户 6
7.
软件工程系2017/6/9 工具课 ?网络文件系统 ?分布式文件系统 ?MapReduce ?HDFS ?Lucene 7
8.
软件工程系2017/6/9 网络文件系统 8
9.
软件工程系2017/6/9 分布式文件系统 9
10.
软件工程系2017/6/9 分布式计算平台 ? MapReduce 10 split0 map sort reduce
part0 merge split0 map sort split0 map sort reduce part1 merge Map Reduce
11.
软件工程系2017/6/9 词频统计的例子 11
12.
软件工程系2017/6/9 HDFS 12
13.
软件工程系2017/6/9 Lucene 13
14.
软件工程系2017/6/9 全文检索 14 Term: 清华大学 倒排 索引 doc1 doc2 doc3 … docN Doc list A … … … … Doc
list B …… 归并 候选 集 Term: 邮编 倒排 索引 倒排索引
15.
软件工程系2017/6/9 全文检索 15 索引表
16.
软件工程系2017/6/9 网页排序 16 PageRank
17.
软件工程系2017/6/9 网页排序 17 Page A 1.490 Page C 1.577 Page
B 0.783 Page D 0.15 PageRank
18.
软件工程系2017/6/9 网页排序 ?HITS算法 ? Hyperlink-Induced Topic
Search ? 对每一个页面应该将其内容权威度(Authority)和链接权威度 (Hub)分开考虑,在对网页内容权威度做出评价的基础上 再对页面链接权威度进行评价,然后给出该页面的综合评价 ? 链接权威度(Hub) ? 页面上所有导出链接指向页面的内容权威值之和。 ? 内容权威度(authority) ? 所有导入链接所在页面的链接权威度之和 18
19.
软件工程系2017/6/9 网页排序 ?HITS算法 ? 对于一个给定的查询,每个页面都被赋予了一个特定的链接 权威度(hub)和内容权威度(authority) ? 结果就是高权威度的页面 ?
基本假设 ? 1. 一个好的“Authority”页面会被很多好的“Hub”页面指向; ? 2. 一个好的“Hub”页面会指向很多好的“Authority”页面 19
20.
软件工程系2017/6/9 多媒体检索 ?基于文本的图像检索 ? Text-based Image
Retrieval ?基于标签的图像检索 ? Tag-based Image Retrieval ?基于内容的图像检索 ? Content-based Image Retrieval 20
21.
软件工程系2017/6/9 文本聚类、文本分类与推荐 21 机器学习 (数据有无 label) 有监督学习 ? 分类(离散);回归(连续)等 半监督学习
? 部分数据有label 无监督学习 ? 聚类、话题建模等 iijjij idftfDdtidftf ??? ),,( ) |}:{|1 log( dtDd N idf i i ??? ? TF-IDF
22.
软件工程系2017/6/9 文本聚类 22 0 1 2 3 4 5 6 7 8 9 10 0 1 2
3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 K=2;任意选择 K个对象作为初 始聚类中心 将每个 对象赋 给最相 似的中 心 更新簇 的平均 值 更新簇 的平均 值 重新划分 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 重新划分 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 K-Means
23.
软件工程系2017/6/9 文本聚类 23 K-Medoid C2 C3d4 d1 C1 当前聚类中 心(3类) C2 C3 d1 C1(d4) 迭代一次后的 聚类中心 其它聚类方法,以及聚类方法效果的评估
24.
软件工程系2017/6/9 文本分类 24 d C1 C2 C3 K = 6 d C1 C2 C3 K近邻 (KNN)
25.
软件工程系2017/6/9 推荐系统 25 ?对推荐系统依赖性较强的场景 电子商务网站 在线社交网络 在线内容站点 在线社区网络
在线综合类网络
26.
软件工程系2017/6/9 推荐系统 26 推荐系统 ?推荐系统中包含的要素 ? 核心三个 人/用户 物/商品 反馈/评价 关联
内容 上下文/情境:时间,地点,情绪等 ? 非核心三个
27.
软件工程系2017/6/9 推荐系统 ?基于内容的推荐方法 ?基于标签的推荐方法 ?基于网络的推荐方法 ?基于上下文的推荐方法 27
28.
软件工程系2017/6/9 推荐系统 ?基于内容的推荐方法 ? 用户内容 ? 物品内容 ?基于标签的推荐方法 ?
标签来源 ? 基于图的推荐方法 ?基于网络的推荐方法 ? 网络的类型 ? 基于图的推荐方法 28
29.
软件工程系2017/6/9 推荐系统 ?基于上下文的推荐方法 ? 时间上下文、地点上下文、情绪上下文 ?推荐效果的评估 ? 大规模随机双盲对照实验 29
30.
软件工程系2017/6/9 语义网 ?语义网(Semantic Web) ? 语义网提出的背景 ?
语义网概念与体系结构 ? XML与RDF格式 ? 标记语言 ? 可扩展标记语言(XML) ? 本体 ? 语义网应用 30
31.
软件工程系2017/6/9 语义网 31
32.
软件工程系2017/6/9 知识图谱 ?知识图谱的背景 ?知识图谱的应用 ?知识库的构建 ?RDF格式 32
33.
软件工程系2017/6/9 33 课件地址 课程邮箱:xdseirclass@163.com 个人邮箱:xuyueshen@163.com
34.
软件工程系2017/6/9 34 请大家按时交齐作业 感谢大家本学期的配合 祝大家期末考试顺利
Download