狠狠撸
Submit Search
钱卫宁:在线社交媒体分析型查询基准评测初探
?
0 likes
?
918 views
H
hdhappy001
Follow
BDTC 2013 Beijing China
Read less
Read more
1 of 35
Download now
Download to read offline
More Related Content
钱卫宁:在线社交媒体分析型查询基准评测初探
1.
在线社交媒体分析型查询基准评测初探 Towards Benchmarking Online
Social Media Analytical Queries 钱卫宁(QIAN, Weining) 华东师范大学 (East China Normal University) 云计算与大数据研究中心(C3BD)
2.
提纲 ? 社交媒体与分析型查询处理 ? BSMA –
数据集与数据生成器 – 负载 – 度量 ? 部分评测结果 ? 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 2
3.
社交媒体 感知世界的一种重要媒介 2013-12-10 BDTC 2013, Beijing 3
4.
社交媒体 2013-12-10 BDTC 2013, Beijing 4
5.
社交媒体数据分析 http://database.ecnu.edu.cn/microblogcube/ 2013-12-10 BDTC 2013, Beijing 5
6.
社交媒体上的分析型查询 ? 社交网络与传播网络特征分析 – 图模式匹配 ?
热点分析 – 图和内容的统计 ? 时序、地域分析 – 时空查询 在舆情监控与分析、社交广告、新型客户关 系管理中有着广泛的应用 2013-12-10 BDTC 2013, Beijing 6
7.
为何需要基准评测? ? ? ? ? ? 了解系统的优缺点 促进研究与技术进步 科学地研究技术的性能 跟踪相关领域的发展 使得竞争性的系统具有可比性 2013-12-10 BDTC 2013, Beijing 7
8.
数据库性能基准评测的意义 ? 现代数据库系统的强大功能得益于上世纪 数据库基准发展过程中对性能问题各个击 破的解决办法 Jim Gray.
Thousands of DebitCredit Transactions-Per-Second: Easy and Inexpensive. 2005 2013-12-10 BDTC 2013, Beijing 8
9.
为何需要社交媒体分析型查询 基准评测? ? 必要性:存在大量海量社交媒体数据上的 共性分析型任务 ? 不可替代性:新型的数据与负载 –
社交网络+内容+时序 – 幂率分布无处不在:查询代价估计困难 ? “One size fits a bunch” – 实现多样:SQL vs. NOSQL vs. NewSQL 2013-12-10 BDTC 2013, Beijing 9
10.
提纲 ? 社交媒体与分析型查询处理 ? BSMA –
数据集与数据生成器 – 负载 – 度量 ? 部分评测结果 ? 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 10
11.
BSMA Benchmark for Social
Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 11
12.
BSMA:数据 ? 采用关系模型描述 – 语义明确 ?
允许非关系实现 – 通过查询wrapper实现 ? 基于真实数据 ? 提供可配置的数据生 成器 2013-12-10 BDTC 2013, Beijing 12
13.
数据模式 2013-12-10 BDTC 2013, Beijing 13
14.
真实数据获取 Haixin Ma, Weining
Qian, Fan Xia, Xiaofeng He, Jun Xu, Aoying Zhou: Towards modeling popularity of microblogs. Frontiers of Computer Science 7(2): 171-184 (2013) 2013-12-10 BDTC 2013, Beijing 14
15.
真实数据 ? 关注网络 – – – – – 种子用户:11位律师/意见领袖和21位学者/工程师 第2层用户:120,000+用户 第3层用户:160+万用户 第4层用户:1800+万用户(不完整) 超过10亿个关注关系 ? 前3层用户的微博 –
从2009年8月至2012年6月 – 超过4.8亿条微博 2013-12-10 BDTC 2013, Beijing 15
16.
真实数据的后处理 ? 后处理目的:避免隐私和版权的问题 ? 后处理操作: 1.匿名化 2.转发链恢复(尽力而为) 3.去内容(出于匿名化目的) ?
保留部分热点事件标签 2013-12-10 BDTC 2013, Beijing 16
17.
数据生成器 2013-12-10 BDTC 2013, Beijing 17
18.
较准确地模拟真实数据 时间线的分布 2013-12-10 BDTC 2013, Beijing 18
19.
较准确地模拟真实数据 传播网络特征 2013-12-10 BDTC 2013, Beijing 19
20.
较准确地模拟真实数据 用户行为特征 2013-12-10 BDTC 2013, Beijing 20
21.
BSMA Benchmark for Social
Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 21
22.
BSMA:负载 19类查询 ? 社交网络查询 – 如:列出用户A和B的公共“粉丝” ?
热点查询 – 热点可以是:用户、微博、话题,... – 如:列出转发次数最多的微博 ? 时间线查询 – 如:列出A的关注者最近的10条微博 2013-12-10 BDTC 2013, Beijing 22
23.
查询示例(Q12) "Rank the tweets
appearing in A's followees’ timelines according to the number of retweets." ? ? ? 2013-12-10 BDTC 2013, Beijing 23
24.
BSMA Benchmark for Social
Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 24
25.
BSMA性能测试工具(基于YCSB) ? YCSB: Yahoo
Cloud Service Benchmark – http://wiki.github.com/brianfrankcooper/YCSB/ ? BSMA的修改 – 查询参数(随机)生成 ? 用户ID、top-k、时间窗口等 – 查询wrappers ? 面向不同实现 – https://github.com/c3bd/BSMA 2013-12-10 BDTC 2013, Beijing 25
26.
度量 ? 吞吐量 – 在不同线程数设定下的最高吞吐量 ?
延时 – 在第二高吞吐量设定下的系统(平均)延时 ? 可伸缩性 – 吞吐量/延时曲线的斜率 2013-12-10 BDTC 2013, Beijing 26
27.
提纲 ? 社交媒体与分析型查询处理 ? BSMA –
数据集与数据生成器 – 负载 – 度量 ? 部分评测结果 ? 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 27
28.
WISE 2012 Challenge Performance
Track ? BSMA的早期版本作为WISE 2012 Challenge Performance Track公开 – http://www.wise2012.cs.ucy.ac.cy/challenge.html – https://wnqian.wordpress.com/research/wise2012challenge/ ? 四组参赛者 – 专用内存系统 – 采用二级索引的HBase系统 – 经过优化的基于SQLLite的系统 – 基于B+-树,针对不同查询分别优化的系统 2013-12-10 BDTC 2013, Beijing 28
29.
部分评测结果 2013-12-10 "Find the set
of people who share the same followee with the specified user." BDTC 2013, Beijing 29
30.
提纲 ? 社交媒体与分析型查询处理 ? BSMA –
数据集与数据生成器 – 负载 – 度量 ? 部分评测结果 ? 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 30
31.
社交媒体上的分析型查询处理挑战 ? 社交网络查询 – 大表连接 –
耗时、耗内存 ? 数据分布偏斜 – 幂率分布 – 不同参数造成截然不同的 查询性能 ? 时间线查询 – 保持结果的时序 – 中间结果与最终结果排序 2013-12-10 BDTC 2013, Beijing 31
32.
其它相关评测 ? LinkBench:社交网络上的事务处理评测 – https://github.com/facebook/linkbench ?
LDBC:Linked Data Benchmark Council – EU-FP7项目:http://ldbc.eu/ – SNB: Social Network Benchmark – SPB: Semantic Publishing Benchmark 2013-12-10 BDTC 2013, Beijing 32
33.
后续工作 ? 添加数据(数据生成器)的语义 – 更多的事件/语义标签 –
(模拟)内容产生 ? 更多样的负载 – 幂率分布中代表性点的取样 – 社交网络查询、热点查询、时间线查询的结合 – 流式负载和相应的新的性能度量 ? 针对不同负载采用不同性能度量 ? 更多系统的评测 2013-12-10 BDTC 2013, Beijing 33
34.
小结 ? BSMA:社交媒体上分析型查询性能评测的初步尝试 – 数据: ?
https://wnqian.wordpress.com/research/wise2012challenge/ – 数据生成器与性能测试工具: ? https://github.com/c3bd/BSMA ? 后续工作 – 更真实与有代表性的场景模拟 – 更细致的性能测试与分析 2013-12-10 BDTC 2013, Beijing 34
35.
2013-12-10 BDTC 2013, Beijing 35
Download