狠狠撸

狠狠撸Share a Scribd company logo
在线社交媒体分析型查询基准评测初探
Towards Benchmarking Online Social Media
Analytical Queries
钱卫宁(QIAN, Weining)
华东师范大学 (East China Normal University)
云计算与大数据研究中心(C3BD)
提纲
? 社交媒体与分析型查询处理
? BSMA
– 数据集与数据生成器
– 负载
– 度量

? 部分评测结果
? 社交媒体上的分析型查询处理挑战

2013-12-10

BDTC 2013, Beijing

2
社交媒体

感知世界的一种重要媒介
2013-12-10

BDTC 2013, Beijing

3
社交媒体

2013-12-10

BDTC 2013, Beijing

4
社交媒体数据分析

http://database.ecnu.edu.cn/microblogcube/
2013-12-10

BDTC 2013, Beijing

5
社交媒体上的分析型查询
? 社交网络与传播网络特征分析
– 图模式匹配

? 热点分析
– 图和内容的统计

? 时序、地域分析
– 时空查询

在舆情监控与分析、社交广告、新型客户关
系管理中有着广泛的应用
2013-12-10

BDTC 2013, Beijing

6
为何需要基准评测?
?
?
?
?
?

了解系统的优缺点
促进研究与技术进步
科学地研究技术的性能
跟踪相关领域的发展
使得竞争性的系统具有可比性

2013-12-10

BDTC 2013, Beijing

7
数据库性能基准评测的意义
? 现代数据库系统的强大功能得益于上世纪
数据库基准发展过程中对性能问题各个击
破的解决办法
Jim Gray. Thousands of DebitCredit
Transactions-Per-Second:
Easy and Inexpensive.
2005

2013-12-10

BDTC 2013, Beijing

8
为何需要社交媒体分析型查询
基准评测?
? 必要性:存在大量海量社交媒体数据上的
共性分析型任务
? 不可替代性:新型的数据与负载
– 社交网络+内容+时序
– 幂率分布无处不在:查询代价估计困难

? “One size fits a bunch”

– 实现多样:SQL vs. NOSQL vs. NewSQL

2013-12-10

BDTC 2013, Beijing

9
提纲
? 社交媒体与分析型查询处理
? BSMA
– 数据集与数据生成器
– 负载
– 度量

? 部分评测结果
? 社交媒体上的分析型查询处理挑战

2013-12-10

BDTC 2013, Beijing

10
BSMA

Benchmark for Social Media Analytical
query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-10

BDTC 2013, Beijing

数据生成器

11
BSMA:数据
? 采用关系模型描述
– 语义明确

? 允许非关系实现
– 通过查询wrapper实现

? 基于真实数据
? 提供可配置的数据生
成器

2013-12-10

BDTC 2013, Beijing

12
数据模式

2013-12-10

BDTC 2013, Beijing

13
真实数据获取

Haixin Ma, Weining Qian, Fan Xia, Xiaofeng He, Jun Xu, Aoying Zhou:
Towards modeling popularity of microblogs.
Frontiers of Computer Science 7(2): 171-184 (2013)
2013-12-10

BDTC 2013, Beijing

14
真实数据
? 关注网络
–
–
–
–
–

种子用户:11位律师/意见领袖和21位学者/工程师
第2层用户:120,000+用户
第3层用户:160+万用户
第4层用户:1800+万用户(不完整)
超过10亿个关注关系

? 前3层用户的微博
– 从2009年8月至2012年6月
– 超过4.8亿条微博
2013-12-10

BDTC 2013, Beijing

15
真实数据的后处理
? 后处理目的:避免隐私和版权的问题
? 后处理操作:
1.匿名化
2.转发链恢复(尽力而为)
3.去内容(出于匿名化目的)

? 保留部分热点事件标签

2013-12-10

BDTC 2013, Beijing

16
数据生成器

2013-12-10

BDTC 2013, Beijing

17
较准确地模拟真实数据

时间线的分布
2013-12-10

BDTC 2013, Beijing

18
较准确地模拟真实数据

传播网络特征
2013-12-10

BDTC 2013, Beijing

19
较准确地模拟真实数据

用户行为特征
2013-12-10

BDTC 2013, Beijing

20
BSMA

Benchmark for Social Media Analytical
query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-10

BDTC 2013, Beijing

数据生成器

21
BSMA:负载
19类查询
? 社交网络查询

– 如:列出用户A和B的公共“粉丝”

? 热点查询

– 热点可以是:用户、微博、话题,...
– 如:列出转发次数最多的微博

? 时间线查询

– 如:列出A的关注者最近的10条微博

2013-12-10

BDTC 2013, Beijing

22
查询示例(Q12)

"Rank the tweets appearing in A's followees’
timelines according to the number of retweets."

?
?
?

2013-12-10

BDTC 2013, Beijing

23
BSMA

Benchmark for Social Media Analytical
query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-10

BDTC 2013, Beijing

数据生成器

24
BSMA性能测试工具(基于YCSB)
? YCSB: Yahoo Cloud Service Benchmark

– http://wiki.github.com/brianfrankcooper/YCSB/

? BSMA的修改

– 查询参数(随机)生成

? 用户ID、top-k、时间窗口等

– 查询wrappers
? 面向不同实现

– https://github.com/c3bd/BSMA
2013-12-10

BDTC 2013, Beijing

25
度量
? 吞吐量
– 在不同线程数设定下的最高吞吐量

? 延时
– 在第二高吞吐量设定下的系统(平均)延时

? 可伸缩性
– 吞吐量/延时曲线的斜率

2013-12-10

BDTC 2013, Beijing

26
提纲
? 社交媒体与分析型查询处理
? BSMA
– 数据集与数据生成器
– 负载
– 度量

? 部分评测结果
? 社交媒体上的分析型查询处理挑战
2013-12-10

BDTC 2013, Beijing

27
WISE 2012 Challenge
Performance Track

? BSMA的早期版本作为WISE 2012 Challenge
Performance Track公开
– http://www.wise2012.cs.ucy.ac.cy/challenge.html
– https://wnqian.wordpress.com/research/wise2012challenge/

? 四组参赛者
– 专用内存系统
– 采用二级索引的HBase系统
– 经过优化的基于SQLLite的系统
– 基于B+-树,针对不同查询分别优化的系统
2013-12-10

BDTC 2013, Beijing

28
部分评测结果

2013-12-10

"Find the set of people who share the
same followee with the specified user."

BDTC 2013, Beijing

29
提纲
? 社交媒体与分析型查询处理
? BSMA
– 数据集与数据生成器
– 负载
– 度量

? 部分评测结果
? 社交媒体上的分析型查询处理挑战
2013-12-10

BDTC 2013, Beijing

30
社交媒体上的分析型查询处理挑战
? 社交网络查询
– 大表连接
– 耗时、耗内存

? 数据分布偏斜
– 幂率分布
– 不同参数造成截然不同的
查询性能

? 时间线查询
– 保持结果的时序
– 中间结果与最终结果排序

2013-12-10

BDTC 2013, Beijing

31
其它相关评测
? LinkBench:社交网络上的事务处理评测
– https://github.com/facebook/linkbench

? LDBC:Linked Data Benchmark Council
– EU-FP7项目:http://ldbc.eu/
– SNB: Social Network Benchmark
– SPB: Semantic Publishing Benchmark

2013-12-10

BDTC 2013, Beijing

32
后续工作
? 添加数据(数据生成器)的语义
– 更多的事件/语义标签
– (模拟)内容产生

? 更多样的负载
– 幂率分布中代表性点的取样
– 社交网络查询、热点查询、时间线查询的结合
– 流式负载和相应的新的性能度量

? 针对不同负载采用不同性能度量
? 更多系统的评测
2013-12-10

BDTC 2013, Beijing

33
小结
? BSMA:社交媒体上分析型查询性能评测的初步尝试
– 数据:
? https://wnqian.wordpress.com/research/wise2012challenge/

– 数据生成器与性能测试工具:
? https://github.com/c3bd/BSMA

? 后续工作
– 更真实与有代表性的场景模拟
– 更细致的性能测试与分析

2013-12-10

BDTC 2013, Beijing

34
2013-12-10

BDTC 2013, Beijing

35

More Related Content

钱卫宁:在线社交媒体分析型查询基准评测初探