4. 对于大数据
? 线下大数据 vs 线上大数据
? 数据挖掘 vs 在线服务
? 持久化的大数据 vs 内存中的大数据
? 结构化大数据 vs 半结构化大数据
? 个人定义:数据要求比单台机器能力高
?一个数量级
DTCC2012
12年4月15日星期日
5. Intro to Redis
? REmote DIctionary Server
? NoSQL by @antirez by VMWare
? redis.io github.com/antirez/redis
? start at 2009, now latest stable 2.4.10
? Key - String,Hash,List,(Sorted)Set,Pub/Sub
? Great Performance
DTCC2012
12年4月15日星期日
6. Intro to Redis
? Written in C , Single thread , event driven
? Fork : copy on write by OS
? Replication
? Persist
? aof
? rdb
? All Data In Memory DTCC2012
12年4月15日星期日
11. 搁别诲颈蝉大数据之 通知
? 存储 by redis
? 索引 key - list
? uid - notice id list
? public notice id list
? 内容 key - value
? notice id - notice content
DTCC2012
12年4月15日星期日
12. 搁别诲颈蝉大数据之 通知
? 存储 by redis
? 提醒 key - value
? uid - since public notice id
? uid - since notice id ?
DTCC2012
12年4月15日星期日
32. 搁别诲颈蝉大数据之计数器
? 技术实现
? mc + mysql (原始列表数据)
? Redis : key - value
? key : uid or mid
? value : count
DTCC2012
12年4月15日星期日
33. 搁别诲颈蝉大数据之 计数器
? 问题
? ?一致性
? count vs list
DTCC2012
12年4月15日星期日
34. 搁别诲颈蝉大数据之 计数器
? 问题
? TCO
? redis cost 100+ bytes to store a count
? hash : store multi counts in a hash
? rediscounter : use array instead of hash
table
DTCC2012
12年4月15日星期日
35. 搁别诲颈蝉大数据之 计数器
? 问题
? 长尾(微博维度计数)
? 10+ Billion counts
? 1% hot : Only hot data in memory
? mget <=10ms
? 暂时无解
DTCC2012
12年4月15日星期日