狠狠撸

贰谤濒补苍驳开发实践
淘宝核心系统资深专家余锋
http://yufeng.info
@淘宝褚霸
2013-05-25

平台架构
工程实践
讨论

UMP核心挑战
? 平台对外保持单一入口，对内维护单一的资源池
。
? 保证服务的高可用性，消除单点故障
? 保证系统是弹性可伸缩的，可以动态的增加、删
减计算与存储节点。
? 保证分配给用户的资源也是弹性可伸缩的，资源
之间相互隔离。
统一
平台
统一资源
申请入口
统一数据
服务入口
统一Portal
入口

UMP经验
? 开放的平台，方便用户扩展
? 采用开放成熟的第三方部件的好处
? 热部署和升级对不停机维护的意义
? 容错系统设计的重要性

为什么要用Erlang实现
? 高并发、高性能、集群易扩展
? 时间检验的高可靠
? 强大的管理功能，方便的问题定位支持
? 强大的交互性，与其他系统整合能力
? Erlang独特的世界观
– 世界是并行的
– 万物皆独善其身
– 万物皆通讯
– 天有不测风云

设计
? 哲学
– 小而美
– 细节是魔鬼
– fail fast
? 三高
– HIGH cost performance
– HIGH Reliability
– HIGH Scalability
9

实现
? 三化
– rebar化
– application化
– 插件化
? 代码组织
– api化
– rpc松散化
– 接口平民化
? 代码质量
– 警告零容忍
– dialyzer
– tidier
11

实现—rebar化
13
$ ls -l deps/ump_controller/
include
priv
README.md
rebar
rebar.config
src
THANKS
…

实现—以app为单位扁平组织
$ tree -L 1 deps
deps
├── …
├── ump
├── ump_agent
├── ump_alarm
├── ump_bs
├── ump_freakout
├── ump_la
├── ump_tc
└──... 14

实现—功能api化
$ ls -al deps/ump_controller/src
...
ump_instance_job.erl
ump_job_clone.erl
ump_job_delete_share_user.erl
ump_metastore.erl
ump_metastore_instance.erl
ump_mnesia_monitor.erl
ump_monitor_node_api.erl
ump_monitor_resource_api.erl
15

实现—rpc化
$ cat ump_diag_nodes.erl
…
get_nodes() ->
case ump_diag_rpc:call(ump_monitor_node_api,
registered_node, []) of
{badrpc, _Reason} ->
[];
Nodes ->
Nodes
end.
16

实现—Makefile最小化
$ cat deps/ump_diag/Makefile
all: compile escriptize
compile:
./rebar get-deps compile
escriptize:
./rebar escriptize
17

实现—dialyzer警告零容忍
$ dialyzer ebin
Checking whether the PLT
/home/chuba/.dialyzer_plt is up-to-date...
yes
Proceeding with analysis... done in 0m5.67s
done (passed successfully)
18

部署
? reltool 和 release_handler <=> 打包和热部
署
? ssh/sftp <=> 安装和升级包传递
? ump_bootstrap <=>大规模自动部署
19

测试
? 白盒 <=> eunit 覆盖率 <=> cover
? 黑盒 <=> common test
? 压力测试 <=> tsung
– api
– mysql
– console
20

诊断
? VM层面信息 <=> observer
– crashdump
– etop
? 业务信息<=> console/portal
? 主动诊断 <=> ump_diagnostic
? 主动破坏 <=> ump_freakout
21

运维
? 热更新 <=> 不停机
? snmp监控 <=> 方便对接现有监控系统
? 节点管理 <=> 随时添加、移除、启停结点
? 集群安全 <=> 审计
22

调优
? 消息流动 <=> dbg
? 函数级别 <=> eprof
? 驱动层面 <=> dtrace
? 锁竞争 <=> lcnt
? 角色协作 <=> percept
23

存在问题
? 集群规模和安全
? mnesia brain split
? 节点间rpc通道压力
? 小众语言
25

讨论时间
谢谢大家！
26
@淘宝褚霸

狠狠撸

贰谤濒补苍驳开发实践

Recommended

More Related Content

What's hot (20)

Viewers also liked (19)

Similar to 贰谤濒补苍驳开发实践 (20)

More from Feng Yu (6)

贰谤濒补苍驳开发实践