狠狠撸

狠狠撸Share a Scribd company logo
大數據分析演算法
帶 Canopy 預處裡的 Kmeans
鐘振聲 Tony Chung
Agenda
? Canopy 演算法概念
? Mahout 限制
? Mahout 分群結果如何串回客戶ID或是識別ID
Canopy演算法基本概念 1/2
? 兩個距離閥值參數:
? T1(弱連結距離), T2(強連結距離)
? T1 > T2
3
Canopy演算法基本概念 2/2
? 演算法步驟
1. 取得T1與T2距離閥值。
2. 將資料集向量化後得到一list放入記憶體。
3. 從list任意取一點P,計算P點與所有Canopy之間的距離(如果當前沒有
Canopy則把P當作一個新Canopy的中心),如果P點與某個Canopy距離在
T1以內,則點P加入到這個Canopy。
4. 如果P點與某個Canopy距離在T2以內,則需將P點從list中刪除,這一步
是認為P點與這個Canopy已經很接近了,因此不用它再做其他Canopy的
中心。
5. 重複3、4步驟,直到list為空則結束
4
5
Canopy 中心
Canopy 中心
Canopy 中心
帶Canopy的 K-means 基本概念
Kmean一開始的重心起始點是隨機撒出,若使用Canopy則取代原隨機撒出的步驟
6
帶Canopy的 K-means 基本概念
7
帶Canopy的 K-means 基本概念
8
帶Canopy的 K-means 基本概念
9
帶Canopy預處裡的優點
? Canopy可以自動幫我們確定K
? Canopy可以幫我去除離群值干擾
隨然解決Kmeans的
一些問題,但也引進
了新的問題: T1與T2
的選取。
Mahout 限制
? 輸入的文字檔必須以空格分隔
? 輸入文字檔內容只能包含分割變數(數值型),不能包含客戶ID或
識別ID
? 建模結果檔為半結構化文字檔
10
串回客戶ID或是識別ID方式
1. 先取得各分群重心
2. 將Hadoop平台上預分群的資料集下載至關聯式資料庫系統
11
串回客戶ID或是識別ID方式
3. 透過SQL語法自行計算每個觀察值到各重心的距離後,再歸類到
最近的群集
12
select
cust_id,
case when C1_Dist < C2_Dist and C1_Dist < C3_Dist and C1_Dist < C4_Dist then 'Cluster1'
when C2_Dist < C1_Dist and C2_Dist < C3_Dist and C2_Dist < C4_Dist then 'Cluster2'
when C3_Dist < C1_Dist and C3_Dist < C2_Dist and C3_Dist < C4_Dist then 'Cluster3'
when C4_Dist < C1_Dist and C4_Dist < C2_Dist and C4_Dist < C3_Dist then 'Cluster4'
end as cluster_name
from
(
select
cust_id,
/*計算到各質心距離*/
SQRT( SQUARE(var1 - 6.249) + SQUARE(var2 - 2.868) + SQUARE(var3 - 4.854) + SQUARE(var4 - 1.651) ) as C1_Dist,
SQRT( SQUARE(var1 - 6.913) + SQUARE(var2 - 3.1) + SQUARE(var3 - 5.847) + SQUARE(var4 - 2.131) ) as C2_Dist,
SQRT( SQUARE(var1 - 5.606) + SQUARE(var2 - 2.642) + SQUARE(var3 - 3.997) + SQUARE(var4 - 1.235) ) as C3_Dist,
SQRT( SQUARE(var1 - 5.006) + SQUARE(var2 - 3.418) + SQUARE(var3 - 1.464) + SQUARE(var4 - 0.244) ) as C4_Dist
From kmean_DT
) aa
) aaa

More Related Content

Viewers also liked (19)

PPTX
電子商務資料分析 上課投影片
Ethan Yin-Hao Tsui
?
PDF
Machine Learning Introduction
Mark Chang
?
PDF
分析路上你我他/如何学习分析
Wanju Wang
?
PPTX
分群消费者x多元商机的实现
Peter(Sheng-Pi) Chang
?
PDF
Cnc fablab
宗凡 楊
?
PDF
Ab Testing
newegg
?
PDF
笔测迟丑辞苍介绍和多版本虚拟环境架设
Tien-Yang (Aiden) Wu
?
PPTX
清洁机器人产业分析报告
少文 吳
?
PDF
Consumer Research of Beauty Products in Key/A Cities︱了解美,了解你 )
Bingjie Han
?
PPTX
A Simple Introduction to Word Embeddings
Bhaskar Mitra
?
PDF
杨奕轩/音乐资料检索
台湾资料科学年会
?
PDF
HITCON GIRLS: Android 滲透測試介紹 (Elven Liu)
HITCON GIRLS
?
PDF
鲍谤颁辞蝉尘别2016/2月热门关注和新品分析冲颁惭搁滨美妆行销总研
i-TRUE Communications Inc.
?
PDF
闕嘉宏/我在智慧交通资料解析的失败歷程
台湾资料科学年会
?
PDF
Why Chatbot? 為何開發聊天機器人?
Burton Chau
?
PDF
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
台湾资料科学年会
?
PPTX
智慧车站案例分享
Taipei Smart City PMO
?
PDF
孔令杰/猫都学得会的手机维修资料分析
台湾资料科学年会
?
PDF
HITCON GIRLS 成大講座 密碼學(阿毛)
HITCON GIRLS
?
電子商務資料分析 上課投影片
Ethan Yin-Hao Tsui
?
Machine Learning Introduction
Mark Chang
?
分析路上你我他/如何学习分析
Wanju Wang
?
分群消费者x多元商机的实现
Peter(Sheng-Pi) Chang
?
Cnc fablab
宗凡 楊
?
Ab Testing
newegg
?
笔测迟丑辞苍介绍和多版本虚拟环境架设
Tien-Yang (Aiden) Wu
?
清洁机器人产业分析报告
少文 吳
?
Consumer Research of Beauty Products in Key/A Cities︱了解美,了解你 )
Bingjie Han
?
A Simple Introduction to Word Embeddings
Bhaskar Mitra
?
杨奕轩/音乐资料检索
台湾资料科学年会
?
HITCON GIRLS: Android 滲透測試介紹 (Elven Liu)
HITCON GIRLS
?
鲍谤颁辞蝉尘别2016/2月热门关注和新品分析冲颁惭搁滨美妆行销总研
i-TRUE Communications Inc.
?
闕嘉宏/我在智慧交通资料解析的失败歷程
台湾资料科学年会
?
Why Chatbot? 為何開發聊天機器人?
Burton Chau
?
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
台湾资料科学年会
?
智慧车站案例分享
Taipei Smart City PMO
?
孔令杰/猫都学得会的手机维修资料分析
台湾资料科学年会
?
HITCON GIRLS 成大講座 密碼學(阿毛)
HITCON GIRLS
?

大数据分析演算法--带颁补苍辞辫测预处裡的办尘别补苍蝉