端端舝

�恅畿賡
Logistic regression models for aggregated data
Tom Whitaker et al., 2020

Agenda
衙猁
乒民矛奈扑亦件
�瓬
失伙打伉朮丞
灍歠

衙猁 - 乒民矛奈扑亦件
伕斥旦氾奴永弁隙䔝反價掛腔卅乒犯伙分仃升弁末犯市犯奈正分午�呾講互楊俋卞
犯市仁卅月
掊隴劐杅毛甲旦玄弘仿丞及倛卞摩�仄化公木毛價卞芢隅允木壬�呾講午儕僅及中
中午仇升曰堤懂月及匹反ˋ
Symbolic Data Analysis (SDA)及蕉尹互��匹五月午蕉尹凶

衙猁 - �瓬
甲旦玄弘仿丞卞價勿仁復薹劐杅毛⻌薯午仄凶�薹腔卅珨�坻�𡛟及輪侔恚磁蚧僅
乒犯伙(composite likelihood model)毛爀堤
恚磁蚧僅卞價勿中凶失奶犯失毛逃桯今六凶
�跡趙隅杅毛斛猁午仄卅中𢖯囮毛蚚中月仇午互堤懂月
癶籵及伕斥旦氾奴永弁隙䔝支郔陔及扔皮扔件皿伉件弘失伙打伉朮丞午肮脹及煦�
儕僅毛湮盟卞腴中�呾戊旦玄匹絻傖匹五月仇午毛灍偩

失伙打伉朮丞 - Notations
histogram bin:
outcome value:
covariate value:
眕狟及偞隅午蕉尹化手方中
反眻諉紝䛐堤懂卅中
甲旦玄弘仿丞及跪申件匹申件示伉亙奈丞卞漪引木月僕劐講矛弁玄
伙及杅及心互歹井月
#classes:
#covariate vectors contained within bin:
parameter: ,
likelihood:
�隅今木月及煦票ㄩ
b
Y ﹋次 = {1, ＃ , K}
X
x
b 朽 ?
b
s ?
b
K
s ?
b
牟 ?
L(x, y; 牟) ≦ ? g ?
(y ?
汰x ?
, 牟)?for?N?i.i.d.pairs(x ?
, y ?
)
﹊n=1
N
X,Y n n n n
Y g ?
(y ?
汰x ?
, 牟)
X,Y n n

失伙打伉朮丞 - 掖劓眭舑
�恅及丟奶件失奶犯失
嘉萎蚧僅卞云仃月僕劐講矛弁玄伙及帤眭及弇离毛珨�卞ⅸ歙趙允月仇午匹摩廣今
木凶僕劐講及蚧僅毛�呾允月仇午
丐月bin卞云仃月蚧僅及�瓬僅反卞掀瞰允月
仇仇匹
朽 ? =
b ?
k
朽 ? ℅
b ?
k
1
? ℅ 朽 ? ?
b ?
k
D
RD
朽 ?
=
b ?
k
d
(y ?
, y ?
] ?
b ?
d?1
d
b ?
d
d
R
?﹢ < y ?
<
0
d
y ?
<
1
d
＃ < y ?
<
B ?
k
d
﹢
( ? g ?
(y ?
汰x ?
, 牟)dx ?
)
÷朽 ?
b
X,Y n n n
s ?
b

OvR伕斥旦氾奴永弁隙䔝 (One-vs-Rest logistic regression)
log ? =
(
P ?
(Y = k汰X)
O 祀
P ?
(Y = k汰X)
O
) 汕 ? +
k0 汕 ?
X
k
T
P ?
(Y =
O k汰X) = ?
1 + e汕 ?
+汕 ?
X
k0 k
T
e + 汕 ?
X
汕 ?
k0
k
T
L ?
(x, y; 汕) =
O ? ?
P ?
(Y = y ?
汰X = x ?
) ? P ?
(Y = k汰X = x ?
) ?
?? (3)
n=1
﹊
N
?
?
O n n
k﹋次?{y ?
}
n
﹊ O 祀 n
?
?
郔蚧芢隅 (MLE)匹及郔羥趙及醴腔憝杅
? =
汕
^O
argmax ?
?logL ?
(x, y; 汕)
汕 O

掛�恅匹枑偶仄化中月及反SDA蚧僅午籵都及蚧僅毛髦磁仄化瞳蚚允月髦磁乒犯伙
bin囀及扔件皿伙扔奶朮互湮五中�磁反SDA蚧僅毛瞳蚚仄扔件皿伙扔奶朮互苤
今中�磁反籵都及蚧僅毛瞳蚚
仇丹仄凶源互�呾講互屾卅中
髦磁乒犯伙反掊隴劐杅及杅互公氏卅卞嗣仁卅中�磁卞妏蚚允月及反羥今卅中
腴棒啋及笚煘甲旦玄弘仿丞 (marginal histograms) 毛妏丹仇午毛砑隅

失伙打伉朮丞 - 倛宒趙 (Classification for aggregated
data)
X =
(k)
(X ?
汰Y ? =
n n k, n = 1, ＃ , N) ﹋ RD℅N ?
k
S ? =
k 羽(X ) :
(k)
D ? ↙
X(k) D ?
, x ?
S(k)
(k)
s ?
k
L(s ?
; 牟, ?) ≦
k ? f ?
(s ?
汰x , ?)g ?
(x ; 牟)dx ??(4)
÷
D ?
X(k)
S ?
汰X =x
k
(k) (k) k
(k)
X(k)
(k) (k)
where
N ? =
k ? 1{Y ? =
n=1
﹉
N
n k}
X ﹋
(k)
D ?
?(D ?
=
X(k) X(k) R )
D℅N ?
k

失伙打伉朮丞 - 倛宒趙 (Classification for aggregated
data)
由仿丟奈正反扑件示伙及�慷卞憝窣允月講ㄗ申件及杅午公及弇离卅升ㄘ
垀迵及�磁互嗣中及匹眕蔥謹�今木化中月仇午互嗣中
反垀迵及媆及及沭璃葆五復薹躇僅
仇木反及摩廣卞憝窣
珨啜腔卅㻢�匹丐曰蕉𩬅今木月煦票猁廣及正奶皿卞𡛟元化�卅月倛颷毛午月
反由仿丟奈正 , 犯奈正毛厥勾乒犯伙及㻢𨃨腔卅蚧僅憝杅
仇仇匹
掛�恅及宒(4)及砩庤
肮元毛厥勾僕劐講毛甲旦玄弘仿丞ㄗ嘐隅申件引凶反仿件母丞申件毛厥
勾ㄘ卞摩廣
伕斥旦氾奴永弁隙䔝乒犯伙毛白奴永玄今六月
?
f ?
(?; ?)
S ?
汰X
k
(k) X(k)
S ?
k
x ?
(k)
s ?
k
g ?
(x ; 牟)
X(k)
(k) 牟 x(k)
x =
(k)
(x ?
, ＃ , x ?
)
1
(k)
N ?
k
(k)
k X(k)
S ?
k
g ?
(x ; 牟)
X(k)
(k)

失伙打伉朮丞 - 倛宒趙 (Logistic regressions using
histogram-valued data)
弁仿旦卞云仃月杻釾講及跪棒啋囀及bin杅:
bin及奶件犯永弁旦:
? ??(5)
S ? = 羽(X ) : R ↙ {0, ＃ , N ?
}
k
(k) N ?
℅D
k
k
B ?
℅＃℅B ?
k
1
k
D
x ? s ? = (s ? = ? 1{x ? ﹋朽 ?
}, ＃ , s ? = ? 1{x ? ﹋朽 ?
})
(k)
k 1 ?
k
﹉n=1
N ?
k
n
(k)
1 ?
k B ?
k
﹉n=1
N ?
k
n
(k)
B ?
k
L ?
(s; 汕) ≦
SO ? ? ? ? P ?
(Y = k汰X = x)dx ? ? P ?
(Y = k 汰X = x)dx ? ?? (7)
k﹋次
﹊
b ?
=1 ?
k k
﹊
B ?
k
?
?
÷
朽 ?
b ?
k
O
k ﹋次{k}
∩
﹊ ÷
朽b ?
k
O 祀 ∩
?
?
s ?
b ?
k
k B ?
k
d
b ? =
k (b , ＃ , b ?
), b ? =
1 ?
k D ?
k d ?
k 1, ＃ , B ?
d
k

失伙打伉朮丞 - 倛宒趙 (Logistic regressions using
histogram-valued data)
宒(7)毛symbolic One-vs-Rest(SOvR) logistic model午網少
Heitjan (1989), Beranger et al. (2018)匹反跪甲旦玄弘仿丞及申件及杅毛
剠癹卞輪勿仃月午卞輪勿仁仇午互尨今木化中月
甲旦玄弘仿丞卞摩廣仄凶乒犯伙互煦褩褫夔匹丐勻化手摩廣仄化卅中癶籵及乒犯伙
互煦褩褫夔匹反卅中
仄井仄申件及釬曰源卞方勻化煦褩褫夔匹反卅仁卅月褫夔俶手丐月
申件趙允月仇午卞方勻化ロ�𢖯囮/儕僅腴狟互丐曰腕月
蜊囡源楊枑偶仄化月
L ?
(s; 汕)
SO
L ?
(x, y; 汕)
O

失伙打伉朮丞 - 倛宒趙 (Using both classical data and
histograms)
申件囀及犯奈正杅互屾卅中午及�呾戊旦玄毛及�呾戊旦玄互閉尹月
仇木反棒啋杅互湮五中幻升お仇曰支允中
申件卞狟癹� 毛偞仃化狟癹�卞㦤凶卅中�磁反毛�呾允月
仇午匹�薹趙毛�勻凶
及偞隅卞方勻化�呾講互欄卞詢仁卅月�磁互丐月
㻢𨃨腔卅蚧僅�呾毛允月方曰手�呾講互屾卅仁卅月方丹卞毛偞隅允月
L ?
O L ?
SO
D
而 ? ﹋
k {1, ＃ , N ?
}
k L ?
O
而 ?
k
而 ?
k

失伙打伉朮丞 - 倛宒趙 (Using both classical data and
histograms)
S ? =
k (X ) :
羽
~ (k)
R ↙
N ?
℅D
k
{而 ?
, ＃ , N ?
} ℅
k k
u
Rv℅D
x ?
(k)
? ,? b ? = 1 ?
, ＃ , B ?
({
s ? = ? 1{x ? ﹋朽 ?
}??if?s ? ≒ 而 ?
b ?
k ﹉n=1
N ?
k
n
(k)
b ?
k b ?
k k
x ? = {x ? : x ? ﹋朽 ?
}??otherwise
b ?
k n
(k)
n
(k)
b ?
k
k k k})
仇仇匹 , 反屾卅仁午手 �及紝
䛐�毛漪戈申件及杅
反 �帤㦤及紝䛐�毛漪戈申件卞悵厥今木凶犯奈正禾奶件玄及
杅
蚧僅反眕狟
L ?
(s; 汕) ≦
MM ? ? ? P ?
(Y = k汰X = x)dx ? ? P ?
(Y = k汰X = x) ? ?? (8)
k﹋次
﹊
b ?
=1 ?
k k
﹊
B ?
k
(÷
朽 ?
b ?
k
M )
s ?
1{s ?
≡而 ?
}
b ?
k b ?
k k
?
?
x﹋x ?
b ?
k
(k)
﹊ M
?
?
1{s ?
<而 ?
}
b ?
k k
而 ? ﹋
k {1, ＃ , N ?
}
k u ﹋ [0, ＃ , B ? ℅
k
1
＃ ℅ B ?
]
k
D
而 ?
k
v = N ? ?
k ?
﹉s ?
b ?
k
而 ?
k

失伙打伉朮丞 - 倛宒趙 (Composite likelihoods for
logistic regression models)
踏引匹及馱痲匹�呾�薹毛井卅曰蜊囡匹五凶互嗣劐講甲旦玄弘仿丞反僕劐講及杅(
)互�尹月午犯奈正扔穴伉奈午仄化準都卞準�薹
匹蚧僅憝杅 , 反賤昴腔卅賤毛厥凶卅中
赻隴匹卅中偞隅匹反杅�搪煦允月斛猁互丐月
互湮五中�磁卞反�呾戊旦玄互壩湮卞卅曰犯奈正失弘伉必奈玄允月醴腔
ㄗ�呾�薹及砃奻ㄘ互𢖯卅歹木月褫夔俶互汜元月
D
D > 2 L ?
(s; 汕)
SM L ?
(s; 汕)
SO
D

詢棒啋甲旦玄弘仿丞及申件卞⻌月犯奈正及復薹毛�呾允月午中丹�觳毛隙旌允月
凶戶卞Whitaker日(2020)互恚磁蚧僅楊及爀⻌毛枑偶仄化中月
詢棒啋甲旦玄弘仿丞及蚧僅憝杅毛腴棒啋笚煘甲旦玄弘仿丞及蚧僅憝杅及樓笭
搪匹輪侔允月午中丹手及
仇木卞方曰𪊓輪腔卞蚧僅矛奈旦及由仿丟奈正及珨祡芢隅講互腕日木月
(Lindsay, 1988, Varin et al., 2011)ㄗ日仄中ㄘ
�化及笭心互脹仄中午允月午眕狟匹�呾堤懂月
反卞云仃月 �及笚煘岈砓及楓醴及蚧僅憝杅
L (牟) ≦
(j)
? L ?
(牟)
﹊i=1
m
i
L ?
(牟)
i j m i

仇木匹謎今公丹...午珨极中勾井日嶒�仄化中凶ˋ
皿伕申永玄隙䔝支伕斥旦氾奴永弁隙䔝匹笭猁卅劐杅毛吽謹允月午紹曰及�S杅及芢
隅矛弁玄伙互卞𢒰今木月政砓互お仇月日仄中(Wooldridge 2002, Cramer 2007)
仇及燴蚕井日伕斥旦氾奴永弁隙䔝及�觳卞恚磁蚧僅失皿伕奈民毛眻諉羥蚚允月仇
午反匹五卅中
Cramer(2007)匹OvR及偞隅允屯化及軑䛐劐杅互黃蕾匹丐月午中丹�隅及手午匹伕
斥旦氾奴永弁隙䔝及準吽謹�S杅互隙䔝秪赽互吽謹今木卅中扑瓜伉左匹及隙䔝�S杅
及憝杅午仄化�扴匹五月仇午毛尨今木化中月
Cramer(2007)匹反偞隅互�卅勻化中凶凶戶吽謹今木凶劐杅及ロ�毛妏丹仇午互褣
仄井勻凶
仄井仄恚磁蚧僅及偞隅匹反跪僕劐講卞憝允月ロ�互瞳蚚褫夔
吽謹今木化中月僕劐講毛娗�允月凶戶卞跪笚煘蚧僅及�呾匹灍蚾匹五凶
0

standard D-dimensional OvR logistic regression model
L ?
(x, y; 汕) =
O
(j)
? L ?
(x , y; ? )
i﹋I ?
j
﹊ O
i
汕
~i
histogram-base D-dimensional OvR logistic regression model
L ?
(s; 汕) =
SO
(j)
? L ?
(s , y; ? )
i﹋I ?
j
﹊ SO
i
汕
~i
�S杅

仇仇匹
?
i = (i ?
, ＃ , i ?
) ? {1, ＃ , D}
1 I
I ? = {i : 汰i汰 = j}
j
X = (X ?
, ＃ , X ?
) ﹋ R ??where??X ? ﹋ R
(k)i
1
(k)i
N ?
k
(k)i j℅N ?
k
n
(k)i j
i ?
, i ? ﹋ I ?
1
∩
2
∩
1
?i
X = 汐 ?
X + ? ?
i∩
ii∩
T i
ii∩
及媆

j = 1 竹

午反輪侔恚磁蚧僅憝杅匹丐曰淩及恚磁蚧僅憝杅匹反卅中
祥⑴芢隅講匹手珨祡芢隅講匹手卅中
仄井仄灍歠匹反白伙犯奈正毛妏勻凶瓜奶奈皮卅芢隅講方曰手儕僅方井勻凶
�呾講屾卅中及反晟歹內手互卅
及珨楓��g卅瞰互宒(10)卞�徭仄化丐月
失弘伉必奈扑亦件憝杅反仇木

午毛髦磁仄凶�磁及輪侔恚磁蚧僅
L ?
(s; 汕) =
OO
(1)
L ?
({x }; 汕)L ?
(s; 汕)
O
(1) (k)i
SO
(1)
L ?
(x, y; 汕)
O
(j)
L ?
(s; 汕)
SO
(j)
L ?
(s; 汕)
SO
(j)
L ?
O L ?
SO

失伙打伉朮丞 - セ𢖯�
セ𢖯�互丐月�磁反�倛磐磁匹芢隅仄化月
�倛磐磁允月蕣及�S杅毛А戶月凶戶卞反跪復薹劐杅及煦汃互斛猁
失弘伉必奈扑亦件今木月ゴ及犯奈正井日А戶月及互郔囡忒
甲旦玄弘仿丞井日眻諉�呾允月仇午手匹五月仄眻匹А戶月及匹手謎中日仄中

失伙打伉朮丞 - 疶侔戊奈玉

灍歠
1. 扑立亙伊奈扑亦件犯奈正
2. 灍犯奈正

灍歠
扑立亙伊奈扑亦件犯奈正
由仿丟奈正芢隅夔薯午煦�夔薯及𨈘偩
煦�俶夔啐�及硌㻢反prediction accuracy (PA)
�反1000隙ⅸ歙�
扑立亙伊奈扑亦件匹�化中月及反眕狟
i. 申件及杅及劐趙卞方月啐��醴�及劐趙
ii. 扔件皿伙扔奶朮ㄗ紝䛐犯奈正杅ㄘ毛劐趙今六化扔件皿伉件弘乒犯伙午掀廌
N

灍歠
灍犯奈正
眕狟及2勾及犯奈正本永玄毛妏勻凶俶夔掀廌
i. SUSY犯奈正本永玄
閉�備俶薜赽毛汜傖允月陓瘍皿伕本旦午公丹匹卅中田永弁弘仿它件玉皿
伕本旦及煦�
K=2, D=18
train:4 500 000, test:500 000
ii. Crop type犯奈正本永玄
苾陎賒砉妏勻凶釬昜及煦�
K=7, D=7ㄗ杻釾講釬勻凶日仄中ㄘ
train:200 000, test:34 485

奻僇:嗣劐講淏�煦票, 狟僇:旦平亙奈淏�煦票, 酘:僕劐講卞未伕眈憝�隅, 衵:準未伕眈憝
�隅

僕劐講反8棒啋及旦平亙奈淏�煦票井日汜傖

酘:眈憝未伕, 衵:[0, 0.75]及珨�眈憝

K = 2


酘:眈憝未伕, 衵:準未伕眈憝

K = 2


酘2蹈:眈憝未伕, 衵2蹈:準未伕眈憝

K = 2

灍犯奈正

Wang et al.(2018)及扔皮扔件皿伉件弘忒楊午及掀廌

灍犯奈正

Lasso淏�t趙毛蚚中凶㻢𨃨腔卅嗣�宒蚧僅午及掀廌
L ?
(x, y; 汕)
M

端端舝

[掂頗]Logistic regression models for aggregated data

More Related Content

[掂頗]Logistic regression models for aggregated data