端端舝

LightGBM:A Highly Efficient
Gradient Boosting Decision
Tree(NIPS 2017)
Paper Friday
Yusuke Kaneko

About Paper
♂ Authors
Guolin Ke, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye,
Tie-Yan Liu(Microsoft)
Qi Meng(Peking University)
♂ NIPS(2017)
♂ links
♀ https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.p
df
♀ http://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradi

About LightGBM(LGBM)
♂ Microsoft�庨Gradient Boosting Decision Tree(GBDT)失伙打伉朮丞
♂ 2016爛卞腎�仄﹜Kaggle卅升匹襖哏毛淥月丹
↙ ☆厒中, 儕僅謎中 , 丟乒伉妘歹卅中★午中丹丟伉永玄
♂ 政婓反Python , R及由永弗奈斥互湔婓

About LightGBM(LGBM)
♂ Kaggle卅升及戊件矢匹及Winnig
Solution妸蚚灍�(衵�)

Abstract
♂ GBDT反XGBoost卅升及�彆腔灍蚾互丐月珨源﹜申永弘犯奈正及(勾引曰﹜杻釾講及
杅支奶件旦正件旦及杅互湮五中)�磁卞反efficiency支旦弗奈仿申伉氾奴互坋煦匹卅
中午中丹�觳互丐月
♂ 仇木毛賤𢜪允月凶戶卞﹜
1. Gradient-based One-Side Sampling(GOSS)
2. Exclusive Feature Bundling(EFB)
及陔忒楊毛枑偶
♂ GBDT + GOSS +EFB 毛LightGBM(LGBM)午網少
♂ 灍歠及磐彆﹜𣶹懂忒楊及20捷及厒今匹肮脹及accuracy毛陂腕褫夔

Motivation
♂ GBDT及�觳萸ㄩ杻釾講及棒啋互詢井勻凶曰犯奈正扔奶朮互湮五中�磁卞反
efficiency支旦弗奈仿申伉氾奴互坋煦匹卅中
↙ 燴蚕ㄩ跪杻釾卞�仄﹜�化及丐曰腕月煦嶊萸及information gain及芢隅及凶戶卞
�犯奈正毛統桽仄卅中午中仃卅中井日(絞�﹜媆嶲手丟乒伉手妘丹)
♂ 奻�及�觳毛賤𢜪仄凶﹜旦弗奈仿申伉氾奴卅升互坋煦卅GBDT及灍蚾毛枑偶仄凶中

Two novel techniques in LGBM
Idea: Infromation gain及隅膽方曰﹜僑饜及羯��
互湮五中*犯奈正奶件旦正件旦互方曰湮五仁
information gain卞�瓬 ↙ 僑饜及湮五卅奶件旦正件
旦毛紹仄﹜僑饜及苤今卅奶件旦正件旦毛母它件扔件
皿伉件弘允月
Idea: 灍犯奈正賤昴卞云中化杻釾講及扔奶朮反湮
五仁卅月互﹜渺升及杻釾反旦由奈旦匹齬坻腔
(exclusive)﹜勾引曰肮媆卞準未伕及�毛龰月仇午反
幻廿卅中(瞰: One-hot encoding仄化汜傖仄凶杻釾)
↙ greedy algorithm卞方勻化﹜仇木日及齬坻腔杻釾
毛引午戶月仇午匹杻釾講毛祅𦑩
(*蛁 : 眕狟僑饜及湮苤午中丹桶政反�化羯��卞勾中化及桶政午允月)

CART(Classification and Regression Trees)
♂ 衵�及方丹卞杻釾諾嶲毛煦賃仄化中五﹜
郔羥卅煦賃萸午杻釾講毛腢氏匹郔手
絞化反引曰互謎仁卅曰方丹卞允月
Hastie et al .ESL p.306

GBDT
♂ (介勻仁曰中尹壬)僑饜毛啋卞
渊侔腔卅紹船毛А戶﹜公木毛
啋卞悷船互郔苤趙今木月方丹卞
ʃ煦�け(GBDT及�磁反𢜪隅躂)
毛白奴永氾奴件弘今六月
Hastie et al .ESL p.361
�及僑饜
Friedman(2001) Annals of Statistics
渊侔腔卅紹船

XGBoost
♂ LGBM互堤月ゴ及翋猁卅GBDT灍蚾(Kaggle匹手引分政砢匹妏勻化月�反嗣中)
♂ 𢖯囮憝杅井日眻諉﹜躂及煦嶊萸毛А戶月午中丹idea(LGBM匹手肮�及逃砑毛妏丹)
♂ Histogram-based algorithm午Pre-sorted algorithm及2勾毛爀⻌

Pre-sorted algorithm VS Histogram-based algorithm
♂ GBDT及��卞云中化珨楓媆嶲互井井月及反郔羥卅煦賃萸毛抻允由奈玄ㄝ仇木毛
抻允失伙打伉朮丞反翋卞2勾
♂
1. Pre-sorted algorithm
...岈ゴ卞末奈玄仄凶杻釾講及�奻及﹜�化及衄曰腕月煦賃萸毛杅尹奻仆月
↙ 郔羥煦賃萸反А引月互媆嶲�薹互�仁丟乒伉手妘丹及匹準�薹
2. Histogram-based algorithm
＃窣適�杻釾講毛褩汃�毛龰月bin卞引午戶化﹜仇及bin毛啋卞甲旦玄弘仿丞毛�傖
允月
↙ 儕僅反�H井卞蟁汊卞卅月互丟乒伉�薹手媆嶲�薹手謎中

Histogram-based algorithm
♂ 衵�互Histogram-based algorithm及衙猁
♂ LGBM匹反Histogram-based Algorithm及心互
妸蚚今木化中月.(XGB匹反Pre-sorted互
犯白巧伙玄)
♂ Histogram-based Algorithm卞方勻化
�呾戊旦玄反 O(#data * #feature)井日
O(#bin * #feature)卞祅𦑩褫夔

Histogram-based algorithm
♂ Histogram-based algorithm卞云中化﹜市氾打伉犯奈正反眕狟及方丹卞㜳勻化中月ㄝ
(https://github.com/Microsoft/LightGBM/issues/1279)
※So when #category is smaller than max_bin, the #bin is smaller than max_bin.
otherwise it use the most frequent categories and stop when use 99% data.§

Two novel techniques in LGBM(婬𡧳)
Idea: Infromation gain及隅膽方曰﹜僑饜及羯��
互湮五中犯奈正奶件旦正件旦互方曰湮五仁
information gain卞�瓬
↙ 僑饜及湮五卅奶件旦正件旦毛紹仄﹜僑饜及苤今卅
奶件旦正件旦毛母它件扔件皿伉件弘允月
Idea: 灍犯奈正賤昴卞云中化杻釾講及扔奶朮反湮
五仁卅月互﹜渺升及杻釾反旦由奈旦匹齬坻腔
(exclusive)﹜勾引曰肮媆卞準未伕及�毛龰月仇午反
幻廿卅中(瞰: One-hot encoding仄化汜傖仄凶杻釾)
↙ greedy algorithm卞方勻化﹜仇木日及齬坻腔杻釾
毛引午戶月仇午匹杻釾講毛祅𦑩

Algorithm Description
♂ ☆僑饜及苤今卅奶件旦正件旦毛母它件扔件皿伉件弘允月★仇午卞勾中化
↙ 睡手蕉尹內卞公及引引灍俴允月午﹜犯奈正及煦票互劐歹勻化仄引丹及匹儕僅�趙
毛桸仁
↙ 仇及�觳毛隙旌允月及互GOSS

1. 隅杅a, b 毛偞隅
2. 犯奈正奶件旦正件旦及僑饜及羯��卞
𣶹中末奈玄仄﹜奻弇a * 100%及犯奈正毛
腢亼ㄝ紹曰及犯奈正及丹切b * 100%毛
仿件母丞扔件皿伉件弘ㄝ
3. 公及摽﹜information gain及�呾媆卞﹜
(1-a)/b分仃扔件皿伙今木凶犯奈正毛
笭心葆仃匹�盟今六月

Theoretical Analysis
♂ GBDT卞云中化﹜杻釾及煦賃卞方月information gain反煦賃摽及煦汃卞方勻化�呾
今木月ㄝGOSS毛蚚中凶媆卞反眕狟及宒匹輪侔允月
嘐隅今木凶躂及皉囀及��犯奈正杅煦賃及酘�及犯奈正杅煦賃及衵�及犯奈正杅
𢖯囮憝杅及
�及僑饜
僑饜及湮五中犯奈正僑饜及苤今中犯奈正
它尼奶玄

Theoretical Analysis
♂ GOSS及輪侔悷船卞勾中化反奻及隅燴互傖蕾
(磐擁睡毛晟勻化中月井午中丹午)煦賃互綎僅卞失件田仿件旦匹反卅中癹曰(
勾引曰井匹卅中癹曰)﹜輪侔悷船反菴ㄡ�互
dominate允月.仇木反及左奈母奈匹
(菴ㄡ�)
卅及匹﹜扔件皿伙扔奶朮互湮五仃木壬輪侔反幻廿淏復卞卅月

♂ 齬坻腔杻釾講毛田件玉伙卞引午戶月仇午卞方勻化﹜�呾戊旦玄毛O(#data * #feature)
井日 O(#data * #bundle)卞祅𦑩互褫夔
�觳.
A. 升及杻釾講毛引午戶月屯五卅及井ˋ
B.田件玉伙毛升及方丹卞�傖允屯五卅及井ˋ

Algorithm Description(A)
♂ 郔羥田件玉伙毛�勾仃月及反弘仿白粗伎�觳午肮脹午�酕六月互﹜仇木反NP-嬪褣
�觳ㄝ
↙ 郔羥田件玉伙毛�勾仃月及匹反卅仁﹜跪杻釾毛�萸午仄凶媆卞齬坻腔匹卅中�化
及2杻釾講卞勾中化巨永斥毛竘仁午中丹�觳卞窺苤允月
↙ �郗楊匹賤仁仇午互褫夔

♂ 俇�卞齬坻腔匹卅中杻釾講手嗣仁湔婓允月
↙ 歹內井卅戊件白伉弁玄毛偝⺍允木壬﹜今日卞�呾�薹俶毛奻翝今六月仇午互褫夔
↙ 隅杅污毛跪田件玉伙及郔湮及戊件白伉弁玄及賃磁及��午仄化偞隅允月

1. 引內﹜杻釾講及�戊件白伉弁玄卞
�𡛟仄凶它尼奶玄匹笭心葆仃凶
巨永斥匹弘仿白毛�傖允月
2. 杻釾講毛弘仿白及棒杅ㄗ�萸卞諉允
月巨永斥及笭心及駙睿ㄘ匹蔥�卞
末奈玄
3. �唗勿仃日木凶杻釾講毛公木冗木
復庲仄﹜暫湔及田件玉伙卞失扔奶件
允月井陔仄中田件玉伙毛�傖允月

Greedy Bundling卞勾中化
♂ ��及ゴ卞隙允分仃匹方仁﹜�呾戊旦玄反O(#feature^2).
↙ 杻釾講互杅啃勀幻升卞卅月午抻坰戊旦玄反井井月
♂ �唗葆仃及失伙打伉朮丞午仄化﹜弘仿白毛田件玉伙允月及匹卅仁﹜�g卞準未伕猁匼匹
末奈玄允木壬謎中午中丹﹜方曰efficient卅失伙打伉朮丞毛枑偶ㄝ

Algorithm Description(B)
♂ 杻釾講毛奻忒仁肮元田件玉伙卞穴奈斥允月源楊互斛猁
↙ 勾引曰﹜杻釾講及田件玉伙井日啋及杻釾講及�毛舑�e匹五月仇午毛悵偩仄卅中午
中仃卅中
♂ Histogram-based algorithm毛妸蚚仄化中月及匹齬坻腔杻釾講毛�卅月申件卞⻌木
月仇午匹田件玉伙毛�傖褫夔ㄝ
瞰:
feature.A [0 ,10)
feature.B [0, 20)
feature.A [0 ,10)
feature.B [10, 30)
Bundle(A +B) [0 ,30)
B卞+10 引午戶月

♂ ゴ矢奈斥及瞰毛珨啜趙仄凶
失伙打伉朮丞互Alg.4

Experiments
♂ 5勾及Public卞⻌忒褫夔卅犯奈正本永玄卞勾中化忒楊毛掀廌
♂ 犯奈正本永玄及��反狟�. 奻2勾反One-hot encoding毛仄凶旦由奈旦卅杻釾講互
渺升卅犯奈正本永玄卅及卞�仄﹜狟ㄡ勾反dense卅杻釾講午sparse卅杻釾講互髦
婓ㄝ

Overall Comparison
♂ 妏蚚忒楊反
1. xgb_eta (XGBoost + Pre-sorted algoritgm)
2. xgb_his (XGBoost + Histogram-based algorithm)
3. lgb_baseline (LGBM井日GOSS午EFB毛㠙中凶手及)
4. lgb_baseline + EFB
5. LightGBM

Overall Time Cost Comparison
♂ lgb_baseline午EFB_Only及掀廌毛�化手﹜EFB反旦由奈旦犯奈正卞反湮五卅�彆
丐曰(LETOR反dense卅及匹今幻升劐歹日內)
♂ KDD犯奈正及方丹卅湮�耀犯奈正匹反GOSS互杻卞�彆丐曰
out of memory

Overall Accuracy Comparison
♂ xgb午掀廌仄化手公仇引匹儕僅反劐歹日內
＃ EFB支GOSS互儕僅�趙卞�互月仇午反幻廿卅中

Analysis on GOSS
♂ 扔件皿伉件弘掀薹毛劐尹凶媆及SGB午GOSS及掀廌.
↙SGB方曰GOSS及源互中中(SGB反overall扔件皿伉件弘及掀薹及偞隅仄井匹五卅仁
化GOSS反a,b及�毛捼淕匹五月及匹絞凶曰ゴ卅𠸎反允月互...)

LightGBM及由仿丟奈正
♂ LightGBM及由仿丟奈正及伉旦玄
https://github.com/Microsoft/LightGBM/blob/master/docs/Parameters.rst
♂ 公手公手犯白巧分午goss元扎卅井勻凶曰允月

LightGBM及由仿丟奈正
♂ 䒑及扔奶朮毛翋卞捼淕允月(max_depth手偞隅褫夔)
♂ 市氾打伉劐杅及靡ゴ毛硌隅仄化丐仆月仇午匹One-Hot Encoding卅仄匹龰曰㜳中互褫
夔(One-hot encoding允月午1/10仁日中綈仁卅月井日支月卅午升仇井卞丐勻凶反內)

LightGBM及由仿丟奈正民亙奈瓦件弘
♂ LightGBM及由仿丟奈正民亙奈瓦件弘尨坭
扔奶玄
https://lightgbm.readthedocs.io/en/
latest/Parameters-Tuning.html

conclusion
♂ GOSS + EFB + GBDT 及陔失伙打伉朮丞及枑偶
♂ 丟乒伉秏愐午�呾媆嶲毛�腔卞眚尹勾勾﹜𣶹懂忒楊午肮脹及儕僅鋤厥毛
sparse/dense 犯奈正匹復庲
♂ 引凶﹜XGBoost匹反OOM卞卅月方丹卅扔奶朮及犯奈正匹手�呾褫夔

Reference
1. Ke, Guolin, et al. "Lightgbm: A highly efficient gradient boosting decision tree." Advances in Neural Information
Processing Systems. 2017.
2. Chen, Tianqi, and Carlos Guestrin. "Xgboost: A scalable tree boosting system." Proceedings of the 22nd acm sigkdd
international conference on knowledge discovery and data mining. ACM, 2016.
3. Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. The elements of statistical learning. Vol. 1. No. 10. New York,
NY, USA:: Springer series in statistics, 2001.
4. Friedman, Jerome H. "Greedy function approximation: a gradient boosting machine." Annals of statistics (2001):
1189-1232.

端端舝

LightGBM: a highly efficient gradient boosting decision tree

More Related Content

LightGBM: a highly efficient gradient boosting decision tree