端端舝

ML犯扒奶件由正奈件⻌嬡
2021/04/13
(2)Embeddings

3
Embeddings 引午戶
衙猁
詢中市奈犯奴瓜伉氾奴及犯奈正毛腴棒啋諾嶲卞扞荌允月蕣及�觳
�觳
1. 市氾打伉劐杅及市氾打伉奈杅互壩湮
2. ⻌薯杻釾講及嶲卞砩庤腔卅�侔俶互湔婓允月
賤𢜪源楊
♂ ⻌薯杻釾講毛腴棒啋及諾嶲卞迡砉允月源楊毛悝�允月
丟伉永玄
♂ 市奈犯奴瓜伉氾奴及詢中⻌薯杻釾講(One-Hot巨件戊奈犯奴件弘今木凶市氾打伉
市伙劐杅卅升)毛腴棒啋及灍杅矛弁玄伙匹㜳尹月
♂ ⻌薯杻釾講毛砩庤腔卅輪今毛手勻化㜳丹仇午互匹五月

4
Embeddings 引午戶
玄伊奈玉左白
♂ 鎚煋戈棒啋互腴棒啋卅幻升﹜詢市奈犯奴瓜伉氾奴井日痄俴允月蕣卞ロ�互囮歹木月
憝窣忒楊
♂ 諒呇卅仄匹鎚煋心毛悝炾允月插喝喧棗梗紳釵棗餃梗娶莽

5
珨啜腔卅矛弁玄伙趙及煾謹
瞰ㄩ"The cat sat on the mat"
1. 伐件石永玄?巨件戊奈犯奴件弘
示平乓皮仿伉及墿今卞脹仄中未伕矛弁玄伙毛釬曰﹜公及�g惤卞�𡛟允月
奶件犯永弁旦及�垀卞 1 毛蕾化月﹝都卞浩卅矛弁玄伙午卅月﹝
2. 公木冗木及�g惤毛交瓦奈弁卅杅�午仄化巨件戊奈玉允月
"cat" 卞 1﹜"mat" 卞 2﹜午中丹孔丹卞楓瘍毛賃曰絞化
瞰ㄩ"The cat sat on the mat" ↙ [5, 1, 4, 3, 5, 2] 午中丹躇卅矛弁玄伙匹桶六月﹝
仇及失皿伕奈民及 2勾及セ萸﹝
♂ �g惤嶲及中井卅月憝�S俶手漪引卅中
♂ 乒犯伙卞午勻化反賤�仄卞仁中﹝�倛煦�け反公木冗木及杻釾講卞勾中化�g珨及
笭心仄井悝�仄卅中﹝方勻化2勾及�g惤互侔化中月仇午午﹜公木日及巨件戊奈犯奴件弘互
侔化中月仇午及嶲卞反﹜卅氏及憝�S手卅中﹝
3. �g惤鎚煋心
侔凶方丹卅�g惤互侔凶方丹卅矛弁玄伙卞巨件戊奈玉今木月﹝仇及巨件戊奈犯奴件弘毛忒�匹俴丹斛猁互卅仁﹜
悝�匹腕日木月腹�苤杅萸杅及躇卅矛弁玄伙﹝

7
岈瞰
岈瞰1 堤汜杅犯奈正
plurality=肮媆堤汜杅
gestation weeks=㈱朾ヽ嶲
肮媆卞睡�堤宴仄凶井及犯奈正﹜邧赽分勻凶及井ʊ勾赽
分勻凶及井卅升毛�嶕
岈瞰2 申犯左��薩窃犯奈正
交奈扒ID﹜��仄凶申犯左及ID互丐月
ゴ隙��嶕井日伊戊丟件玉珨笊毛桶尨允月

8
one-hot encoding及�觳
�觳1 市氾打伉劐杅及市氾打伉奈杅互壩湮
辻迮悝�及�〝卅⻌薯犯奈正毛﹜��及恅犢卞丐丹方丹﹜砩庤及丐月
矛弁玄伙卞劐𡥼允月斛猁互丐月﹝公木卞方勻化乒犯伙及俶夔砃奻卞勾卅互月﹝
岈瞰2 申犯左��薩窃犯奈正
�諦ID支申犯左ID反壩湮卅杅午卅曰 one-hot 匹桶政允月午旦由奈旦卞卅曰乒犯伙及
儕僅互砃奻仄卅中﹝

9
one-hot encoding及�觳
�觳2 市氾打伉劐杅嶲互黃蕾匹劐杅嶲及輪今互桶政匹五化中卅中
岈瞰1 及one-hot encoding
Twins午Multiple及輪今反Twins午Triplets午肮元分互﹜
灍极反ゴ氪及源互輪中反內

10
賤𢜪
⻌薯杻釾講毛腴棒啋及矛弁玄伙卞劐𡥼允月鎚煋心𦵴毛袚樓允月
弁仿旦正伉件弘午PCA毛瞳蚚仄凶棒啋祅𦑩
鎚煋心及笭心悝�及ゴ卞棒啋祅𦑩毛俴丹斛猁丐曰
6棒啋井日2棒啋卞棒啋祅𦑩

11
恅梒犯奈正及鎚煋心
恅梒及�磁﹜示平乓皮仿伉及市奈犯奴瓜伉氾奴互籵都杅勀惤伊矛伙卞卅曰﹜
詢棒啋﹜旦由奈旦俴蹈互釬傖今木化仄引丹
∣
�侔仄凶�g惤反擒褩互輪中袨颷﹜剠憝�S卅�g惤反擒褩互罫中袨颷卞鎚煋戈斛猁丐曰
∣
乒犯伙卞傾允ゴ卞躇卅矛弁玄伙趙互斛猁
氾平旦玄鎚煋心及旦氾永皿
玄伊奈瓦件弘
戊奈由旦
跪�g惤及
玄奈弁件趙
躇卅鎚煋心
乒犯伙卞傾允
{1:§the§,2:§a§,3:§to§,4:§for§,...
}
跪�g惤毛奶件犯永弁旦卞穴
永皿允月伙永弁失永皿氾奈
皮伙

12
玄奈弁件趙毛Keras匹灍俴允月
keras.preprocessing.text 仿奶皮仿伉及 Tokenizer 弁仿旦毛妏蚚褫夔
from tensorflow.keras.preprocessing.text
import Tokenizer
tokenizer = Tokenizer()
tokenizer.fit_on_texts(titles_df.title)
tokenizer.index_word
{1: 'the',
2: 'a',
3: 'to',
4: 'for',
5: 'in',
6: 'of',
7: 'and',
..
Tokenizer.fit_on_texts
跪�g惤毛奶件犯永弁旦卞穴永皿允月伙永弁失永皿氾
奈皮伙互釬傖今木月
Tokenizer.index_word ㄩ伙永弁失永皿氾奈皮伙毛
眻諉捼屯月

13
扑奈弗件旦穴永皿汜傖
�g惤卞�𡛟允月玄奈弁件
及扑奈弗件旦卞穴永皿
汜傖
扑奈弗件旦汜傖白伕奈
padding �I燴
恅及郔湮墿卞鎚煋引木凶
玄奈弁件卞�𡛟允月
淕杅伉旦玄尺
目伙由奈憝杅
Tokenizer.texts_to_sequences
目伙由奈憝杅
pad_sequence

14
tokenizer = Tokenizer()
tokenizer.fit_on_texts(titles_df.title)
tokenizer.index_word
integerized_titles = tokenizer.texts_to_sequences(
titles_df.title)
VOCAB_SIZE = len(tokenizer.index_word)
MAX_LEN = max(len(sequence) for sequence in
integerized_titles)
from tensorflow.keras.preprocessing.sequence
import pad_sequences
def create_sequences(texts, max_len=MAX_LEN):
sequences = tokenizer.texts_to_sequences(texts)
padded_sequences = pad_sequences(sequences,
max_len,
padding='post')
return padded_sequences
VOCAB_SIZE
奶件犯永弁旦伙永弁失永皿氾奈皮伙及
猁匼杅
MAX_LEN
犯奈正本永玄囀及氾平旦玄恅趼蹈及郔湮墿

15
鎚煋𦵴
⻌薯棒啋ㄩVOCAB_SIZE + 1
堤薯棒啋ㄩ鎚煋仍及棒啋
氾平旦玄郔湮墿ㄩ[MAX_LEN]
伊奶乩奈𨃨�
ⅸ歙趙
lambda憝杅匹
矛弁玄伙毛ⅸ歙趙允月
Softmax 𦵴
model = models.Sequential([
layers.Embedding(
input_dim=VOCAB_SIZE + 1,
output_dim=embed_dim,
input_shape=[MAX_LEN]
),
layers.Lambda(
lambda x:tf.reduce_mean(x,axis=1)
),
layers.Dense(N_CLASSES, activation='softmax')
])

16
賒砉犯奈正及鎚煋心
賒砉鎚煋心及�磁﹜CNN及郔皺 softmax煦�け伊奶乩奈及忒ゴ匹⻌薯及杻釾矛弁玄伙毛喲堤匹五月
↙⻌薯賒砉及腴棒啋及鎚煋心
賒砉及氾平旦玄平乓皿扑亦件毛汜傖允月正旦弁
巨件戊奈母ㄩ賒砉↙賒砉及鎚煋心矛弁玄伙桶政毛悝�(Image2Vec)
犯戊奈母ㄩ賒砉及鎚煋心矛弁玄伙桶政↙平乓皿扑亦件汜傖毛悝�

17
鎚煋心𦵴及蕉舷
鎚煋心𦵴反﹜1勾及蕎木𦵴匹笭心反市奈犯奴瓜伉氾奴及詢中跪犯奴丟件扑亦件卞憝窣
葆仃日木﹜堤薯反生永玄伐奈弁及紹曰及窒煦毛籵綎允月
∣
鎚煋心𦵴及笭心反﹜坻及笭心午肮�卞郔摹蔥狟楊及皿伕本旦毛籵元化悝�允月
∣
鎚煋心互﹜悝�正旦弁匹杻釾�及郔手�薹腔卅腴棒啋桶政毛桶允
鎚煋心反郔皺腔卞乒犯伙卞瞳蚚允月分仃匹卅仁﹜鎚煋心赻极卞反嘐衄及��互丐曰﹜
犯奈正本永玄卞�允月袚樓及韌舷毛腕日木月
�侔俶?憝窣俶
杻釾講及伐件石永玄巨件戊奈犯奴件弘及囀搪卞方月�侔俶反未伕卞卅月﹜扽俶嶲及�侔俶
及衙癩反囮歹木月﹝灍蕣卞反仇木日反眈𡛟仄仁卅中﹝
岈瞰1 侐勾赽午拻勾赽及逃汜反﹜珨�勻赽及堤汜极笭午反�桽腔卞﹜緙�腔卞肮�及源楊匹
堤汜媆极笭卞荌�毛迵尹月褫夔俶互丐月﹝

18
鎚煋心𦵴及蕉舷
酘ㄩone-hot encoding 媆及�侔硌㻢衵ㄩ媼棒啋鎚戶煋心摽及�侔硌㻢
悝�今木凶鎚煋心卞方曰﹜�e〝及市氾打伉及杻釾嶲及�侔俶毛淏復卞隅講趙褫夔
岈瞰2
?鎚煋心毛�諦犯奈正本永玄卞羥蚚允月午﹜�侔仄凶�諦毛龰腕仄﹜�侔俶卞
價勿中化枑偶互褫夔
?今日卞﹜交奈扒奈午失奶氾丞及鎚煋心反﹜��e及辻迮悝�乒犯伙毛玄伊奈瓦件弘允月午五卞
坻及辻夔午瞎心磁歹六月仇午互匹五月
岈ゴ卞玄伊奈瓦件弘今木凶鎚煋心毛妏蚚允月ㄩ�痄悝�

19
玄伊奈玉左白
鎚戶煋心毛妏蚚允月�磁及翋卅玄伊奈玉左白反﹜犯奈正及桶政互𢖯卅歹木月仇午
詢市奈犯奴瓜伉氾奴桶政井日腴棒啋桶政尺及痄俴卞圈丹ロ�及𢖯囮互丐月
公及�殿曰午仄化﹜☆失奶氾丞及輪今★午☆戊件氾平旦玄卞憝允月ロ�★毛龰腕允月﹝

20
鎚煋心棒啋及腢亼卞憝允月磊歠�t
磊歠�t1ㄩ郔苤棒啋杅
珨砩及市氾打伉猁匼及駙杅及4�\跦
磊歠�t2ㄩ郔湮棒啋杅
珨砩及市氾打伉猁匼杅互600眕奻及�磁﹜鎚煋心棒啋反猁匼杅及ⅸ源跦及廣1.6捷
瞰ㄩ625�及珨砩及�毛厥勾杻釾講毛巨件戊奈玉允月�磁
磊歠�t1井日 625及4�\跦 = 5
磊歠�t2井日 625及ⅸ源跦??1.6 = 40
5眕奻40眕囀匹棒啋杅毛抻坰允月

21
Autoencoder
Autoencoder 反岈ゴ卞湮講及淏賤仿矛伙互祥猁卅�磁及失皿伕奈民
☆巨件戊奈母奈★𦵴﹜詢棒啋及⻌薯毛腴棒啋及鎚戶煋心𦵴卞穴永皿
☆犯戊奈母奈★反鎚煋心𦵴毛啋及詢棒啋及矛弁玄伙卞穴永皿
淏賤仿矛伙祥猁匹﹜⻌薯午堤薯互癹曰卅仁�侔允月方丹悝�

22
�婖趙犯奈正午TabNet
郔輪及旃噶ㄩ�婖趙犯奈正卞旮𦵴悝�撮胍毛羥蚚
TabNet反﹜桶倛宒及犯奈正井日悝�允月方丹卞偞�今木凶DNN
♂ 諒�卅仄匹玄伊奈瓦件弘褫夔
♂ 巨件戊奈母奈-犯戊奈母奈�婖毛厥勾方丹卞乒犯伙毛劐載允月仇午卞方曰﹜桶倛宒犯奈正及
左奈玄巨件戊奈母奈午仄化辻夔
By modifying the model to have an encoder-decoder structure, TabNet works as an autoencoder on
tabular data, which allows the model to learn embeddings from structured data via a feature
transformer.
github - tabnet
https://github.com/google-research/google-research/tree/master/tabnet
TabNet: Attentive Interpretable Tabular Learning
https://arxiv.org/pdf/1908.07442.pdf

23
戊件氾平旦玄晟惤乒犯伙
媼勾及戊件氾平旦玄晟惤乒犯伙
♂ Word2Vec
♂ BERT
Word2Vec
シ中瓦亙奈仿伙生永玄伐奈弁毛妏蚚仄化鎚戶煋心毛�慷仄﹜
氾平旦玄及湮�耀卅戊奈由旦卞羥蚚今木月2勾及忒楊
ㄗContinuous Bag of WordsㄗCBOWㄘ午旦平永皿弘仿丞乒犯伙ㄘ
毛瞎心磁歹六月
�I源及乒犯伙及醴㻢
⻌薯�g惤毛笢嶲鎚戶煋心𦵴毛妏蚚仄化正奈必永玄�g惤卞穴永疋件弘允月仇午卞方勻化
�g惤及戊件氾平旦玄毛悝�允月仇午
↙戊件氾平旦玄毛郔羥卞平乓皿民乓允月腴棒啋及鎚煋心毛悝�允月
☆word embeddigs capture semantic relationship★
悝�今木凶磐彆及�g惤鎚戶煋心(word embedding)反﹜
�g惤嶲及砩庤憝�S(context)毛參挍仄﹜矛弁玄伙桶政反砩庤及丐月擒褩午源砃俶毛手勾

24
BERT
穴旦弁今木凶晟惤乒犯伙午棒及恅及軑䛐毛妏蚚仄化玄伊奈瓦件弘今木月
♂ 穴旦弁今木凶晟惤乒犯伙
�g惤反氾平旦玄井日仿件母丞卞穴旦弁今木﹜乒犯伙反セ邈仄化中月�g惤互
睡匹丐月井毛芢䛐允月
♂ 棒及恅及軑䛐
啋及氾平旦玄匹2勾及恅互誑中卞適中化中月井升丹井毛乒犯伙互軑䛐允月煦�
正旦弁
∣
方勻化﹜氾平旦玄及戊奈由旦反允屯化﹜仿矛伙葆五犯奈正本永玄互羥允月
BERT反絞場﹜荎惤唳它奴平矢犯奴失午BooksCorpus及允屯化匹��灍囥
戊件氾平旦玄尺及甡湔
Word2Vec卞方曰悝�今木凶�g惤及鎚煋心反﹜�g惤互堤政允月恅卞憝�S卅仁肮元﹝
BERT卞方曰悝�今木凶�g惤及鎚煋心反contexual﹜撈切戊件氾平旦玄卞甡湔允月﹝
ˊ�g惤及妏蚚源楊及戊件氾平旦玄卞𡛟元化﹜鎚煋心矛弁玄伙互�卅月﹝

25
Word2Vec﹜NNLM﹜GLoVE﹜BERT卅升及岈ゴ��𦤦心
及氾平旦玄鎚戶煋心毛辻迮悝�乒犯伙卞袚樓仄化﹜
�婖趙今木凶⻌薯支﹜�諦支申犯左犯奈正本永玄井日
悝�仄凶公及坻及鎚戶煋心午瞎心磁歹六化氾平旦玄辻夔
毛�I燴匹五月
郔皺腔卞鎚煋心反﹜☆�隅今木凶��正旦弁卞憝窣
允月ロ�毛悵湔允月仇午★毛悝�
♂ 賒砉及平乓皿扑亦件汜傖及�磁
賒砉及猁匼及戊件氾平旦玄互氾平旦玄卞升及方丹卞
憝窣仄化中月井毛悝�
♂ 左奈玄巨件戊奈母失奈平氾弁民乓
仿矛伙反辻夔午肮元匹丐月凶戶﹜示玄伙生永弁及
棒啋祅𦑩反﹜笭猁卅手及及杻隅及戊件氾平旦玄卅仄
匹允屯化毛悝�

26
犯奈正它尼失甩它旦匹及準�婖趙犯奈正
�婖趙犯奈正及辻迮悝�反﹜犯奈正它尼失甩它旦及SQL匹眻諉灍俴允月及互郔羥
∣
♂ 犯奈正毛巨弁旦禾奈玄允月斛猁卅仁卅月
♂ 犯奈正及皿仿奶田扑奈午本平亙伉氾奴卞憝允月�觳互幏𦑩
凶分仄﹜灍蕣卞反�婖趙犯奈正卞�仄化
赻�晟惤及氾平旦玄引凶反賒砉犯奈正毛瞎心磁歹六月斛猁丐曰
♂ 赻�晟惤及氾平旦玄ㄗ伊申亙奈卅升ㄘ
蹈午仄化眻諉悵湔
♂ 賒砉
弁仿它玉旦玄伊奈斥田弗永玄囀及白央奶伙尺及URL午仄化悵湔
∣
氾平旦玄蹈引凶反賒砉及鎚戶煋心毛饜蹈倰午仄化袚樓悵湔允月
仇木卞方曰﹜準�婖趙犯奈正毛辻迮悝�乒犯伙卞��g卞瞎煋心互褫夔卞

27
TensorFlow Hub午 text-embeddings
TensorFlow Hub
https://tfhub.dev/
岈ゴ玄伊奈瓦件弘𦤦乒犯伙﹜戊奈由旦互鼠嶱今木化中月﹝
text-embedding 摩反仇及丐凶曰
https://tfhub.dev/s?module-type=text-embedding
tf2-preview/gnews-swivel-20dim
https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1
Token based text embedding trained on English Google News 130GB corpus.
氾平旦玄鎚煋心毛BigQuery匹掂心煋心褫夔﹜扔件皿伙互鼠嶱今木化中月
https://github.com/GoogleCloudPlatform/ml-design-
patterns/blob/master/02_data_representation/text_embeddings.ipynb
氾平旦玄及�侔俶 or 玉平亙丟件玄及弁仿旦正伉件弘及凶戶及鎚煋心妏蚚瞰
https://towardsdatascience.com/how-to-do-text-similarity-search-and-document-clustering-in-
bigquery-75eb8f45ab65

28
TensorFlow Hubㄩtext-embedding及瞳蚚瞰
旦氾永皿1 乒犯伙掂心煋心
%%bigquery
CREATE OR REPLACE MODEL advdata.swivel_text_embed
OPTIONS(model_type='tensorflow', model_path='gs://ai-analytics-solutions-kfpdemo/swivel/*')
旦氾永皿2 乒犯伙毛妏蚚仄化赻�晟惤及氾平旦玄蹈毛鎚戶煋心饜蹈卞劐𡥼仄﹜
鎚戶煋心伙永弁失永皿毛陔仄中氾奈皮伙卞跡慮
%%bigquery
CREATE OR REPLACE TABLE advdata.comments_embedding AS
SELECT
output_0 as comments_embedding,
comments
FROM ML.PREDICT(MODEL advdata.swivel_text_embed,(
SELECT comments, LOWER(comments) AS sentences
FROM `bigquery-public-data.noaa_preliminary_severe_storms.wind_reports`
))

端端舝

紼郭犯扒奶件由正奈件⻌藷喳楚鳥莉梗餃餃勳紳眶莽

More Related Content

紼郭犯扒奶件由正奈件⻌藷喳楚鳥莉梗餃餃勳紳眶莽