狠狠撸

狠狠撸Share a Scribd company logo
BERTを理解するための
TRANSFORMER 雰囲気理解
◎_gucciiiii
2019/05/23
Transformerとは?
? 系列変換モデルの一種
?入力も出力も時系列データとなるモデル
? エンコーダ + デコーダの構造
? Seq2Seqとかがその例
? 再帰や畳み込みを一切使わないモデル
? 並列処理ができ,学習の高速化を実現
? 話題のBERTで活用されているモデル
2
論文情報
? 論文名: Attention Is All You Need
? 要するに「必要なのはAttentionだけ」
? 著者: A. Vaswani et al. (Google Brain)
? 出典: NIPS 2017
3
本スライドの構成
雰囲気中速(爆速?♂?)理解を図るために,
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
という流れで見ていきます.
4
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
5
1. NLPにおけるNNの
歴史的経緯
6
1. NLPにおけるNNの歴史的経緯①
? 系列変換モデルは再帰ニューラルネットに
依存してきた
? 再帰は並列計算を妨げる
? 対症療法の考案:
? Factorization Trick [1]やConditional Computation [2]
直接解決しているわけではない!
7
1. https://arxiv.org/abs/1703.10722
2. https://arxiv.org/abs/1511.06297
3. (image) https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_intro/
1. NLPにおけるNNの歴史的経緯②
? 系列変換モデルではCNNも代替的に使われて
きた
? 計算を並列化できるため
? 距離に応じた依存関係の計算コストがかかる
? ConvS2S: O(n), ByteNet: O(log n)
長文だと大域的な依存関係をつかみにくい!
8
* より広い文脈を考慮できれば,より広い単語間の関係性が見られるメリット
1. NLPにおけるNNの歴史的経緯③
? 再帰系モデルは並列計算を妨げる
? 畳み込み系は大域的な依存関係を計算する
コストが高い
? 再帰も畳み込みを用いない,並列OK & 計
算コストが少なく済むモデルが欲しい
9
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
10
2. ATTENTION
1. Attentionとは?
2. Attentionのバリエーション
3. Self Attentionとは?
4. Attentionの利点?欠点
11
2. Attention①
? そもそもAttentionとは?
? 距離に関係なく依存関係をモデリングできる手法
? 系列変換モデルやエンコーダモデルにも適用される
? 注意機構とも呼ばれる
12
「どの単語にどの程度注意を払うべきか?」
Image: https://www.quora.com/How-does-an-attention-
mechanism-work-in-deep-learning
2. Attention②
? Attentionの重み計算方法による分類
1. Additive Attention(加法注意)
2. Dot-Product Attention(内積注意)
13
重みつき
線形和
* 図ではhについてtではなくt-1が参照さ
れている
2. Attention③
? Attentionの重み計算方法による分類
14
ここの求め方!
? 内積注意
? 「時刻tのデコーダの隠れ
層の状態と,位置sでのエ
ンコーダの隠れ層の状態」
との内積
? 加法注意
? 隠れ層を1層設けて計算
? が となるパ
ターンが2つくらいある
*Attentionの重み計算手法は色々とありすぎるので,深く考える必要なし?
2. Attention④
? Self Attention
(自己注意)
? エンコーダモデ
ルで使われる特徴
量抽出機構
? 計算方法は普通
のAttentionとほぼ
同じ
15
image: https://arxiv.org/abs/1703.03130
2. Attention⑤
? Key-Value Attention
? 隠れ層を「Key + Value」に分けて考える
? モデルの表現力が向上
16
* 計算上は,key=valueとして扱うことが多い
Image: https://medium.com/@bgg/seq2seq-pay-attention-to-self-attention-part-2-cf81bf32c73d
2. Attention⑥
? Attentionの利点
? 位置に関わらず依存関係をO(1)で捉えられる
? LSTMやGRU等は長期記憶に弱い
? Attentionの欠点
? スコアの重み計算コストが通常O(n^2)以上になる
? Attentionはあくまでもモデルの補助的な役割
? CNNベースのモデルも計算量の問題あり
Attentionだけでモデルを作れば良いのでは?
17
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
18
3. TRANSFORMERの概要
モデルの概要と
BERTでの使われ方について
19
3. Transformerの概要①
? Seq2Seqと同じ枠組み
? スタック型自己注意 + 位
置ごとのFFNからなる
? BERTはエンコーダ部分
を活用している
? 本発表ではデコーダ部分
は無視
20
Image: https://arxiv.org/abs/1706.03762
N=6
3. Transformerの概要②
? エンコーダ部は以下からなる
1. 入力埋め込み
2. 位置エンコーディング
3. Multi-Head Attention
4. 残差接続の加算 & 層正規化
5. 位置ごとのFFN
6. 残差接続の加算 & 層正規化
21
3. Transformerの概要②
? エンコーダ部は以下からなる
1. 入力埋め込み
2. 位置エンコーディング
3. Multi-Head Attention
4. 残差接続の加算 & 層正規化
5. 位置ごとのFFN
6. 残差接続の加算 & 層正規化
22
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
23
4. TRANSFORMERのキモ
1. スケール化内積注意
2. Multi-Head Attention
3. 位置エンコーディング
24
4. Transformerのキモ①
? スケール化内積注意
? 隠れ層の次元が大きくなると,内積が大きく
なる
? 勾配が小さくなり,学習が進まない
? スコアを で除算してあげることで解決
25
4. Transformerのキモ②
? Multi-Head Attention
? Attentionを複数に分割して計
算
? CNNでチャンネル数を増やす
ノリと同じ?
? モデルの表現力が増す
26
Image: https://arxiv.org/abs/1706.03762
4. Transformerのキモ③
? 位置エンコー
ディング
? Transformer単体
では時系列を考慮
できない
? 畳み込みや再帰
を使っていないた
め
? 正弦波を入力の
埋め込みベクトル
に足し合わせるこ
とで解決!
27
モデルの次元: d_model
入力トークンの位置
3. Transformerのキモ④
? エンコーダ部の流れを再確認
1. 入力埋め込み
2. 位置エンコーディング
3. Multi-Head Attention
4. 残差接続の加算 & 層正規化
?
5. 位置ごとのFFN
?
6. 残差接続の加算 & 層正規化
28
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
29
5. 実験結果
1. 計算コスト比較
2. 翻訳性能比較
30
5. 実験結果① 計算コスト比較
? Self Attentionが優れている: n < dのとき
31
層あたり計算量
逐次処理を最小限にする
並列可能な計算量
依存関係の最大経路長計算コスト
RecurrentとConvの算出方法がいまいちわからん?(誰か教えて)
5. 実験結果② 翻訳性能比較
? BLEUスコア
? 機械翻訳の自動評価指標.高いほどよい.
? Transformerは計算コストが小さい上に,高い性
能を出せている.
32
まとめ
33
まとめ
? TransformerはAttention + もろもろで作ら
れた系列変換モデル
? Positional Encoding
? 位置ごとのフィードフォワード
? 計算量が少ない?高性能なモデル
? BERTはエンコーダ部分を活用している
34
付録: Position-wise FFN
? 位置ごとに全結合層に自己注意の出力ベクトルを
渡す
? 単に特徴量を抽出 & 磨くため?
35
image: https://jalammar.github.io/illustrated-transformer/
付録:層正規化
36
? 層正規化は「チャンネル方向」に正規化処
理を行う
? バッチ正規化は,「バッチ方向」に正規
化処理を行う
image: https://arxiv.org/abs/1803.08494
付録: BLEUスコア
? Bilingual Evaluation Understudyの略
? スコアが高いほど自然な翻訳
37
? BP: brevity Penalty
翻訳文が短文のとき,
その文についてペナル
ティを課す
? Nグラム精度
翻訳文とコーパスの参
照文がどれだけ一致し
ているか

More Related Content

What's hot (20)

PPTX
摆顿尝轮読会闭相互情报量最大化による表现学习
Deep Learning JP
?
PPTX
モデル高速化百选
Yusuke Uchida
?
PPTX
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
Deep Learning JP
?
PDF
SSII2022 [TS1] Transformerの最前線? 畳込みニューラルネットワークの先へ ?
SSII
?
PDF
贰尝叠翱型痴础贰のダメなところ
KCS Keio Computer Society
?
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
?
PDF
「世界モデル」と関连研究について
Masahiro Suzuki
?
PDF
翱辫迟颈尘颈锄别谤入门&最新动向
Motokawa Tetsuya
?
PDF
ICCV 2019 論文紹介 (26 papers)
Hideki Okada
?
PDF
Transformer メタサーベイ
cvpaper. challenge
?
PDF
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
Preferred Networks
?
PDF
【メタサーベイ】数式ドリブン教师あり学习
cvpaper. challenge
?
PDF
颁痴分野におけるサーベイ方法
Hirokatsu Kataoka
?
PDF
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
Sho Takase
?
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
?
PDF
Layer Normalization@NIPS+読み会?関西
Keigo Nishida
?
PPTX
強化学習 DQNからPPOまで
harmonylab
?
PPTX
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
Deep Learning JP
?
PDF
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
?
摆顿尝轮読会闭相互情报量最大化による表现学习
Deep Learning JP
?
モデル高速化百选
Yusuke Uchida
?
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
Deep Learning JP
?
SSII2022 [TS1] Transformerの最前線? 畳込みニューラルネットワークの先へ ?
SSII
?
贰尝叠翱型痴础贰のダメなところ
KCS Keio Computer Society
?
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
?
「世界モデル」と関连研究について
Masahiro Suzuki
?
翱辫迟颈尘颈锄别谤入门&最新动向
Motokawa Tetsuya
?
ICCV 2019 論文紹介 (26 papers)
Hideki Okada
?
Transformer メタサーベイ
cvpaper. challenge
?
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
Preferred Networks
?
【メタサーベイ】数式ドリブン教师あり学习
cvpaper. challenge
?
颁痴分野におけるサーベイ方法
Hirokatsu Kataoka
?
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
Sho Takase
?
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
?
Layer Normalization@NIPS+読み会?関西
Keigo Nishida
?
強化学習 DQNからPPOまで
harmonylab
?
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
Deep Learning JP
?
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
?

Similar to 罢谤补苍蝉蹿辞谤尘别谤を雰囲気で理解する (20)

PDF
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
?
PDF
NLP若手の回 ACL2012参加報告
Hiroyuki TOKUNAGA
?
PDF
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
?
PDF
Non-autoregressive text generation
nlab_utokyo
?
PDF
第9回础颁搁颈ウェビナー冲日立/岛田様ご讲演资料
直久 住川
?
PDF
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
?
PDF
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
?
PDF
論文紹介 Star-Transformer (NAACL 2019)
広樹 本間
?
PDF
2020 03 05_mar_revenshtein_transformer_tmu_homma
広樹 本間
?
PDF
Janog37 Pattern BoF
Miya Kohno
?
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
?
PPTX
プログラマ人生论
ymmt
?
PPTX
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
Deep Learning JP
?
PPTX
NLPにおけるAttention~Seq2Seq から BERTまで~
Takuya Ono
?
PDF
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
T T
?
PDF
Extract and edit
禎晃 山崎
?
PDF
Spock's world
Takuma Watabiki
?
PDF
時系列解析の使い方 - TokyoWebMining #17
horihorio
?
PDF
リテラル文字列型までの道
Satoshi Sato
?
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
?
NLP若手の回 ACL2012参加報告
Hiroyuki TOKUNAGA
?
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
?
Non-autoregressive text generation
nlab_utokyo
?
第9回础颁搁颈ウェビナー冲日立/岛田様ご讲演资料
直久 住川
?
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
?
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
?
論文紹介 Star-Transformer (NAACL 2019)
広樹 本間
?
2020 03 05_mar_revenshtein_transformer_tmu_homma
広樹 本間
?
Janog37 Pattern BoF
Miya Kohno
?
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
?
プログラマ人生论
ymmt
?
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
Deep Learning JP
?
NLPにおけるAttention~Seq2Seq から BERTまで~
Takuya Ono
?
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
T T
?
Extract and edit
禎晃 山崎
?
Spock's world
Takuma Watabiki
?
時系列解析の使い方 - TokyoWebMining #17
horihorio
?
リテラル文字列型までの道
Satoshi Sato
?
Ad

Recently uploaded (13)

PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
PDF
第3回デジタル理学疗法研究会学术大会シンポジウム「デジタル理学疗法の组织活用:教育?管理?研究を繋ぐ新たな地平」の讲演资料.
Matsushita Laboratory
?
PDF
AIツールを使った研究の効率化 Improving Research Efficiency with AI Tools
Tohoku University
?
PDF
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
PDF
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2025_報告会資料_渡辺さ...
IGDA Japan SIG-Audio
?
PDF
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2024_報告会資料_増野さ...
IGDA Japan SIG-Audio
?
PDF
渔船に搭载されている电子装备と渔法について冲痴搁颁海洋学研究会冲海の尝罢会発表资料
Yuuitirou528 default
?
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
PDF
API認可を支えるKeycloakの基本と設計の考え方 ~ OAuth/OIDCによるAPI保護のベストプラクティス ~
Hitachi, Ltd. OSS Solution Center.
?
PDF
第3回テ?シ?タル理学疗法学会のシンポジウム「デジタル理学疗法の组织活用:教育?管理?研究を繋ぐ新たな地平」での话题提供
Matsushita Laboratory
?
PDF
マルチAIエージェントの産業界での実践に向けたオープンソース活動の展望 - Japan Regional User Group (RUG) Meet-Up
Kosaku Kimura
?
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
第3回デジタル理学疗法研究会学术大会シンポジウム「デジタル理学疗法の组织活用:教育?管理?研究を繋ぐ新たな地平」の讲演资料.
Matsushita Laboratory
?
AIツールを使った研究の効率化 Improving Research Efficiency with AI Tools
Tohoku University
?
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2025_報告会資料_渡辺さ...
IGDA Japan SIG-Audio
?
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2024_報告会資料_増野さ...
IGDA Japan SIG-Audio
?
渔船に搭载されている电子装备と渔法について冲痴搁颁海洋学研究会冲海の尝罢会発表资料
Yuuitirou528 default
?
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
API認可を支えるKeycloakの基本と設計の考え方 ~ OAuth/OIDCによるAPI保護のベストプラクティス ~
Hitachi, Ltd. OSS Solution Center.
?
第3回テ?シ?タル理学疗法学会のシンポジウム「デジタル理学疗法の组织活用:教育?管理?研究を繋ぐ新たな地平」での话题提供
Matsushita Laboratory
?
マルチAIエージェントの産業界での実践に向けたオープンソース活動の展望 - Japan Regional User Group (RUG) Meet-Up
Kosaku Kimura
?
Ad

罢谤补苍蝉蹿辞谤尘别谤を雰囲気で理解する

Editor's Notes

  • #9: 距离でスケールしてしまう
  • #15: わかりやすいAttention written in PyTorch: https://github.com/spro/practical-pytorch/blob/master/seq2seq-translation/seq2seq-translation.ipynb 詳しくは勉強会で後々やると思います