狠狠撸

狠狠撸Share a Scribd company logo
TransPose: Towards Explainable
Human Pose Estimation by
Transformer
第6回 全日本コンピュータビジョン勉強会
Transformer 読み会
2021/04/18
@yasutomo57jp
https://yasutomo57jp.github.io
自己紹介
? 名前:川西康友
? 所属:理化学研究所
ガーディアンロボットプロジェクト
感覚データ認識研究チーム
? 職場:ATR(けいはんな学研都市)
心を感じられるロボット実現のため,
ロボットによる周囲環境の認識
人の意図や行動の認識
に関する研究を行っています
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
2
ここ
研究員や博士課程の学生など
一緒に研究してくれる人を
絶賛募集しています!
TransPose: Towards Explainable
Human Pose Estimation by
Transformer
第6回 全日本コンピュータビジョン勉強会
Transformer 読み会
2021/04/18
@yasutomo57jp
https://yasutomo57jp.github.io
概要
? Transformerを使った姿勢推定器の提案
? 人体構造の推定問題へのTransformerの初応用
? ヒートマップの可視化による説明性
? 73%少ないパラメータで1.4倍高速
? 書誌情報
? 著者:Sen Yang et al. (東南大学)
? arXiv: https://arxiv.org/abs/2012.14214
? Github: https://github.com/yangsenius/TransPose
? Pytorch hub形式でもモデル配布
? タイトルのノリだけで選びました
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
4
研究の背景
? 画像からの人物姿勢推定
? CNNによる人物姿勢推定が主流
? CNNによる人物姿勢推定の辛いところ
? 各層が何をしているのか良くわからない
? 特徴マップのActivationを見ても,空間中の相互関係はわからない
? 畳み込み層のパラメータ(固定)では表現に限界がある
? 画像認識や物体検出のような可視化手法が確立されていない
? この研究
? 説明性のあるモデル
? 画像内の関連を可視化
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
5
関連研究
? 説明性
? CNNのクラス分類器の分類を説明したり可視化したりするもの
? Network Dissection, Feature Visualization, Excitation Backprop,
LRP, CAM, Grad-CAM
? 姿勢推定での事例は少ない
? 姿勢推定
? CNNベースの姿勢推定器
? CPM, Stacked Hourglass Network, FPN, CPN, Simple Baseline, HRNet, RSN
? 基本は,バックボーンで特徴をとって,
畳み込み層を重ねて特徴点ヒートマップを推定する
? Transformer
? もうご存知ですよね
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
6
提案手法
? 姿勢推定問題にTransformerのEncoderを導入
? Self Attentionを可視化することで,画素間の関係を確認
? Positional Encoderに工夫
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
7
実際のモデルを見ると,この接続もありそう
特に言及されていないけどTop-down姿勢推定器です
※図は論文より引用
補足:姿勢推定
? Top-down 姿勢推定器
? 人物検出をしたうえで,人物の矩形内で各関節位置を推定する手法
? Stacked Hourglass Network, CPN, SimpleBaselineなど
? 人物サイズが正規化されるため,大きさの変化に比較的頑健
? Bottom-up 姿勢推定器
? 人物を区別せずに関節候補点を求め,人物ごとにまとめる手法
? OpenPose, PersonLab , PifPafなど
? 人数が増えても速度低下しにくい
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
8
CNNではなくTransformerを使うことのメリット
? 周囲(特に遠く)の情報をふまえた推定が容易
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
9
CNNは何段も必要 Transformerだと1発!!
※図は論文より引用
この論文でのTransformerの使い方
? Dチャネルの特徴マップの各画素をD次元ベクトルの単語とみなす
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
10
バックボーン 特徴マップ
入力画像 分割 Transformer
Encoder
W
H
D
D次元ベクトルが
WxH個
256x192
浅い
CNN
入力の1/4~1/8のサイズ
2次元のPositional Encoding
? 空間構造を学習するために特徴量に位置情報を埋め込む
? もとのTransformerでは文中の単語の位置に応じてsinやcosの値を足す
? 2D Sine position embedding
? 位置情報はx, y 軸で独立だと仮定し,独立に埋め込み
? Learnable position embedding
? どの位置にどんな値を埋め込むかを学習によって決定する
? (WxH)xDの行列の各要素の値を学習
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
12
+
+ 学習
Attentionとヒートマップの可視化
? Attention:QueryとKeyの積
? 特徴マップの画素数x画素数の行列
? Attentionの可視化
? Aのi行目を可視化
? その点の位置が,他の場所からどれだけ影響を受けているか
? Aのj行目を可視化
? その点の位置が,他の場所にどれだけ影響を与えているか
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
13
Q K
d
A
i番目からj番目への
影響度的なもの
WH
WH
WH
画像化
画像化
A
WH
WH V
d d
* Softmaxとか色々省略してます
出力 WH
それぞれ行列を掛けて,
Q, K, Vを作っておく
実験
? MS COCO Datasetを利用
? Train2017 150k人を含む57k枚の画像
? Val2017 5k枚の画像
? Test2017 20k枚の画像
? 評価指標:
? Average Precision (AP)
? OKSに対する閾値を0.50~0.95まで10段階変化させたときの正解率
? Object Keypoint Similarity (OKS)
? 関節点の類似度を表す指標
? 完全に一致していれば1になる
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
14
Position Embeddingの評価
? 学習するものより,2DのSine関数の方がAPが良かった
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
15
(何かおかしいような…パラメータ数は増えないはず?)
※表は論文より引用
他の手法との姿勢推定結果比較
? 高いAPを保ったまま,パラメータ数?計算量の削減を実現
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
16
精度をキープ
モデルサイズを削減 ※表は論文より引用
ヒートマップの可視化
? 各関節(星印の点)がどこから強く影響を受けているかを可視化
? 動きにくい点や反対側の点からの影響が強い傾向がある?
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
17
※図は論文より引用
まとめ
? Transformerを使った姿勢推定器の提案
? 人体構造の推定問題へのTransformerの初応用
? ヒートマップの可視化による説明性
? 73%少ないパラメータで1.4倍高速
? Transformerを使うことで
? 畳込みでは捉えられない離れた位置の関係を獲得
? 説明性は…
? 画素間の関係を捉えているだけでイマイチでは?
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
19
研究員や博士課程の学生など
一緒に研究してくれる人を
絶賛募集しています!
問い合わせは @yasutomo57jp 宛でも可
ロボットによる
環境認識や
人に関する認識
研究をしたい方
関連する論文
? TokenPose: Learning Keypoint Tokens for Human Pose Estimation
? 同じ著者が属するグループからのarXiv論文 (2021/04/09)
? Transformerに,Visual tokenだけでなく,Keypoint tokenを追加
? どの画素がどの関節点に効いているのかを可視化
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
20
この部分が追加されている
※図は論文より引用

More Related Content

TransPose: Towards Explainable Human Pose Estimation by Transformer