狠狠撸

TransPose: Towards Explainable
Human Pose Estimation by
Transformer
第6回全日本コンピュータビジョン勉強会
Transformer 読み会
2021/04/18
@yasutomo57jp
https://yasutomo57jp.github.io

自己紹介
? 名前：川西康友
? 所属：理化学研究所
ガーディアンロボットプロジェクト
感覚データ認識研究チーム
? 職場：ATR（けいはんな学研都市）
心を感じられるロボット実現のため，
ロボットによる周囲環境の認識
人の意図や行動の認識
に関する研究を行っています
2021/4/18 第6回全日本コンピュータビジョン勉強会 Transformer読み会
2
ここ
研究員や博士課程の学生など
一緒に研究してくれる人を
絶賛募集しています！

概要
? Transformerを使った姿勢推定器の提案
? 人体構造の推定問題へのTransformerの初応用
? ヒートマップの可視化による説明性
? 73%少ないパラメータで1.4倍高速
? 書誌情報
? 著者：Sen Yang et al. （東南大学）
? arXiv: https://arxiv.org/abs/2012.14214
? Github: https://github.com/yangsenius/TransPose
? Pytorch hub形式でもモデル配布
? タイトルのノリだけで選びました
4

研究の背景
? 画像からの人物姿勢推定
? CNNによる人物姿勢推定が主流
? CNNによる人物姿勢推定の辛いところ
? 各層が何をしているのか良くわからない
? 特徴マップのActivationを見ても，空間中の相互関係はわからない
? 畳み込み層のパラメータ（固定）では表現に限界がある
? 画像認識や物体検出のような可視化手法が確立されていない
? この研究
? 説明性のあるモデル
? 画像内の関連を可視化
5

関連研究
? 説明性
? CNNのクラス分類器の分類を説明したり可視化したりするもの
? Network Dissection, Feature Visualization, Excitation Backprop,
LRP, CAM, Grad-CAM
? 姿勢推定での事例は少ない
? 姿勢推定
? CNNベースの姿勢推定器
? CPM, Stacked Hourglass Network, FPN, CPN, Simple Baseline, HRNet, RSN
? 基本は，バックボーンで特徴をとって，
畳み込み層を重ねて特徴点ヒートマップを推定する
? Transformer
? もうご存知ですよね
6

提案手法
? 姿勢推定問題にTransformerのEncoderを導入
? Self Attentionを可視化することで，画素間の関係を確認
? Positional Encoderに工夫
7
実際のモデルを見ると，この接続もありそう
特に言及されていないけどTop-down姿勢推定器です
※図は論文より引用

補足：姿勢推定
? Top-down 姿勢推定器
? 人物検出をしたうえで，人物の矩形内で各関節位置を推定する手法
? Stacked Hourglass Network, CPN, SimpleBaselineなど
? 人物サイズが正規化されるため，大きさの変化に比較的頑健
? Bottom-up 姿勢推定器
? 人物を区別せずに関節候補点を求め，人物ごとにまとめる手法
? OpenPose, PersonLab , PifPafなど
? 人数が増えても速度低下しにくい
8

CNNではなくTransformerを使うことのメリット
? 周囲（特に遠く）の情報をふまえた推定が容易
9
CNNは何段も必要 Transformerだと1発！！

この論文でのTransformerの使い方
? Dチャネルの特徴マップの各画素をD次元ベクトルの単語とみなす
10
バックボーン特徴マップ
入力画像分割 Transformer
Encoder
W
H
D
D次元ベクトルが
WxH個
256x192
浅い
CNN
入力の1/4～1/8のサイズ

2次元のPositional Encoding
? 空間構造を学習するために特徴量に位置情報を埋め込む
? もとのTransformerでは文中の単語の位置に応じてsinやcosの値を足す
? 2D Sine position embedding
? 位置情報はx, y 軸で独立だと仮定し，独立に埋め込み
? Learnable position embedding
? どの位置にどんな値を埋め込むかを学習によって決定する
? (WxH)xDの行列の各要素の値を学習
12
+
+ 学習

Attentionとヒートマップの可視化
? Attention：QueryとKeyの積
? 特徴マップの画素数x画素数の行列
? Attentionの可視化
? Aのi行目を可視化
? その点の位置が，他の場所からどれだけ影響を受けているか
? Aのj行目を可視化
? その点の位置が，他の場所にどれだけ影響を与えているか
13
Q K
d
A
i番目からj番目への
影響度的なもの
WH
WH
WH
画像化
画像化
A
WH
WH V
d d
* Softmaxとか色々省略してます
出力 WH
それぞれ行列を掛けて，
Q, K, Vを作っておく

実験
? MS COCO Datasetを利用
? Train2017 150k人を含む57k枚の画像
? Val2017 5k枚の画像
? Test2017 20k枚の画像
? 評価指標：
? Average Precision (AP)
? OKSに対する閾値を0.50～0.95まで10段階変化させたときの正解率
? Object Keypoint Similarity (OKS)
? 関節点の類似度を表す指標
? 完全に一致していれば1になる
14

Position Embeddingの評価
? 学習するものより，2DのSine関数の方がAPが良かった
15
（何かおかしいような…パラメータ数は増えないはず?）
※表は論文より引用

他の手法との姿勢推定結果比較
? 高いAPを保ったまま，パラメータ数?計算量の削減を実現
16
精度をキープ
モデルサイズを削減 ※表は論文より引用

ヒートマップの可視化
? 各関節（星印の点）がどこから強く影響を受けているかを可視化
? 動きにくい点や反対側の点からの影響が強い傾向がある？
17

まとめ
? Transformerを使った姿勢推定器の提案
? 人体構造の推定問題へのTransformerの初応用
? ヒートマップの可視化による説明性
? 73%少ないパラメータで1.4倍高速
? Transformerを使うことで
? 畳込みでは捉えられない離れた位置の関係を獲得
? 説明性は…
? 画素間の関係を捉えているだけでイマイチでは？
19
研究員や博士課程の学生など
一緒に研究してくれる人を
絶賛募集しています！
問い合わせは @yasutomo57jp 宛でも可
ロボットによる
環境認識や
人に関する認識
研究をしたい方

関連する論文
? TokenPose: Learning Keypoint Tokens for Human Pose Estimation
? 同じ著者が属するグループからのarXiv論文 (2021/04/09)
? Transformerに，Visual tokenだけでなく，Keypoint tokenを追加
? どの画素がどの関節点に効いているのかを可視化
20
この部分が追加されている

狠狠撸

TransPose: Towards Explainable Human Pose Estimation by Transformer

More Related Content

TransPose: Towards Explainable Human Pose Estimation by Transformer