狠狠撸

狠狠撸Share a Scribd company logo
T-DEED: Temporal-Discriminability
Enhancer Encoder-Decoder for Precise
Event Spotting in Sports Videos
大島慈温(名工大玉木研)
2024/11/19
Artur Xarles, Sergio Escalera, Thomas B. Moeslund, Albert Clapés, CVPRW2024
概要
?Event Spotting
? 動画内から特定のイベントが起こる
フレームを検出するタスク
? スポーツの映像解析や異常検知など
に応用
? 予測精度:秒単位
?Precise Event Spotting(PES)
? 予測精度:フレーム単位
?研究概要
? スポーツのように動きの素早い映像
中では1フレーム単位での検出の正確
性が重要
? 複数の時間スケールを活用する
アーキテクチャを用いることで高
い予測精度を実現
関連研究(Temporal Action Localization)
?Temporal Action Localization
(TAL)
? 映像中から特定のアクションを時間
的に特定
? ActionFormer [Zhang+, ECCV2022]など
ActionFormer [Zhang+, ECCV2022]
[Wang+, TPAMI2024]
Tridet [Shi+, CVPR2023]
関連研究(Action Spotting)
?Action Spotting(AS)
? 映像中から1つのキーフレームを用
いてアクションを表現
? スポーツ解析により適したタスク
? E2E-Spot [Hong+, ECCV2022] など
[Seweryn+, arXiv, 2023]
E2E-Spot [Hong+, ECCV2022]
提案手法
?概要
? エンコーダ?デコーダ型のend-to-endモデル
? スキップ接続を使用することで多様な時間スケールの情報を保持可能
提案手法
?Feature extractor
? RegNetY [Radosavovic+, CVPR2020]
? フレーム毎のトークンを生成
? 後半部分にGate-Shift-Fuse (GSF)
モジュール [Sudhakaran+, arXiv, 2022]
を組み込み,局所的な空間モデリ
ングを可能に
?Temporal discriminant encoder
? Self-attentionの代わりにSGPモ
ジュール [Shi+, CVPR2023]を採用
? Instant-levelでトークンの識別性
を向上 + Window-levelで複数の
受容野から時間情報を取得
提案手法
?Temporal discriminant decoder
? SGPレイヤーを拡張し,異なる時間を持つ
2つの入力に対応(SGP-Mixer レイヤー)
? 1つ前のデコーダおよび,スキップ接続
による入力の2つ
? 異なる時間的コンテキストを捉えて両方
の特徴からの情報を集約
提案手法
?Prediction head
? Classification head
? クラス分類
? Displacement head
? イベントがそのフレームで発生す
るか周辺フレームで発生するかを
判断
?Training Loss
? クラス分類損失:??
? クロスエントロピー
? 変位損失:??
? 平均二乗誤差
実験設定
Hong+, ICCV2021
Xu+, CVPR2022
?データセット
? FigureSkating [Hong+, ICCV2021]
? FineDiving [Xu+, CVPR2022]
?評価指標
? mAP:? = 1, ? = 2
?学習設定
? 入力フレーム数:100
? バッチサイズ:8
? エポック数:50
? 学習率:8e-04
? オプティマイザー:AdamW
[Loshchilov&Hutter, arXiv, 2017]
? 特徴量抽出器
? RegNetY-200MFと800MF
FineDiving [Xu+, CVPR2022]
実験結果
?最先端手法との比較
? いずれのデータセットでも高い性能を発揮
? FineDivingでは従来手法を大きく上回る性能
Ablation Study
?トークンの識別性の向上
? Temporal Moduleを複数検討
? 提案手法で用いられるSGPが最も類
似度が低くなり,性能が向上
?複数の時間スケールの定義
? スキップ接続における多様なアプ
ローチを検討
? 提案手法で用いられるSGP-Mixerが
最も性能が高い
Ablation Study
?Displacement headの有無
? Displacement headありで性能向上
?Feature pyramids
? エンコーダ部のみを使用した場合の
結果(通常のTALのアプローチ)
? 層が増えるごとにmAPが低下
? デコーダ部の重要性
?Feature extractor
? バックボーンにGSM [Sudhakaran+,
CVPR2020], GSFを使った場合+後
半部分のみの場合の比較
? GSFを後半部分のみに適応した場
合が最も性能向上
Ablation Study
NeubeckVan Gool, ICPR06
Bodla+, ICCV2017
?Clip length
? 入力フレーム数:25,50,100,200の場合の比較
? ? =100の場合が最も性能が高い
?Postprocessing
? NMS [Neubeck&Van Gool, ICPR06]とSoftNMS
[Bodla+, ICCV2017] の比較
? SNMSを用いた場合の方が高い性能
まとめ
?スポーツ解析におけるEvent Spottingに関する研究
? エンコーダ?デコーダ型のend-to-endモデルを提唱
?最先端手法との比較で高い性能を発揮
? FigureSkating, FineDiving データセットで検証
補足
?Tridet [Shi+, CVPR2023] で提唱
されたSGPモジュール
? 各略称
? Layer Normalization (LN)
? Group Normalization (GN)
[Wu&He, ECCV2018]
? Feed forward network (FFN)
[Wu&He, ECCV2018] Tridet [Shi+, CVPR2023]
補足
?RegNet 構造図 ?GSF

More Related Content

論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in Sports Videos