狠狠撸

??MATSUO INSTITUTE, INC.
DEEP LEARNING JP
[DL Papers]
マルチモーダル LLM
Takaomi Hasegawa
http://deeplearning.jp/

自己紹介
2
https://www.denso.com/jp/ja/driven-base/tech-design/robot/
DENSO オウンドメディア DRIVEN BASEより引用
車載部品メーカでトマトを収穫するロボットのAI画像認識の技術開発
松尾研でAIの社会実装

書誌情報 VideoChat
3
出典）
https://arxiv.org/abs/2305.06355
?タイトル
VideoChat
?著者
OpenGVLab(Generalized vision-based AI)
Shanghai AI Lab, 南京大学、香港大学、
深圳等
?概要
- End-to-Endのチャットベースのビデオ理解システム
- データセットも合わせて提案
- コードも公開

選定理由
4
?ChatGPTでLanguage-to-Languageが注目されているが、個
人的にマルチモーダル（特に画像）に興味があった
?GitHubのStarが2000以上と注目度が高い
https://github.com/OpenGVLab/Ask-Anything

関連発表
5
https://deeplearning.jp/%e3%83%9e%e3%83%ab%e3%83%81%e3%83%a2%e3%83%bc%e3%83%80%e3%
83%ab-%e5%9f%ba%e7%9b%a4%e3%83%a2%e3%83%87%e3%83%ab/
マルチモーダル基盤モデル（原田さん）
Visual ChatGPT（今井さん）
https://deeplearning.jp/visual-chatgpt-talking-drawing-and-editing-with-visual-foundation-models/
結構被ってました…
動画 + LLMは初めてということでご容赦を

システム構成
6
動画の解釈をし対話形式での回答が可能。既存のVoice-to-Text(Whisper), Image-to-Text(GRiT)といったAIとLLMを組み合わせたVideoChat-Textを改良し、
VideoEmbeddingを出力するVideoChat-Embedを開発。論文に書かれているのは主にVideoChat-Embedについて
GRiT(画像タグ付け）、Whisper（音声認識）、T5（文章要約）
といった既存のAIモデルを組み合わせて動画をテキスト化
動画を基盤モデルを使ってベクトル情報にしている
ffmpegで動画を画像に切り出し

ユーザーインターフェース
7
動画に対して質問すると回答が得られる。動画は1min以内（実際のサンプル動画はほとんど5秒?10秒）

VideoChatEmbed
VideoChat-Textだと時空間的な情報が抜け落ちてしまうので、アウトプットを言葉でなく特徴量を出力する基盤モデルを使用。
AlignmentとInstruction Tuningの2Stageに分けて学習をする。学習に関しては論文では詳しく触れていないが、それぞれのステージに対するデータセットの
作り方に関して記述あり。

データセット
既存のデータセットから、VideoChat-Text。つまり、既存のImage-to-Text, Audio-to-TextといったAIモデルとChatGPTを使ってデータセットを生成する。
WebVid-10Mという既存のデータセットから、VideoChat-Textを使って、以下2つの種類のデータセットを作成
?Detailed Video Descriptions
?Video Conversations

Detailed Video Descriptions
VideoChat-Textの出力に対して、ChatGPTの2段階のプロンプトを通す。1段目（Table3）は多彩なラベルを分かりやすいストーリーにする。
2段目（Table4）は、文章をリファインすることでハルシネーションを抑制する。
出力例
2段階のプロンプト

Video Conversations
3種類（descriptive, temporal, casual)のプロンプトを使うことで、動画に対する会話例を得る

まとめとFuture work
まとめとFuture workと所感
まとめ
以下の2つの手法を提案。VideoChat-Embedの方が時空間の推論と因果関係をよく表している
?VideoChat-Text：テキストベースバージョン
?VideoChat-Embed： end-to-endバージョン
Future work
以下3点
?モデルのスケール（大規模化）
?ベンチマーク
?長時間のビデオ対応
所感
?データセットChatGPTでつくっている点、プロンプトの工夫（2段階、3種類）は面白い（商用利用は不可？）
?長時間の動画は難しそう。すぐ実用化するとしたら、動画内を自然言語で検索（Appendix 1）して時間特定、他のトリガを使うとい
った工夫が必要そう
?言語というインターフェースの限界（情報量の低下）を感じた（Appendix 2）

Appendix 1：動画検索システム（Turing）
似たような構成で、動画の検索を実現

Appendix 2: 考察（妄想）今後の基盤モデルの入出力
LLM
言語言語人
音
映像
手触り
匂い
味
言語
身体制御
言語は抽象化された優れたインターフェースだが、言語に含められない情報によりLLMの限界がきている？？
将来のAIの最適な入出力は？人と同じ（ロボット）なのかそれ以外の形なのか？
未来のAI
？？

狠狠撸

【DL輪読会】マルチモーダル LLM

More Related Content

Similar to 【DL輪読会】マルチモーダル LLM (20)

More from Deep Learning JP (20)

Recently uploaded (9)

【DL輪読会】マルチモーダル LLM