狠狠撸

狠狠撸Share a Scribd company logo
5
Most read
6
Most read
9
Most read
??MATSUO INSTITUTE, INC.
DEEP LEARNING JP
[DL Papers]
マルチモーダル LLM
Takaomi Hasegawa
http://deeplearning.jp/
??MATSUO INSTITUTE, INC.
自己紹介
2
https://www.denso.com/jp/ja/driven-base/tech-design/robot/
DENSO オウンドメディア DRIVEN BASEより引用
車載部品メーカでトマトを収穫するロボットのAI画像認識の技術開発
松尾研でAIの社会実装
??MATSUO INSTITUTE, INC.
書誌情報 VideoChat
3
出典)
https://arxiv.org/abs/2305.06355
?タイトル
VideoChat
?著者
OpenGVLab(Generalized vision-based AI)
Shanghai AI Lab, 南京大学、香港大学、
深圳等
?概要
- End-to-Endのチャットベースのビデオ理解システム
- データセットも合わせて提案
- コードも公開
??MATSUO INSTITUTE, INC.
選定理由
4
?ChatGPTでLanguage-to-Languageが注目されているが、個
人的にマルチモーダル(特に画像)に興味があった
?GitHubのStarが2000以上と注目度が高い
https://github.com/OpenGVLab/Ask-Anything
??MATSUO INSTITUTE, INC.
関連発表
5
https://deeplearning.jp/%e3%83%9e%e3%83%ab%e3%83%81%e3%83%a2%e3%83%bc%e3%83%80%e3%
83%ab-%e5%9f%ba%e7%9b%a4%e3%83%a2%e3%83%87%e3%83%ab/
マルチモーダル 基盤モデル(原田さん)
Visual ChatGPT(今井さん)
https://deeplearning.jp/visual-chatgpt-talking-drawing-and-editing-with-visual-foundation-models/
結構被ってました…
動画 + LLMは初めてということでご容赦を
??MATSUO INSTITUTE, INC.
システム構成
6
動画の解釈をし対話形式での回答が可能。既存のVoice-to-Text(Whisper), Image-to-Text(GRiT)といったAIとLLMを組み合わせたVideoChat-Textを改良し、
VideoEmbeddingを出力するVideoChat-Embedを開発。論文に書かれているのは主にVideoChat-Embedについて
GRiT(画像タグ付け)、Whisper(音声認識)、T5(文章要約)
といった既存のAIモデルを組み合わせて動画をテキスト化
動画を基盤モデルを使ってベクトル情報にしている
ffmpegで動画を画像に切り出し
??MATSUO INSTITUTE, INC.
ユーザーインターフェース
7
動画に対して質問すると回答が得られる。動画は1min以内(実際のサンプル動画はほとんど5秒?10秒)
??MATSUO INSTITUTE, INC.
VideoChatEmbed
VideoChat-Textだと時空間的な情報が抜け落ちてしまうので、アウトプットを言葉でなく特徴量を出力する基盤モデルを使用。
AlignmentとInstruction Tuningの2Stageに分けて学習をする。学習に関しては論文では詳しく触れていないが、それぞれのステージに対するデータセットの
作り方に関して記述あり。
??MATSUO INSTITUTE, INC.
データセット
既存のデータセットから、VideoChat-Text。つまり、既存のImage-to-Text, Audio-to-TextといったAIモデルとChatGPTを使ってデータセットを生成する。
WebVid-10Mという既存のデータセットから、VideoChat-Textを使って、以下2つの種類のデータセットを作成
?Detailed Video Descriptions
?Video Conversations
??MATSUO INSTITUTE, INC.
Detailed Video Descriptions
VideoChat-Textの出力に対して、ChatGPTの2段階のプロンプトを通す。1段目(Table3)は多彩なラベルを分かりやすいストーリーにする。
2段目(Table4)は、文章をリファインすることでハルシネーションを抑制する。
出力例
2段階のプロンプト
??MATSUO INSTITUTE, INC.
Video Conversations
3種類(descriptive, temporal, casual)のプロンプトを使うことで、動画に対する会話例を得る
??MATSUO INSTITUTE, INC.
まとめとFuture work
まとめとFuture workと所感
まとめ
以下の2つの手法を提案。VideoChat-Embedの方が時空間の推論と因果関係をよく表している
?VideoChat-Text:テキストベースバージョン
?VideoChat-Embed: end-to-endバージョン
Future work
以下3点
?モデルのスケール(大規模化)
?ベンチマーク
?長時間のビデオ対応
所感
?データセットChatGPTでつくっている点、プロンプトの工夫(2段階、3種類)は面白い(商用利用は不可?)
?長時間の動画は難しそう。すぐ実用化するとしたら、動画内を自然言語で検索(Appendix 1)して時間特定、他のトリガを使うとい
った工夫が必要そう
?言語というインターフェースの限界(情報量の低下)を感じた(Appendix 2)
??MATSUO INSTITUTE, INC.
Appendix 1:動画検索システム(Turing)
似たような構成で、動画の検索を実現
??MATSUO INSTITUTE, INC.
Appendix 2: 考察(妄想) 今後の基盤モデルの入出力
LLM
言語 言語 人
音
映像
手触り
匂い
味
言語
身体制御
言語は抽象化された優れたインターフェースだが、言語に含められない情報によりLLMの限界がきている??
将来のAIの最適な入出力は?人と同じ(ロボット)なのかそれ以外の形なのか?
未来のAI
? ?

More Related Content

Similar to 【DL輪読会】マルチモーダル LLM (20)

PPTX
複数サービスを共存させるために 試行錯誤したこと
Nagao Shun
?
PPTX
大規模 Web CMS活用に必須の社員ID管理?SSO連動
FatWireKK
?
PDF
厂滨别谤の顿别惫搁别濒术
Taiji Hagino
?
PDF
エヌビディアのディープラーニング戦略
NVIDIA Japan
?
PDF
Deep Learningを用いたロボット制御
Ryosuke Okuta
?
PPTX
ドライブレコーダの动画を使った道路情报の自动差分抽出
Tetsutaro Watanabe
?
PDF
Teachme for business
Keitaro Shoji
?
PDF
eVar7 = s.t(art) ; Kick-Off
Makoto Shimizu
?
PPTX
碍别测肠濒辞补办入门
Hiroyuki Wada
?
PDF
[狠狠撸]DevLOVE_ EMZERO_TORI1「SCD_to_UCD」
masashi takehara
?
PDF
130214 teachme business-k
Yusuke Mameda
?
PDF
C# を使い倒す!クロス プラットフォーム アプリ開発とクラウド連携の新潮流 - Xamarin セッション
Yoshito Tabuchi
?
PPTX
アト?テクノロシ?ーのサーヒ?スにおけるアシ?ャイル开発
Nagao Shun
?
PDF
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
Toshiki Sakai
?
PPT
モダンなモバイル开発のススメ
Daichi Kamemoto
?
PDF
もっとおうちハックできるおうち开発环境に向けて─おうちハック事例集─
Jun Kato
?
PPTX
Open STF Plugin 作ってみた
justice_sm
?
PDF
微博(ウェイボ)型社内厂狈厂とモバイルで始める社内の可视化
Takamitsu Nakao
?
PPTX
窜测迟濒别叠辞迟:搁翱厂対応自动走行ロボットへの贵笔骋础活用を加速化する统合开発プラットフォーム
Hideki Takase
?
PDF
Teachme
Keitaro Shoji
?
複数サービスを共存させるために 試行錯誤したこと
Nagao Shun
?
大規模 Web CMS活用に必須の社員ID管理?SSO連動
FatWireKK
?
厂滨别谤の顿别惫搁别濒术
Taiji Hagino
?
エヌビディアのディープラーニング戦略
NVIDIA Japan
?
Deep Learningを用いたロボット制御
Ryosuke Okuta
?
ドライブレコーダの动画を使った道路情报の自动差分抽出
Tetsutaro Watanabe
?
Teachme for business
Keitaro Shoji
?
eVar7 = s.t(art) ; Kick-Off
Makoto Shimizu
?
碍别测肠濒辞补办入门
Hiroyuki Wada
?
[狠狠撸]DevLOVE_ EMZERO_TORI1「SCD_to_UCD」
masashi takehara
?
130214 teachme business-k
Yusuke Mameda
?
C# を使い倒す!クロス プラットフォーム アプリ開発とクラウド連携の新潮流 - Xamarin セッション
Yoshito Tabuchi
?
アト?テクノロシ?ーのサーヒ?スにおけるアシ?ャイル开発
Nagao Shun
?
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
Toshiki Sakai
?
モダンなモバイル开発のススメ
Daichi Kamemoto
?
もっとおうちハックできるおうち开発环境に向けて─おうちハック事例集─
Jun Kato
?
Open STF Plugin 作ってみた
justice_sm
?
微博(ウェイボ)型社内厂狈厂とモバイルで始める社内の可视化
Takamitsu Nakao
?
窜测迟濒别叠辞迟:搁翱厂対応自动走行ロボットへの贵笔骋础活用を加速化する统合开発プラットフォーム
Hideki Takase
?

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
?
PPTX
【顿尝轮読会】事前学习用データセットについて
Deep Learning JP
?
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
?
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
?
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
?
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
?
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
?
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
?
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
?
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
?
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
?
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
?
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
?
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
?
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
?
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
?
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
?
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
?
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
?
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
?
【顿尝轮読会】事前学习用データセットについて
Deep Learning JP
?
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
?
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
?
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
?
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
?
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
?
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
?
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
?
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
?
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
?
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
?
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
?
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
?
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
?
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
?
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
?
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
?
Ad

Recently uploaded (9)

PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
PDF
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
PPTX
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
PDF
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
PPTX
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
PDF
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
PDF
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
PPTX
色について.pptx .
iPride Co., Ltd.
?
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
色について.pptx .
iPride Co., Ltd.
?
Ad

【DL輪読会】マルチモーダル LLM