This document discusses generative adversarial networks (GANs) and their relationship to reinforcement learning. It begins with an introduction to GANs, explaining how they can generate images without explicitly defining a probability distribution by using an adversarial training process. The second half discusses how GANs are related to actor-critic models and inverse reinforcement learning in reinforcement learning. It explains how GANs can be viewed as training a generator to fool a discriminator, similar to how policies are trained in reinforcement learning.
【DL輪読会】Learning Physics Constrained Dynamics Using AutoencodersDeep Learning JP
?
This document summarizes several recent deep learning papers, including a paper by Koki Yamane from the University of Tsukuba titled "Learning Physics Constrained Dynamics Using Autoencoders". The document provides brief summaries of each paper in bullet point form with the date, focusing on papers related to deep learning techniques and applications.
This document summarizes recent research on applying self-attention mechanisms from Transformers to domains other than language, such as computer vision. It discusses models that use self-attention for images, including ViT, DeiT, and T2T, which apply Transformers to divided image patches. It also covers more general attention modules like the Perceiver that aims to be domain-agnostic. Finally, it discusses work on transferring pretrained language Transformers to other modalities through frozen weights, showing they can function as universal computation engines.
cvpaper.challengeにおいてECCVのOral論文をまとめた「ECCV 2020 報告」です。
ECCV2020 Oral論文 完全読破(1/2) [/cvpaperchallenge/eccv2020-oral-12/1]
pp. 7-10 ECCVトレンド
pp. 12-72 Looking at humans
pp. 73-132 Low level vision
pp. 133-198 Recognition & detection
pp. 199-262 Segmentation & scene interpretation and description, language
pp. 263-294 Video & action understanding
pp. 295-296 まとめ
cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成?アイディア考案?議論?実装?論文投稿に取り組み、凡ゆる知識を共有します。2020の目標は「トップ会議に30+本投稿」することです。
This document discusses generative adversarial networks (GANs) and their relationship to reinforcement learning. It begins with an introduction to GANs, explaining how they can generate images without explicitly defining a probability distribution by using an adversarial training process. The second half discusses how GANs are related to actor-critic models and inverse reinforcement learning in reinforcement learning. It explains how GANs can be viewed as training a generator to fool a discriminator, similar to how policies are trained in reinforcement learning.
【DL輪読会】Learning Physics Constrained Dynamics Using AutoencodersDeep Learning JP
?
This document summarizes several recent deep learning papers, including a paper by Koki Yamane from the University of Tsukuba titled "Learning Physics Constrained Dynamics Using Autoencoders". The document provides brief summaries of each paper in bullet point form with the date, focusing on papers related to deep learning techniques and applications.
This document summarizes recent research on applying self-attention mechanisms from Transformers to domains other than language, such as computer vision. It discusses models that use self-attention for images, including ViT, DeiT, and T2T, which apply Transformers to divided image patches. It also covers more general attention modules like the Perceiver that aims to be domain-agnostic. Finally, it discusses work on transferring pretrained language Transformers to other modalities through frozen weights, showing they can function as universal computation engines.
cvpaper.challengeにおいてECCVのOral論文をまとめた「ECCV 2020 報告」です。
ECCV2020 Oral論文 完全読破(1/2) [/cvpaperchallenge/eccv2020-oral-12/1]
pp. 7-10 ECCVトレンド
pp. 12-72 Looking at humans
pp. 73-132 Low level vision
pp. 133-198 Recognition & detection
pp. 199-262 Segmentation & scene interpretation and description, language
pp. 263-294 Video & action understanding
pp. 295-296 まとめ
cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成?アイディア考案?議論?実装?論文投稿に取り組み、凡ゆる知識を共有します。2020の目標は「トップ会議に30+本投稿」することです。
2017年春季研究発表会の発表資料です.
邦題: 形态素解析も辞书も言语モデルもいらない别苍诲-迟辞-别苍诲音声认识
英題: End-to-end Japanese ASR without using morphological analyzer, pronunciation dictionary and language model
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
?
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages
Word Sense Disambiguation, BERT, clustering
ということで読みました.
p. 7 は「solid は glass の上位語,glassware は glass の下位語」でした。。。
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...Yuki Tomo
?
首都大学東京 情報通信システム学域 小町研究室に行われた EMNLP 2015 読み会で "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model" を紹介した際の資料です。
BERT を中心に解説した資料です.BERT に比べると,XLNet と RoBERTa の内容は詳細に追ってないです.
あと,自作の図は上から下ですが,引っ張ってきた図は下から上になっているので注意してください.
もし間違い等あったら修正するので,言ってください.
(特に,RoBERTa の英語を読み間違えがちょっと怖いです.言い訳すいません.)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa: A Robustly Optimized BERT Pretraining Approach
YouTube nnabla channelの次の動画で利用したスライドです。
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
https://youtu.be/av1IAx0nzvc
【参考文献】
?Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action
https://arxiv.org/pdf/2312.17172
?A Generalist Agent
https://arxiv.org/pdf/2205.06175
?Flamingo: a Visual Language Model for Few-Shot Learning
https://arxiv.org/pdf/2204.14198
?NExT-GPT: Any-to-Any Multimodal LLM
https://arxiv.org/pdf/2309.05519
?MUTEX: Learning Unified Policies from Multimodal Task Specifications
https://arxiv.org/pdf/2309.14320
?On the Opportunities and Risks of Foundation Models
https://arxiv.org/pdf/2108.07258
?RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE
https://arxiv.org/pdf/2205.06175
?ViNT: A Foundation Model for Visual Navigation
https://arxiv.org/pdf/2306.14846
?Do As I Can and Not As I Say: Grounding Language in Robotic Affordances
https://arxiv.org/pdf/2204.01691
?RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
https://arxiv.org/pdf/2307.15818
?Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
https://arxiv.org/pdf/2304.13705
?Open X-Embodiment: Robotic Learning Datasets and RT-X Models
https://arxiv.org/pdf/2310.08864
?【AI技術研修】nnabla-rlによる深層強化学習入門 第1回「深層強化学習とは?」
https://youtu.be/KZ0pwIIBKYU?si=AabrkXkCvNjJjR0R
?Mastering the game of Go with deep neural networks and tree search
https://doi.org/10.1038/nature16961
?Outracing champion Gran Turismo drivers with deep reinforcement learning
https://doi.org/10.1038/s41586-021-04357-7
?A Survey on Transformers in Reinforcement Learning
https://arxiv.org/pdf/2301.03044
?Decision Transformer: Reinforcement Learning via Sequence Modeling
https://arxiv.org/pdf/2106.01345
?TRANSFORMER-BASED WORLD MODELS ARE HAPPY WITH 100K INTERACTIONS
https://arxiv.org/pdf/2303.07109
2. 背景: 句境界予測 (Phrase Break Prediction)
句境界予測はテキスト音声合成 (TTS) システムを構成する
上で音声の自然性に寄与する重要な要因の一つ[1]
? 句境界は連続する句の間に挿入される音声的なポーズとして
定義され、息継ぎやアクセントの変化により発生
? テキスト上に現れる読点の場所以外にも句境界が挿入される
ためルールベースの手法では対応が困難[2]
句境界なし 句境界あり
知らぬ間に自分名義で契約され、
届いたスマホを開封せず詐欺グループに転送
させられる消費者被害が、全国の国民生活
センターに寄せられている
2
知らぬ間に/自分名義で契約され、/
届いたスマホを開封せず/詐欺グループに転
送させられる/消費者被害が、/全国の国民生
活センターに寄せられている
句境界の有無による合成音声の自然性
[1] T. Fujimoto, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda. Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis. In Proc. 10th
ISCA Speech Synthesis Workshop, pp. 166–171, 2019.
[2] P. Taylor and A. W. Black. Assigning phrase breaks frompart-of-speech sequences.Computer Speech & Language,Vol. 12, No. 2, pp. 99 – 117, 1998.
3. 背景: 句境界予測 (Phrase Break Prediction)
日本語句境界予測において深層学習による系列予測モデル
や大規模言語モデルの有用性が検証されておらず
? 日本語句境界予測ではCRFやランダムフォレストなど
従来の統計モデルによる手法が検証[3]
? 英語句境界予測ではRNNやLSTMなど系列モデルによる手法が
検証されているものの大規模言語モデルの効果は未検証[4]
? 品詞タグや構文情報など様々な言語特徴量によって精度改善
? CRFレイヤーや大規模言語モデルの効果は未検証
3
[3] N. Miyazaki H. Mizuno H. Muto, Y. Ijima and S. Sakauchi. Analysis and evaluation of factors relating pause location for natural text-to-speech synthesis. In Transactions of
Information Processing Society of Japan, pp. 993–1002, 2015.
[4] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman. Phrase break prediction for long-form reading tts: Exploiting text structure
information. In Proc. Interspeech 2017, pp. 1064–1068, 2017.
7. 実験設定: 評価指標
```
句境界の分布は話者毎に大きく異なるため
F-β (β ∈ {1.0, 0.25})スコアを用いて予測性能を評価
? 多数の話者に適用可能な汎用的な句境界予測モデルを作成
? 誤った箇所に句境界を挿入するより何も挿入しない方が
音声自然性が向上することが知られる[5]
? 複数話者から構成されるCSJでは余分な句境界が
挿入されないようF-0.25スコアによりprecision重視で評価
? 単一話者から構成される独自コーパスではF-1スコアで評価
7
F-βスコアによる句境界予測性能の評価
[5] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman, “Phrase break prediction for long-form reading tts: exploiting text structure
information,” in Proceedings of Interspeech 2017, 2017, pp. 1064–1068.
8. 実験 1: 明示的な言語特徴量の比較検討
```
日本語句境界予測において様々な特徴量の効果を検証
? 英語句境界予測における深層学習による従来手法を
日本語句境界予測へ適用 (2 layers BiLSTM, 512次元)
? 言語特徴量の取得にはSudachi[6]およびGinza[7]を利用
8
特徴量 次元数 詳細
Token 512 単語分割した入力文のみを使用
+ UD 16 universal dependency タグを追加
+ POS 48 品詞タグ(細分類含む)を追加
+ DEP 64 現トークンおよび親トークンの構文タグおよび相対位置を追加
+ CHAR 64 文字単位の埋め込み層を追加
+ W2V 512 Wikipediaによる事前学習済み単語埋め込み層を追加
ALL(UD) - UD以外の特徴量を全て使用
ALL(POS) - POS以外の言語特徴量を全て使用
実験に使用した言語特徴量
[6] K. Takaoka, S. Hisamoto, N. Kawahara, M. Sakamoto, Y. Uchida, and Y. Matsumoto. 2018. Sudachi: a Japanese tokenizer for business. In Proceedings of the Eleventh
International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).
[7] 松田寛, 大村舞, 浅原正幸. 短単位品詞の用法曖昧性解決と依存関係ラベリングの同時学習, 言語処理学会 第 25 回年次大会 発表論文集, 2019.
15. ```
15
モデル 詳細
Reference テストデータを音声合成した発話
Rule-based 読点の後にのみ句境界を挿入した発話
BiLSTM(Token) トークンのみ使用
BiLSTM(All) POS含む全ての特徴量を使用
BERT mix 全層の加重平均を使用したBERT
BERT mix + BFL + FT BERTmix にBFLとFTを適用
MOS評価およびABXテストの評価対象
ABテスト
Target A Target B
Rule-based BiLSTM (Token)
BiLSTM (Token) BiLSTM (All)
BiLSTM(All) BERT mix
BERT mix BERT mix + BFL + FT
BERT mix + BFL + FT reference
句境界予測モデルを導入したTTSモデルを音声の自然性
に関してMOS評価およびABテストにより評価
? 独自コーパスにより訓練された句境界モデルを対象に評価
? TTSモデルにはFastSpeech2[11] + Parallel WaveGAN[12]を使用
? 25人の被験者が各モデルに対して30発話評価
実験 4: 主観評価実験
[11] Y. Ren, C. Hu, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu. FastSpeech 2: Fast and high- quality end-to-end text-to-speech. In Proc. ICLR (in press), 2021.
[12] R. Yamamoto, E. Song, and J.-M. Kim. Parallel WaveGAN: A fast waveform generation model based on generative adversarial net- works with multi-resolution spectrogram.
In Proc. ICASSP, pp. 6199–6203, 2020.
MOS評価の対象モデル ABXテストの対象モデルペア