狠狠撸

狠狠撸Share a Scribd company logo
16.08.17 ?ISMB読み会2016
Analysis of differential splicing
suggests different modes of
short-term splicing regulation
理化学研究所 情報基盤センター
バイオインフォマティクス研究開発ユニット
テクニカルスタッフ 芳村美佳(@nakaneko143)
Hande ?Topa et.al
Bioinformatics (2016) 32 (12):i147-?i155.
論?文の概要
? 選択的スプライシングによる個々のisoformが、
短時間で別々の時系列発現変動を?示すことが?示唆された。
? モチベ:選択的スプライシングの制御機構の解明。
pre-?mRNA 1 intron 2 intron 3 intron 4
spliced-?mRNA
1 2 3
1 2 4
細胞内で、各isoformは
どれくらい発現している?
経時的変化は?
? 著者らは、short-?read ?RNA-?seq データを?用いた各isoformの
時系列発現変動を観測するモデルおよび評価?手法を開発した。
? 上記を?用いて、breast ?cancer ?エストロゲン受容体シグナルの
発現データをもとに、isoformごとの時系列発現変動傾向を
観測?可視化することに成功した。
先?行研究 ~~イントロダクション
? isoform発現定量?手法
? full-?length ?RNA-?Seq
? amplification-?free ?long-?read ?sequencing ?(Tilgner et ?al., ?2014)
? 課題:seq depth, ?コスト
? Short-?read ?RNA-?seq
? BitSeq (Glaus et ?al., ?2012) :モデル構築+ベイズ推定
? RSEM (Li ?B ?et ?al., ?2010) ?: ?EMアルゴリズム
? Cufflinks ?(Trapnell et ?al., ?2010) ?: ?ゲノムから推定
? MISO ?(Mixture ?of ?Isoforms) ?(Katz ?et ?al, ?2010) ?: ?選択的スプライシングに焦点
? 課題:transcripts ?アセンブリ
? 短時間の時系列発現定量?手法
? analyzing ?time-?course ?RNA-?seq
? DyNB (?ij? et ?al., ?2014) ?: ガウス過程とNBを組み合わせたモデル
? 課題:スプライシングの考慮
この論?文の新規性(おそらく)
? isoform発現定量?手法
? full-?length ?RNA-?Seq
? amplification-?free ?long-?read ?sequencing ?(Tilgner et ?al., ?2014)
? 課題:seq depth, ?コスト
? Short-?read ?RNA-?seq
? BitSeq (Glaus et ?al., ?2012)
? RSEM (Li ?B ?et ?al., ?2010)
? Cufflinks ?(Trapnell et ?al., ?2010)
? MISO ?(Mixture ?of ?Isoforms) ?(Katz ?et ?al, ?2010)
? 課題:transcripts ?アセンブリ
? 時系列サンプルの発現定量?手法
? analyzing ?time-?course ?RNA-?seq
? DyNB (?ij? et ?al., ?2014)
? 課題:スプライシングの考慮
これらを組み合わせた
アプローチを?用いて、
遺伝?子 に属する isoformごとの
時系列発現定量を実現した。
特定のシグナル伝達系で
時系列のisoform発現パターンを
解析した報告は今までにない
提案?手法 ~~概要
マッピング:Bowtie
発現定量:BitSeq
1) 時系列の各発現レベルを
3パターンに分類
I ?: ?遺伝?子全体
II ?: ?各transcriptsの発現 (絶対値)
III ?:各transcriptsの発現 (相対値)
2) 各パターンにガウス過程回帰 & ?
ベイズ因?子によるモデル評価
3) 各isoform特異的な発現変動傾向を
可視化
キモの部分(?青枠)
提案?手法 ~~ 1) ?3パターンの発現レベル
? 推定 transcript発現レベル
? MCMC ?kth ?サンプル (k ?= ?1 ?… ?, ?500) ?from ?BitSeq
? m ?: ?transcript ?(m ?= ?1 ?… ?, ?M)
? t ?: ?time point (t ?= ?1 ?… ?, ?n)
θmt
k
パターンI ?: ?遺伝?子全体 パターンII ?: ?transcripts(絶対) パターンIII ?: ?transcripts(相対)
Ek (log( θmt
k
m∈Ij
∑ ))
Vark (log( θmt
k
m∈Ij
∑ ))
Ek (log(θmt
k
))
mean ?= ?
variances ?= ?
mean ?= ?
variances ?= ?
mean ?= ?
variances ?= ?
Vark (log(θmt
k
))
Ek (
θmt
k
θmt
k
m∈Ij
∑
)
Vark (
θmt
k
θmt
k
m∈Ij
∑
)
I_?j : ?gene_?jのtranscript I_?j : ?gene_?jのtranscript
提案?手法 ~~2) ?モデル評価
? ベイズファクターKによる評価
? 時間依存モデル vs ?時間?非依存モデルの尤度?比 → BF
? logBF > ?3 = ?時間依存モデルの?方が良い とする (Jefferey?’s scale)
f(t1) f(t2) f(tn)
y1 y2 yn
εt
… …
… … y1 y2 yn
εt
… …
時間依存モデル 時間?非依存モデル
ガウス過程
ノイズ共分散?行列
検証?方法
? エストロゲンレセプターαシグナル伝達系 RNA-?Seq データ
? Honkela et ?al., ?2015 ?(GSE62789)
? MCF7 ?breat cancer ?cell ?line
? エストラジオール添加後、10 ?time ?point で回収
(0, ?5, ?10, ?20, ?40, ?80, ?160, ?320, ?640, ?1280 ?min)
? リファレンス配列
? Genecode.v19
? long ?non-?coding ?RNA ?+ ?pre-?mRNA ?の配列を加える
? 34608 ?genes, ?119207 ?transcripts
? QCで15346 transcriptsを除いた
? 時間依存的発現変動のthreshold
? パターンII ?(発現レベル絶対値):平均の最?大と最?小が1.5FC以上
? パターンIII ?(発現レベル相対値):平均の最?大と最?小が0.1FC以上
[結果] 遺伝?子全体の発現変動傾向と
transcriptsの変動傾向の対応
Transcriptsの
絶対値 -? 相対値
変動していない
(Gene)
変動している
(Gene)
Sum
DE ?-? DE 336 88 424
NonDE -? DE 152 12 164
DE ?-? NonDE 1014 700 1714
NonDE -? NonDE 16511 449 16960
Sum 18013 1249 19262
①
②
① :全遺伝?子の約11%が選択的スプライシングをうけ、かつ時間的発現変動を
?示すisoformをもっている
② :相対値で時間依存的発現変動を?示すisoformの検出感度が?非常に低い
→ ?全体でみたときにノイズとなり、発現変動の検出感度を下げる要因?
[結果] 複数の変動傾向を?示すisoformの例
GRHL3
RHOQ
? 時間的変動傾向は
各isoformで連動
? 相対値では変動なし
? 最も多いケース
? RHOQ-?001(?赤)の
発現変動傾向は
他と連動していない
? 相対値のみで検出
同様の傾向:,
MTCH2,ARL2BP,RB1CC1 HNRNPD,
TBCEL, OSMR, ESR1, ADCY1, PMPCB,
AP006222.2, EPS8, RAVER2 and P4HA2.
考察
? なぜ同?一遺伝?子のisoform間で複数の発現変動制御があるのか
不明だが、解析の際には常に留意する必要がある
? バイオロジカルな深追いはしていない。正解がないから?
コメント
? 数年前に同じ著者が、ほぼ同じ?手法で論?文化している
(Bioinformatics 31(11) ·? March ?2014)
? ショウジョウバエの世代ごとのゲノムワイドSNP頻度解析が
従来?手法より良くなったという内容
? 今回との差分は観測データのノイズ共分散?行列の改良くらい
? やはり実?用的な問題設定を提?示すれば
多少過去のものに似ていても採択される?
[補?足] An ?interactive ?browser ?for ?viewing ?
all ?model ?fits
? https://users.ics.aalto.fi/hande/splicingGP/
? 本論?文でモデル評価した各geneごとの結果をGUIで参照できる
[補?足] 複数のisoform発現変動傾向が
みられた遺伝?子のプロファイル
Gene ?symbol name profile breast ?cancerとの関連
RHOQ ras homolog ?family ?
member ?Q
低分?子量GTP結合タンパク
質ファミリー。シグナル伝
達のスイッチ機能を有し、
関連する細胞内機能は多岐
にわたる。
※colorectal ?cancerと
の関連が報告
J ?Exp ?Med. 2014 ?Apr ?
7;211(4):613-?21
MTCH2 mitochondrial ?carrier ?
homolog ?2
アポトーシス関連遺伝?子。
抑制による癌化への関連が
報告されている。
Am ?J ?Pathol. 2013 ?
Jun;182(6):2058-?70
ARL2BP ADP ?Ribosylation Factor ?
Like ?GTPase 2 ?Binding ?
Protein
small ?GTPases ARL2 ?and ?
ARL3のエフェクター。
breast ?cancer ?cellsで癌化
調節因?子HMGA1のノック
ダウンによりdown
regulationされたとの報告
がある。
PLoS ?One. ?2013; ?8(5): ?
e63419.
RB1CC1 RB1 ?Inducible ?Coiled-?
Coil ?1
癌抑制遺伝?子RBIの発現を
誘導する働きをもつ。
breast ?cancer ?cellsでの変
異が報告されている。
Nature ?Genetics. 31, ?
285 ?-? 288 ?(2002)
[補?足] ガウス過程回帰~~予測分布
1) ?ガウシアンプロセス
2) ?時刻tの観測データyと同時分布
→
ノイズ分布:平均0, ?
3) ?結合(同時)分布
→
3) ?ベイズの定理より予測分布の導出
[補?足] ガウス過程回帰~~周辺尤度関数
1) ?時刻tの観測データyの分布
2) ?カーネル
→
3) ノイズ共分散?行列
→2乗指数カーネルを使?用
→各時点での分散を下限として与えている
4) 周辺尤度関数

More Related Content

Analysis of differential splicing suggests different modes of short-term splicing regulation

  • 1. 16.08.17 ?ISMB読み会2016 Analysis of differential splicing suggests different modes of short-term splicing regulation 理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット テクニカルスタッフ 芳村美佳(@nakaneko143) Hande ?Topa et.al Bioinformatics (2016) 32 (12):i147-?i155.
  • 2. 論?文の概要 ? 選択的スプライシングによる個々のisoformが、 短時間で別々の時系列発現変動を?示すことが?示唆された。 ? モチベ:選択的スプライシングの制御機構の解明。 pre-?mRNA 1 intron 2 intron 3 intron 4 spliced-?mRNA 1 2 3 1 2 4 細胞内で、各isoformは どれくらい発現している? 経時的変化は? ? 著者らは、short-?read ?RNA-?seq データを?用いた各isoformの 時系列発現変動を観測するモデルおよび評価?手法を開発した。 ? 上記を?用いて、breast ?cancer ?エストロゲン受容体シグナルの 発現データをもとに、isoformごとの時系列発現変動傾向を 観測?可視化することに成功した。
  • 3. 先?行研究 ~~イントロダクション ? isoform発現定量?手法 ? full-?length ?RNA-?Seq ? amplification-?free ?long-?read ?sequencing ?(Tilgner et ?al., ?2014) ? 課題:seq depth, ?コスト ? Short-?read ?RNA-?seq ? BitSeq (Glaus et ?al., ?2012) :モデル構築+ベイズ推定 ? RSEM (Li ?B ?et ?al., ?2010) ?: ?EMアルゴリズム ? Cufflinks ?(Trapnell et ?al., ?2010) ?: ?ゲノムから推定 ? MISO ?(Mixture ?of ?Isoforms) ?(Katz ?et ?al, ?2010) ?: ?選択的スプライシングに焦点 ? 課題:transcripts ?アセンブリ ? 短時間の時系列発現定量?手法 ? analyzing ?time-?course ?RNA-?seq ? DyNB (?ij? et ?al., ?2014) ?: ガウス過程とNBを組み合わせたモデル ? 課題:スプライシングの考慮
  • 4. この論?文の新規性(おそらく) ? isoform発現定量?手法 ? full-?length ?RNA-?Seq ? amplification-?free ?long-?read ?sequencing ?(Tilgner et ?al., ?2014) ? 課題:seq depth, ?コスト ? Short-?read ?RNA-?seq ? BitSeq (Glaus et ?al., ?2012) ? RSEM (Li ?B ?et ?al., ?2010) ? Cufflinks ?(Trapnell et ?al., ?2010) ? MISO ?(Mixture ?of ?Isoforms) ?(Katz ?et ?al, ?2010) ? 課題:transcripts ?アセンブリ ? 時系列サンプルの発現定量?手法 ? analyzing ?time-?course ?RNA-?seq ? DyNB (?ij? et ?al., ?2014) ? 課題:スプライシングの考慮 これらを組み合わせた アプローチを?用いて、 遺伝?子 に属する isoformごとの 時系列発現定量を実現した。 特定のシグナル伝達系で 時系列のisoform発現パターンを 解析した報告は今までにない
  • 5. 提案?手法 ~~概要 マッピング:Bowtie 発現定量:BitSeq 1) 時系列の各発現レベルを 3パターンに分類 I ?: ?遺伝?子全体 II ?: ?各transcriptsの発現 (絶対値) III ?:各transcriptsの発現 (相対値) 2) 各パターンにガウス過程回帰 & ? ベイズ因?子によるモデル評価 3) 各isoform特異的な発現変動傾向を 可視化 キモの部分(?青枠)
  • 6. 提案?手法 ~~ 1) ?3パターンの発現レベル ? 推定 transcript発現レベル ? MCMC ?kth ?サンプル (k ?= ?1 ?… ?, ?500) ?from ?BitSeq ? m ?: ?transcript ?(m ?= ?1 ?… ?, ?M) ? t ?: ?time point (t ?= ?1 ?… ?, ?n) θmt k パターンI ?: ?遺伝?子全体 パターンII ?: ?transcripts(絶対) パターンIII ?: ?transcripts(相対) Ek (log( θmt k m∈Ij ∑ )) Vark (log( θmt k m∈Ij ∑ )) Ek (log(θmt k )) mean ?= ? variances ?= ? mean ?= ? variances ?= ? mean ?= ? variances ?= ? Vark (log(θmt k )) Ek ( θmt k θmt k m∈Ij ∑ ) Vark ( θmt k θmt k m∈Ij ∑ ) I_?j : ?gene_?jのtranscript I_?j : ?gene_?jのtranscript
  • 7. 提案?手法 ~~2) ?モデル評価 ? ベイズファクターKによる評価 ? 時間依存モデル vs ?時間?非依存モデルの尤度?比 → BF ? logBF > ?3 = ?時間依存モデルの?方が良い とする (Jefferey?’s scale) f(t1) f(t2) f(tn) y1 y2 yn εt … … … … y1 y2 yn εt … … 時間依存モデル 時間?非依存モデル ガウス過程 ノイズ共分散?行列
  • 8. 検証?方法 ? エストロゲンレセプターαシグナル伝達系 RNA-?Seq データ ? Honkela et ?al., ?2015 ?(GSE62789) ? MCF7 ?breat cancer ?cell ?line ? エストラジオール添加後、10 ?time ?point で回収 (0, ?5, ?10, ?20, ?40, ?80, ?160, ?320, ?640, ?1280 ?min) ? リファレンス配列 ? Genecode.v19 ? long ?non-?coding ?RNA ?+ ?pre-?mRNA ?の配列を加える ? 34608 ?genes, ?119207 ?transcripts ? QCで15346 transcriptsを除いた ? 時間依存的発現変動のthreshold ? パターンII ?(発現レベル絶対値):平均の最?大と最?小が1.5FC以上 ? パターンIII ?(発現レベル相対値):平均の最?大と最?小が0.1FC以上
  • 9. [結果] 遺伝?子全体の発現変動傾向と transcriptsの変動傾向の対応 Transcriptsの 絶対値 -? 相対値 変動していない (Gene) 変動している (Gene) Sum DE ?-? DE 336 88 424 NonDE -? DE 152 12 164 DE ?-? NonDE 1014 700 1714 NonDE -? NonDE 16511 449 16960 Sum 18013 1249 19262 ① ② ① :全遺伝?子の約11%が選択的スプライシングをうけ、かつ時間的発現変動を ?示すisoformをもっている ② :相対値で時間依存的発現変動を?示すisoformの検出感度が?非常に低い → ?全体でみたときにノイズとなり、発現変動の検出感度を下げる要因?
  • 10. [結果] 複数の変動傾向を?示すisoformの例 GRHL3 RHOQ ? 時間的変動傾向は 各isoformで連動 ? 相対値では変動なし ? 最も多いケース ? RHOQ-?001(?赤)の 発現変動傾向は 他と連動していない ? 相対値のみで検出 同様の傾向:, MTCH2,ARL2BP,RB1CC1 HNRNPD, TBCEL, OSMR, ESR1, ADCY1, PMPCB, AP006222.2, EPS8, RAVER2 and P4HA2.
  • 11. 考察 ? なぜ同?一遺伝?子のisoform間で複数の発現変動制御があるのか 不明だが、解析の際には常に留意する必要がある ? バイオロジカルな深追いはしていない。正解がないから? コメント ? 数年前に同じ著者が、ほぼ同じ?手法で論?文化している (Bioinformatics 31(11) ·? March ?2014) ? ショウジョウバエの世代ごとのゲノムワイドSNP頻度解析が 従来?手法より良くなったという内容 ? 今回との差分は観測データのノイズ共分散?行列の改良くらい ? やはり実?用的な問題設定を提?示すれば 多少過去のものに似ていても採択される?
  • 12. [補?足] An ?interactive ?browser ?for ?viewing ? all ?model ?fits ? https://users.ics.aalto.fi/hande/splicingGP/ ? 本論?文でモデル評価した各geneごとの結果をGUIで参照できる
  • 13. [補?足] 複数のisoform発現変動傾向が みられた遺伝?子のプロファイル Gene ?symbol name profile breast ?cancerとの関連 RHOQ ras homolog ?family ? member ?Q 低分?子量GTP結合タンパク 質ファミリー。シグナル伝 達のスイッチ機能を有し、 関連する細胞内機能は多岐 にわたる。 ※colorectal ?cancerと の関連が報告 J ?Exp ?Med. 2014 ?Apr ? 7;211(4):613-?21 MTCH2 mitochondrial ?carrier ? homolog ?2 アポトーシス関連遺伝?子。 抑制による癌化への関連が 報告されている。 Am ?J ?Pathol. 2013 ? Jun;182(6):2058-?70 ARL2BP ADP ?Ribosylation Factor ? Like ?GTPase 2 ?Binding ? Protein small ?GTPases ARL2 ?and ? ARL3のエフェクター。 breast ?cancer ?cellsで癌化 調節因?子HMGA1のノック ダウンによりdown regulationされたとの報告 がある。 PLoS ?One. ?2013; ?8(5): ? e63419. RB1CC1 RB1 ?Inducible ?Coiled-? Coil ?1 癌抑制遺伝?子RBIの発現を 誘導する働きをもつ。 breast ?cancer ?cellsでの変 異が報告されている。 Nature ?Genetics. 31, ? 285 ?-? 288 ?(2002)
  • 14. [補?足] ガウス過程回帰~~予測分布 1) ?ガウシアンプロセス 2) ?時刻tの観測データyと同時分布 → ノイズ分布:平均0, ? 3) ?結合(同時)分布 → 3) ?ベイズの定理より予測分布の導出
  • 15. [補?足] ガウス過程回帰~~周辺尤度関数 1) ?時刻tの観測データyの分布 2) ?カーネル → 3) ノイズ共分散?行列 →2乗指数カーネルを使?用 →各時点での分散を下限として与えている 4) 周辺尤度関数