狠狠撸

狠狠撸Share a Scribd company logo
@ISMB読み会2015
芳村美佳
理化学研究所
バイオインフォマティクス研究開発ユニット
目的
? ある遺伝子の機能を推定したい
? 共発現ネットワークを抽象化(トポロジー)
? ノード同士の関連度=「近さ」で測る
–
Mol Med Rep. 2012 Dec;6(6):1325-32
グラフ理論 +
機械学習アルゴリズム +
Gene Ontology(GO)
→目的遺伝子の機能予測
グラフ理論+GO label を利用した先行研究
? + 機械学習アルゴリズム
– Research in Computational Mol. Biology (2011).392–407.
– Nat. Biotechnol (2006) 24, 1474–1475.
? + ランダムウォークで確率生成
– Bioinformatics (2014) 30 (12): i219-i227.
– Am. J. Hum. Genet. (2008), 82, 949–958.
? + Gaphlets (ノード特性を示すサブグラフ)
– Cancer Inform. (2008), 6, 257–273.
– J.R. Soc. Interface (2010), 7, 423–437.
– Bioinformatics (2014) 30 (17): i594-i600.
? + GeneMANIA (Genome Biol. (2008), 9, S4.)
– 複数のデータソースによるネットワーク再構成
本論文のモチベーション
? 解析における課題: rare labels
– 「低密度」なアノテーションが過半数
? パターン抽出で生じる過学習の原因
Fig 1. アノテーション遺伝子数<10の割合 (human, yeast)
rare label へのアプローチ(先行研究)
? ラベルの類似度による相互補完
– 似た分子機能をもつラベル同士は
同じような遺伝子と紐付いている と考える
– マルチラベル学習による機能相関の推定
? J. Comput. Biol (2013)., 20, 322–343
? 課題
– ヒトGOアノテーションのような
スケールでは計算量に対応できない
? 低密度ラベルは数万以上
本論文の前身
? Diffusion Component Analysis (DCA)
– 共発現ネットワークのノード類似度 →
Random walks with restart(RWR) の定常状態確率
– ノード数次元の確率ベクトル:Diffusion state
– 特徴空間に射影 (次元削減)
? 特徴空間上のベクトルの内積 = 類似度
Research in Computational Molecular Biology 9029, pp. 62–64.
メイン:clusDCA法
? Step1:共発現NWグラフ→特徴空間
– DCAの改良 (計算コスト削減)
? 近似するモデルの正規化項の制約を緩和し、
最適化にSVD(特異値分解)を使用
? Step2 : GOラベルグラフ→特徴空間
– GOラベルは有向無閉路グラフ
– 特性を考慮した重み付きRWR
– DCAはStep1と同じ
? Step3 :共発現NW空間+GOラベル空間
– 共発現ベクトル * 補正パラメータ = newベクトル
– 同空間上での内積 = 類似度 →機能推定できる
Fig2. overview of clusDCA
次元削減
(DCA) *2
2空間を
統合
material
? 共発現NWグラフ
– STRING db(http://string-db.org/) v9.1
– 6つの分子ネットワークから構築
– ノード数
? Human(16662), yeast(6311) and mouse(18248)
? GOラベルグラフ
– GOコンソーシアム(Ashburner et al., 2000)
– biological process (BP), MF, cellular componentから
DAG(有向無閉路グラフ)を構築
– 機能数
? Human(13708), yeast(4240) and mouse(13807)
mathod
? 評価
– 3-fold クロスバリデーション
? 比較対象
– GeneMANIA
? http://www.genemania.org
– DCA
? 次元削減後にkNN法でクラスタリング→機能推定
– HC
? 階層クラスタリングをベースにした手法
– J. Bioinform. Comput. (2010) Biol., 8, 357–376.
Results: ROC (human)
? GOラベル(MF,BP)を
アノテーション数で
4分割(3 ~ 300)
? 青いバーがclusDCA
(*はGeneMANIAと比較)
? yeast, mouseでも
同様の結果
Fig 3. 他手法とのパフォーマンス比較
Results: PRC (all)
? PRC: precision
recall curve
? *はGeneMANIAと
比較
Table S2.(SUPPLEMENTARY Data)
他手法とのパフォーマンス比較
Results: 未知のGO labelsを推定
Fig4. new GO ラベルの関連遺伝子予測
one-third of the GO labels as the validation set of “uncharacterized” labels.
この論文のすごいところ
? 最適化の計算が早い
– STRING dbのyeastネットワーク(500次元)
? 著者らの従来法(L-BFGS法) : >2h
? 本論文 (SVD) :< 5min
– 2500次元でも精度は落ちない
? 特徴空間の汎用性が高い
– 機能未知な遺伝子
– アノテーション未知なGOラベル
– ↑どちらも類似度による機能推定可能
補足:DCAのアルゴリズム
1) ノードiからのdiffusion state
2) 最適化(次元削減)
si
t+1
= (1- pr )si
t
B+ prei si = si
?
? Dn
wi:context feature, xi: node feature
補足:clusDCAのアルゴリズム1
1) 正規化項の規約を緩和
2) 最適化 (最小二乗法)
3) GOラベルグラフのdiffusion state
log ?sij =wi
T
xj -log exp{wi
T
xj }
j
? log ?sij =wi
T
xj
diffusion state matrix L Q: a small positive constant
α: ‘back propagation’ parameter
補足:clusDCAのアルゴリズム2
4) 共発現NWグラフの投影
y′i: projection of the gene vector xi
zij: pairwise affinity score
W: transformation matrix
Wの最適化式 fj: set of genes that are positively
(negatively) annotated with function j.
X: gene vector, Y: functional vector
補足:GeneMANIA
1. A linear regression-based algorithm that calculates a single
composite functional association network from multiple data
sources.
2. A label propagation algorithm for predicting gene function given
the composite functional association network.
http://morrislab.med.utoronto.ca/projects.html

More Related Content

肠濒耻蝉顿颁础冲颈蝉尘产読み会2015

  • 2. 目的 ? ある遺伝子の機能を推定したい ? 共発現ネットワークを抽象化(トポロジー) ? ノード同士の関連度=「近さ」で測る – Mol Med Rep. 2012 Dec;6(6):1325-32 グラフ理論 + 機械学習アルゴリズム + Gene Ontology(GO) →目的遺伝子の機能予測
  • 3. グラフ理論+GO label を利用した先行研究 ? + 機械学習アルゴリズム – Research in Computational Mol. Biology (2011).392–407. – Nat. Biotechnol (2006) 24, 1474–1475. ? + ランダムウォークで確率生成 – Bioinformatics (2014) 30 (12): i219-i227. – Am. J. Hum. Genet. (2008), 82, 949–958. ? + Gaphlets (ノード特性を示すサブグラフ) – Cancer Inform. (2008), 6, 257–273. – J.R. Soc. Interface (2010), 7, 423–437. – Bioinformatics (2014) 30 (17): i594-i600. ? + GeneMANIA (Genome Biol. (2008), 9, S4.) – 複数のデータソースによるネットワーク再構成
  • 4. 本論文のモチベーション ? 解析における課題: rare labels – 「低密度」なアノテーションが過半数 ? パターン抽出で生じる過学習の原因 Fig 1. アノテーション遺伝子数<10の割合 (human, yeast)
  • 5. rare label へのアプローチ(先行研究) ? ラベルの類似度による相互補完 – 似た分子機能をもつラベル同士は 同じような遺伝子と紐付いている と考える – マルチラベル学習による機能相関の推定 ? J. Comput. Biol (2013)., 20, 322–343 ? 課題 – ヒトGOアノテーションのような スケールでは計算量に対応できない ? 低密度ラベルは数万以上
  • 6. 本論文の前身 ? Diffusion Component Analysis (DCA) – 共発現ネットワークのノード類似度 → Random walks with restart(RWR) の定常状態確率 – ノード数次元の確率ベクトル:Diffusion state – 特徴空間に射影 (次元削減) ? 特徴空間上のベクトルの内積 = 類似度 Research in Computational Molecular Biology 9029, pp. 62–64.
  • 7. メイン:clusDCA法 ? Step1:共発現NWグラフ→特徴空間 – DCAの改良 (計算コスト削減) ? 近似するモデルの正規化項の制約を緩和し、 最適化にSVD(特異値分解)を使用 ? Step2 : GOラベルグラフ→特徴空間 – GOラベルは有向無閉路グラフ – 特性を考慮した重み付きRWR – DCAはStep1と同じ ? Step3 :共発現NW空間+GOラベル空間 – 共発現ベクトル * 補正パラメータ = newベクトル – 同空間上での内積 = 類似度 →機能推定できる
  • 8. Fig2. overview of clusDCA 次元削減 (DCA) *2 2空間を 統合
  • 9. material ? 共発現NWグラフ – STRING db(http://string-db.org/) v9.1 – 6つの分子ネットワークから構築 – ノード数 ? Human(16662), yeast(6311) and mouse(18248) ? GOラベルグラフ – GOコンソーシアム(Ashburner et al., 2000) – biological process (BP), MF, cellular componentから DAG(有向無閉路グラフ)を構築 – 機能数 ? Human(13708), yeast(4240) and mouse(13807)
  • 10. mathod ? 評価 – 3-fold クロスバリデーション ? 比較対象 – GeneMANIA ? http://www.genemania.org – DCA ? 次元削減後にkNN法でクラスタリング→機能推定 – HC ? 階層クラスタリングをベースにした手法 – J. Bioinform. Comput. (2010) Biol., 8, 357–376.
  • 11. Results: ROC (human) ? GOラベル(MF,BP)を アノテーション数で 4分割(3 ~ 300) ? 青いバーがclusDCA (*はGeneMANIAと比較) ? yeast, mouseでも 同様の結果 Fig 3. 他手法とのパフォーマンス比較
  • 12. Results: PRC (all) ? PRC: precision recall curve ? *はGeneMANIAと 比較 Table S2.(SUPPLEMENTARY Data) 他手法とのパフォーマンス比較
  • 13. Results: 未知のGO labelsを推定 Fig4. new GO ラベルの関連遺伝子予測 one-third of the GO labels as the validation set of “uncharacterized” labels.
  • 14. この論文のすごいところ ? 最適化の計算が早い – STRING dbのyeastネットワーク(500次元) ? 著者らの従来法(L-BFGS法) : >2h ? 本論文 (SVD) :< 5min – 2500次元でも精度は落ちない ? 特徴空間の汎用性が高い – 機能未知な遺伝子 – アノテーション未知なGOラベル – ↑どちらも類似度による機能推定可能
  • 15. 補足:DCAのアルゴリズム 1) ノードiからのdiffusion state 2) 最適化(次元削減) si t+1 = (1- pr )si t B+ prei si = si ? ? Dn wi:context feature, xi: node feature
  • 16. 補足:clusDCAのアルゴリズム1 1) 正規化項の規約を緩和 2) 最適化 (最小二乗法) 3) GOラベルグラフのdiffusion state log ?sij =wi T xj -log exp{wi T xj } j ? log ?sij =wi T xj diffusion state matrix L Q: a small positive constant α: ‘back propagation’ parameter
  • 17. 補足:clusDCAのアルゴリズム2 4) 共発現NWグラフの投影 y′i: projection of the gene vector xi zij: pairwise affinity score W: transformation matrix Wの最適化式 fj: set of genes that are positively (negatively) annotated with function j. X: gene vector, Y: functional vector
  • 18. 補足:GeneMANIA 1. A linear regression-based algorithm that calculates a single composite functional association network from multiple data sources. 2. A label propagation algorithm for predicting gene function given the composite functional association network. http://morrislab.med.utoronto.ca/projects.html

Editor's Notes

  • #2: タイトル:オントロジーグラフを利用した、低密度なアノテーション遗伝子に対する机能予测
  • #16: B = 遷移確率行列、p = restart確率, t = ステップ数、ei is an n-dimensional distribution vector with ei(i)=1 and ei(j)=0, ?j ≠ I 2) diffusion state を多項ロジスティックモデルで近似 KL情報量の最小化→ 次元削減されたwi,xiが求まる
  • #17: GO graphの特性 a directed acyclic graph (DAG) over functional labels where the edges represent various semantic relationships. DAGは有向非巡回グラフ。閉路のない有向グラフ(頂点と有向辺からなって、辺をたどっても出発点には戻らない) the ‘is a’ and ‘part of’ edges, which results in a hierarchy of labels with edges going from the more specific to the more generic terms. この階層構造がもつ問題 generally not present in molecular networks a naive application of RWR on the ontology graph the edges are treated as undirected unfairly favors high-level nodes tend to have higher centrality. allowing a random walk to only move from high- to low-level nodes would greatly restrict the portion of the graph a random walk can explore. 課題への対応 allow both edge directions but with different weights, whose ratio is controlled by the ‘back propagation’ parameter α α is generally shrinks the diffusion scores of high-level nodes B denoting the transition matrix of the original graph with unidirectional edges