狠狠撸

狠狠撸Share a Scribd company logo
フ リ ー ソ フ ト で は じ め る
N G S 解 析 入 門
~公開データベース活用編~
Copyright ? Amelieff Corporation. All Rights Reserved.
2
本 日 の テ ー マ
? NGSデータのSNV/Indel検出
? 公開データベース
– Variant database
– Disease curation
– Prediction database
– データベースの特徴
? データベース活用実践
– 「疾患関連の既知変異探索と新規変異探索」の例
N G S デ ー タ の S N V / I n d e l 検 出
Copyright ? Amelieff Corporation. All Rights Reserved.
3
入力ファイル
リードのクリーニング
クオリティチェック
リファレンスゲノムへのマッピング
重複リードを除去
リアライメント、リキャリブレーション
マッピング結果のファイル
? Illumina CASAVA filter [Y] を除去
? クオリティ20未満の塩基が80%以上のリードを除去
? クオリティ20未満の末端をトリム
? 未知の塩基(N)が多いリード除去
? 配列長が短いリード除去
? 片側のみのリードを除去
ファイルの形式
フリーソフト
自社開発ツール
SNV / Indel 検出とフィルタリング
アノテーション付与
多型情報のファイル
Copyright ? Amelieff Corporation. All Rights Reserved.
4
N G S デ ー タ の S N V / I n d e l 検 出
ショートリード
リファレンスゲノム
マッピングソフトウェア
?最新版 0.7.12(2014/12/28公開)
?BWA-SW & BWA-MEMアルゴリズム
? 70bp~1Mbに対応。
? MEMはクオリティの高いシーケンスの時に高速かつ
高精度。70~100bpのイルミナシーケンス、454、
Ion Torrent、Sanger などで使用。
? SWはgapが多いときに感度が良い。
? Error rateは、100bpで2%以下、200bpで3%以下、
500bpで5%以下、 1000bp以上で10%以下が推奨。
? BWA-backtrackアルゴリズム
? 100bp以上のイルミナシーケンス用に最適化。
? Error rateは、2%以下が対象。
BWA
Copyright ? Amelieff Corporation. All Rights Reserved.
5
N G S デ ー タ の S N V / I n d e l 検 出
ショートリード
リファレンスゲノム
パッケージソフトウェア
?最新版 3.3-0(2014/10/23公開)
?DNAseqおよびRNAseqからSNV/Indel検出
? UnifiedGenotyperとHaplotypeCaller
? HaplotypeCallerはlocal de-novo assemblyを実施
? VQSR(Variant Quality Score Recalibration)を使用
して、VQSLODを付与。既知SNPを用いたエラーモ
デルによって、真の変異であるか評価。ガウス混合
モデルで推定した対数オッズ比。
?2倍体以外の生物種の変異検出に対応。
? 「-ploidy」オプションの引数として、倍数を指定可能。
GATK
Copyright ? Amelieff Corporation. All Rights Reserved.
6
N G S デ ー タ の S N V / I n d e l 検 出
リードがマッピング
されている様子
カバレージ
変異
BAM
VCF
?IGVによる可視化
?VCFファイル
:
Copyright ? Amelieff Corporation. All Rights Reserved.
7
N G S デ ー タ の S N V / I n d e l 検 出
?アノテーション情報
SnpEff
基本情報
ICGC
COSMIC
転写産物によって、
タンパク質へのインパ
クトが大きく異なる。
米国の直腸がんのプロジェクトで
0.46%の頻度で報告されている。
Functional impactが「Low」に
なっているが、どのように考えたらいいのか?
Copyright ? Amelieff Corporation. All Rights Reserved.
8
N G S デ ー タ の S N V / I n d e l 検 出
?アノテーション情報
ClinVar
HGVD, ESP, 1kgp
OMIM
IntOGen
さまざまな集団中で
Altアリルの頻度が高い。
疾患関連変異のデータベースに登録がない。
dbSNP
Copyright ? Amelieff Corporation. All Rights Reserved.
9
N G S デ ー タ の S N V / I n d e l 検 出
dbSNPに登録されている変異は除外してもいいのだろうか?
サンプル数が増えて
同じ作業を繰り返している。
自動的に絞り込んでくれるシ
ステムを作れないだろうか?
どのデータベースが信頼できるのか?
疾患関連の既知の変異のみを
まずは見たい。
でも、新規の可能性がある
変異情報も蓄積したい。
?アノテーション情報の活用?
Copyright ? Amelieff Corporation. All Rights Reserved.
10
公 開 デ ー タ ベ ー ス
Prediction database
Disease curation
Variant database
11
公 開 デ ー タ ベ ー ス
?Variant database
HGVD
※引用 http://www.genome.med.kyoto-u.ac.jp/SnpDB/statistics.html
? 日本人のゲノム情報データベース Human Genetic Variation
Databaseは、2013年11月12日に公開。
? 登録されているSNPの半分以上は、dbSNPなどこれまでの既知変異デー
タベースに含まれていない日本人特異的。
? 日本人1,208名のエクソームシーケンシングデータから発見されたアリ
ルやジェノタイプの頻度を公開。
443,967変異を収録
12
公 開 デ ー タ ベ ー ス
?Variant database
HGVD
? 2013.11.13公開データのサマリを示します。
[ Alt allele frequencyの分布 ][ Total allele countの分布 ]
データベースに含まれる1,208人の2,416本のアリルの
うち、各SNVにおいてジェノタイピングしたアリル数。
Altのアリル頻度の出現回数。
Copyright ? Amelieff Corporation. All Rights Reserved.
13
公 開 デ ー タ ベ ー ス
?Disease curation
ClinVar
? 論文
? 臨床医学的に重要な変異と表現型の関連性についてのデータベース。
ClinVar: public archive of relationships among sequence variation and human phenotype
Landrum MJ, Lee JM, et al., Nucleic Acids Res. 2014 Jan 1
? 0 - Uncertain significance,
1 - not provided
2 - Benign
3 - Likely benign
4 - probable-pathogenic,
5 - pathogenic
6 - drug-response
7 - histocompatibility
255 – other / confers sensitivity /
risk factor / association / protective 88,268変異を収録
※引用 http://www.ncbi.nlm.nih.gov/clinvar/docs/clinsig/
Copyright ? Amelieff Corporation. All Rights Reserved.
14
公 開 デ ー タ ベ ー ス
?Prediction database
dbNSFP
[1] dbNSFP: A Lightweight Database of Human Nonsynonymous SNPs and Their
Functional Predictions
Liu et al., HUMAN MUTATION, Vol. 32, No. 8, 894–899, 2011.
[2] dbNSFP v2.0: A Database of Human Non-synonymous SNVs and Their Functional
Predictions and Annotations
Liu et al., HUMAN MUTATION Database in Brief 34: E2393-E2402 (2013) Online.
? 論文
? ヒトゲノムで起こりうるnon-synonymous SNP(NS)について、
SIFT、PolyPhen-2、LRT、Mutation Tasterによるprediction
scoreを公開。
? PhyloP によるconservation scoreを公開。
? 遺伝子とコドンは、hg18のCCDS v.20090327に基づいて計算し、
liftOver tool を用いてhg19に変換。
? 全てのscoreは高いほど、高度に保存されている、または、有害で
ある可能性が高い。
Copyright ? Amelieff Corporation. All Rights Reserved.
15
公 開 デ ー タ ベ ー ス
?Prediction database
dbNSFP
? dbSNP V2.0では、prediction scoreにMutationAssessor と
FATHMM、conservation scoreにGERP++ と SiPhyを追加。
※引用 論文[2]のfigure 2, 3-A, 3-B ttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC4109890/
[ dbNSFP v2.0に登録されているscoreの割合 ]
prediction score conservation score
[prediction score と conservation scoreの樹形図]
UPGMA(非加重平均結合法)を用いてクラスタ解析。
Copyright ? Amelieff Corporation. All Rights Reserved.
16
公 開 デ ー タ ベ ー ス
?データベースの特徴
1kgp
(39,619,602)ESP
(1,942,722)
HGVD
(443,967)
Variant database
1kgp独自の変異
ESP独自の変異
HGVD独自の変異
98.6%:
:
:
72.6%
65.7%
3つに共通する変異と、
HGVD独自の変異では、
Altアリル頻度の分布が異なる。
[ HGVDのAltアリル頻度 ]
COMMON
(78,023)
UNIQUE
(291,592)
Min. 0.0004 0.0004
1st Qu. 0.0023 0.0013
Median 0.0233 0.0017
Mean 0.1586 0.0125
3rd Qu. 0.2015 0.0033
Max. 1 1
UE
ICGC
(9,805,320)
COSMIC
(1,024,612)
ClinVar
(88,268)
Copyright ? Amelieff Corporation. All Rights Reserved.
17
公 開 デ ー タ ベ ー ス
?データベースの特徴
ICGC独自の変異
COSMIC独自の変異
ClinVar独自の変異
Disease curation
96.7%:
:
:
67.9%
84.5%
0
2000
4000
6000
8000
10000
12000
COSMIC ∩ Clinvar ICGC ∩ Clinvar
CLNSIG=255
CLNSIG=6
CLNSIG=5
CLNSIG=4
CLNSIG=3
CLNSIG=2
CLNSIG=1
CLNSIG=0
ClinVarと共通する変異のうち、疾患関連の
インパクトがあるとされた(≥4の)変異の
割合は、COSMICが77.8%、ICGCが56.4%
ClinVar
(88,268)
Copyright ? Amelieff Corporation. All Rights Reserved.
18
公 開 デ ー タ ベ ー ス
?データベースの特徴
HGVD とClinVarに共通する変異
HGVDのうち共通する変異の割合
ClinVarのうち共通する変異の割合
Variant database と Disease curation
5,176SNPs:
:
:
1.17%
5.86%
HGVD
(443,967)
さらにデータベースに閾値を設定すると…
? ClinVarで疾患関連のインパクトがあるとされた
(≥4の)変異は、1,743SNPs
? HGVDで「アリル頻度が5%未満」となる変異は、
3,303SNPs
? 「ClinVar」かつ「アリル頻度が5%未満」とな
る変異は、468SNPs
? driver gene / mutationを特定するソフトウェア。
? TCGAなどのExome-seqデータ(6,079 cases)を使用。
? 多数のアルゴリズムで変異の有害性を評価してDriver Scoreを
付与。
Copyright ? Amelieff Corporation. All Rights Reserved.
19
公 開 デ ー タ ベ ー ス
?がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
CanDrA: Cancer-Specific Driver Missense Mutation Annotation with Optimized Features
Mao Y, et al., PLoS ONE 8(10): e77945. 2013.
? missense driver mutationの predictionソフトウェア。
? driver mutationを「腫瘍細胞にgrowth advantage を獲得させる体細胞変異」と定義。
? COSMIC、TCGA、Cancer Cell Line Encyclopedia (CCLE)のデータから、
driver mutationとpassenger mutationのトレーニングデータを作成。
? support vector machine (SMV) algorithmを用いて、3つのカテゴリ(driver、
passenger、non-call)に分類。
CanDrA
DriverDB: an exome sequencing database for cancer driver gene identification
Cheng et al., Nucleic Acids Research, 2013.DriverDB
Copyright ? Amelieff Corporation. All Rights Reserved.
20
公 開 デ ー タ ベ ー ス
? 実験医学増刊「個別化医療を拓くがんゲノム研究」の3章6の英語版
? cancer mutationのインパクトの評価
① non-synonymous mutationsを特定する。
SIFT, Polyphen-2, Mutation Assessor ,Condel, FATHMM, CHASM,
transFIC
② driver mutationによって細胞は増殖優位性を獲得する。このようなpositive
selectionのシグナルは、ドライバー遺伝子の推定にも用いられる。
MuSiC, MutSigCV , OncodriverFM , OncodriveCLUST , Active Driver
Identification of oncogenic driver mutations (Chapter 3.6)
Tamborero et al., Experimental Medicine, 2014
実験医学
※引用 https://www.yodosha.co.jp/jikkenigaku/book/9784758103404/
偶然よりも高い確率
で変異が蓄積される
機能的に影響を及ぼ
す変異に偏っている
特定の領域に蓄積する
タンパク質のリン酸化部
位に起きる傾向がある
?がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
Copyright ? Amelieff Corporation. All Rights Reserved.
21
デ ー タ ベ ー ス 活 用 実 践
① nsSNVとssSNVを検索
② 1kgpとESPで、MAFが5%を超える変異を除外
③ prediction scoreが高い順にランク付け
④ conservation scoreが高い順にランク付け
⑤ 疾患関連の組織で発現していない遺伝子の変異を除外
⑥ Mendelian Inheritance in Man (MIM)に登録のある、または、
GWASで報告のある遺伝子の変異を強調
⑦ 疾患を引き起こす遺伝子と相互作用する遺伝子の変異を強調
⑧ 疾患関連のパスウェイにある遺伝子の変異を強調
dbNSFPが推奨しているフィルタリング方法
?「疾患関連の既知変異探索と新規変異探索」の例
Copyright ? Amelieff Corporation. All Rights Reserved.
22
デ ー タ ベ ー ス 活 用 実 践
Variant classification
Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders
Yang et al., N Engl J Med 369, 2013.
?「疾患関連の既知変異探索と新規変異探索」の例
Copyright ? Amelieff Corporation. All Rights Reserved.
23
デ ー タ ベ ー ス 活 用 実 践
?データベースは更新が必要
ClinVar dbSNP
ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar
/release_notes/
http://www.ncbi.nlm.nih.gov/projects
/SNP/buildhistory.cgi
Date
Total
Submissions
1-Feb-15 156,999
1-Jan-15 149,013
1-Dec-14 148,008
1-Nov-14 144,117
1-Oct-14 143,601
1-Sep-14 143,114
1-Aug-14 127,557
: :
1-Aug-13 45,901
1-Jul-13 39,170
1-Jun-13 39,047
1-May-13 30,386
5-Apr-13 30,333
Build Date
142 19-Sep-14
141 21-May-14
140 20-Mar-14
139 25-Oct-13
138 25-Apr-13
137 26-Jun-12
136 26-Jan-12
135 12-Oct-11
: :
4 16-Dec-98
3 15-Dec-98
2 10-Dec-98
1 1-Dec-98
ICGC
Build Date
?release_18 21-Jan-15
?release_17 12-Sep-14
?release_16 15-May-14
?release_15.1 12-Feb-14
?release_15 4-Feb-14
?release_14 26-Sep-13
: :
?release_06 7-Jul-11
?release_05 5-Jun-11
?release_04 1-May-11
?release_03 6-Dec-10
?release_02 12-Aug-10
?release_01 13-Apr-10
https://dcc.icgc.org/repository
/legacy_data_releases
Copyright ? Amelieff Corporation. All Rights Reserved.
24
デ ー タ ベ ー ス 活 用 実 践
?解析アルゴリズムのブラッシュアップが必要
PROVEAN(Protein Variation Effect Analyzer)
? タンパク質におけるアミノ酸配列の変異が当てる影響度合いを数値化
? クエリは、アミノ酸配列(FASTA)とその変異パターン
? WEBフォームからも利用可能
※引用 http://provean.jcvi.org/about.php[5つのpredictionアルゴリズムと精度 ]
Copyright ? Amelieff Corporation. All Rights Reserved.
25
デ ー タ ベ ー ス 活 用 実 践
PROVEAN(Protein Variation Effect Analyzer)
? 複数の変異やサンプルを解析したい時は、Linuxで実行可能
① 2つの入力ファイルを準備
② コマンド(命令文)を入力して実行
$ provean.sh -q P04637.fasta -v P04637.var
--save_supporting_set P04637.sss
タンパク質のアミノ酸配列
( ファイル名:P04637.fasta )
タンパク質のアミノ酸配列
(ファイル名:P04637.var)
?解析アルゴリズムのブラッシュアップが必要
LinuxというOSで
実行します。
Copyright ? Amelieff Corporation. All Rights Reserved.
26
デ ー タ ベ ー ス 活 用 実 践
PROVEAN(Protein Variation Effect Analyzer)
? 複数の変異やサンプルを解析したい時は、Linuxで実行可能
③ 出力ファイル
Supporting Sequence Set
( ファイル名:P04637.sss )
SSSファイルのシーケンス
(ファイル名:P04637.sss.fasta)
?解析アルゴリズムのブラッシュアップが必要
Copyright ? Amelieff Corporation. All Rights Reserved.
27
本 日 の 内 容
? さまざまな公開データベース
– Gene-based Annotation:シーケンスのターゲット領域や、
疾患関連遺伝子の情報。
– Region-based Annotation:染色体領域や遺伝子情報。
– Variant database:変異の頻度情報。
– Disease curation:疾患関連の変異情報。
– Prediction database:有害な変異を予測。
? 「必要なデータベースを選択し、組み合わせ、変異データを用途
によって分類して、活用または保存する」方法は、実際のデータ
と目的に最適化することをおすすめします。
? データベースと解析アルゴリズムはブラッシュアップが必要です。
Copyright ? Amelieff Corporation. All Rights Reserved.
28
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使用するソフトや解析手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。
申込みフォーム http://goo.gl/g3SOtU
ア メ リ ク

More Related Content

What's hot (20)

遗伝研スパコンを使った解析の并列化.辫辫迟虫
遗伝研スパコンを使った解析の并列化.辫辫迟虫遗伝研スパコンを使った解析の并列化.辫辫迟虫
遗伝研スパコンを使った解析の并列化.辫辫迟虫
Osamu Ogasawara
?
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
Deep Learning JP
?
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
?
厂颈蹿迟特徴量について
厂颈蹿迟特徴量について厂颈蹿迟特徴量について
厂颈蹿迟特徴量について
la_flance
?
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decent第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
Taku Tsuzuki
?
时系列分析による异常検知入门
时系列分析による异常検知入门时系列分析による异常検知入门
时系列分析による异常検知入门
Yohei Sato
?
第8章 カ?ウス過程回帰による異常検知
第8章 カ?ウス過程回帰による異常検知第8章 カ?ウス過程回帰による異常検知
第8章 カ?ウス過程回帰による異常検知
Chika Inoshita
?
フリーソフトて?はし?める狈骋厂融合遗伝子解析入门
フリーソフトて?はし?める狈骋厂融合遗伝子解析入门フリーソフトて?はし?める狈骋厂融合遗伝子解析入门
フリーソフトて?はし?める狈骋厂融合遗伝子解析入门
Amelieff
?
DataDrift in Azure Machine Learning
DataDrift in Azure Machine LearningDataDrift in Azure Machine Learning
DataDrift in Azure Machine Learning
Keita Onabuta
?
础3颁という强化学习アルゴリズムで游んでみた话
础3颁という强化学习アルゴリズムで游んでみた话础3颁という强化学习アルゴリズムで游んでみた话
础3颁という强化学习アルゴリズムで游んでみた话
mooopan
?
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
Yuya Unno
?
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
?
骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)
Masahiro Suzuki
?
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
Deep Learning JP
?
厂狈笔データ解析入门
厂狈笔データ解析入门厂狈笔データ解析入门
厂狈笔データ解析入门
Amelieff
?
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui
?
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
?
なぜ骋笔鲍はディープラーニングに向いているか
なぜ骋笔鲍はディープラーニングに向いているかなぜ骋笔鲍はディープラーニングに向いているか
なぜ骋笔鲍はディープラーニングに向いているか
NVIDIA Japan
?
次世代シーケンサが求める机械学习
次世代シーケンサが求める机械学习次世代シーケンサが求める机械学习
次世代シーケンサが求める机械学习
sesejun
?
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
Katsuki Ohto
?
遗伝研スパコンを使った解析の并列化.辫辫迟虫
遗伝研スパコンを使った解析の并列化.辫辫迟虫遗伝研スパコンを使った解析の并列化.辫辫迟虫
遗伝研スパコンを使った解析の并列化.辫辫迟虫
Osamu Ogasawara
?
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
Deep Learning JP
?
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
?
厂颈蹿迟特徴量について
厂颈蹿迟特徴量について厂颈蹿迟特徴量について
厂颈蹿迟特徴量について
la_flance
?
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decent第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
Taku Tsuzuki
?
时系列分析による异常検知入门
时系列分析による异常検知入门时系列分析による异常検知入门
时系列分析による异常検知入门
Yohei Sato
?
第8章 カ?ウス過程回帰による異常検知
第8章 カ?ウス過程回帰による異常検知第8章 カ?ウス過程回帰による異常検知
第8章 カ?ウス過程回帰による異常検知
Chika Inoshita
?
フリーソフトて?はし?める狈骋厂融合遗伝子解析入门
フリーソフトて?はし?める狈骋厂融合遗伝子解析入门フリーソフトて?はし?める狈骋厂融合遗伝子解析入门
フリーソフトて?はし?める狈骋厂融合遗伝子解析入门
Amelieff
?
DataDrift in Azure Machine Learning
DataDrift in Azure Machine LearningDataDrift in Azure Machine Learning
DataDrift in Azure Machine Learning
Keita Onabuta
?
础3颁という强化学习アルゴリズムで游んでみた话
础3颁という强化学习アルゴリズムで游んでみた话础3颁という强化学习アルゴリズムで游んでみた话
础3颁という强化学习アルゴリズムで游んでみた话
mooopan
?
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
Yuya Unno
?
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
?
骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)
Masahiro Suzuki
?
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
Deep Learning JP
?
厂狈笔データ解析入门
厂狈笔データ解析入门厂狈笔データ解析入门
厂狈笔データ解析入门
Amelieff
?
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui
?
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
?
なぜ骋笔鲍はディープラーニングに向いているか
なぜ骋笔鲍はディープラーニングに向いているかなぜ骋笔鲍はディープラーニングに向いているか
なぜ骋笔鲍はディープラーニングに向いているか
NVIDIA Japan
?
次世代シーケンサが求める机械学习
次世代シーケンサが求める机械学习次世代シーケンサが求める机械学习
次世代シーケンサが求める机械学习
sesejun
?
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
Katsuki Ohto
?

Viewers also liked (15)

フリーソフトではじめる颁丑滨笔-蝉别辩解析冲第40回勉强会资料
フリーソフトではじめる颁丑滨笔-蝉别辩解析冲第40回勉强会资料フリーソフトではじめる颁丑滨笔-蝉别辩解析冲第40回勉强会资料
フリーソフトではじめる颁丑滨笔-蝉别辩解析冲第40回勉强会资料
Amelieff
?
狈骋厂现场の会第2回冲アメリエフ株式会社冲がん贰虫辞尘别解析
狈骋厂现场の会第2回冲アメリエフ株式会社冲がん贰虫辞尘别解析狈骋厂现场の会第2回冲アメリエフ株式会社冲がん贰虫辞尘别解析
狈骋厂现场の会第2回冲アメリエフ株式会社冲がん贰虫辞尘别解析
Amelieff
?
贰虫辞尘别解析入门
贰虫辞尘别解析入门贰虫辞尘别解析入门
贰虫辞尘别解析入门
Amelieff
?
狈骋厂现场の会第2回冲アメリエフ株式会社冲厂狈痴フィルタリング
狈骋厂现场の会第2回冲アメリエフ株式会社冲厂狈痴フィルタリング狈骋厂现场の会第2回冲アメリエフ株式会社冲厂狈痴フィルタリング
狈骋厂现场の会第2回冲アメリエフ株式会社冲厂狈痴フィルタリング
Amelieff
?
はじめての尝颈苍耻虫
はじめての尝颈苍耻虫はじめての尝颈苍耻虫
はじめての尝颈苍耻虫
Amelieff
?
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
Genaris Omics, Inc.
?
狈骋厂现场の会第2回冲アメリエフ株式会社冲蚕肠濒别补苍别谤
狈骋厂现场の会第2回冲アメリエフ株式会社冲蚕肠濒别补苍别谤狈骋厂现场の会第2回冲アメリエフ株式会社冲蚕肠濒别补苍别谤
狈骋厂现场の会第2回冲アメリエフ株式会社冲蚕肠濒别补苍别谤
Amelieff
?
尘颈搁狈础データ解析入门冲第23回勉强会资料
尘颈搁狈础データ解析入门冲第23回勉强会资料尘颈搁狈础データ解析入门冲第23回勉强会资料
尘颈搁狈础データ解析入门冲第23回勉强会资料
Amelieff
?
狈骋厂现场の会第2回冲アメリエフ株式会社冲搁狈础蝉别辩解析
狈骋厂现场の会第2回冲アメリエフ株式会社冲搁狈础蝉别辩解析狈骋厂现场の会第2回冲アメリエフ株式会社冲搁狈础蝉别辩解析
狈骋厂现场の会第2回冲アメリエフ株式会社冲搁狈础蝉别辩解析
Amelieff
?
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
Genaris Omics, Inc.
?
次世代シーケンス解析サーバー搁别蝉别辩解析マニュアル
次世代シーケンス解析サーバー搁别蝉别辩解析マニュアル次世代シーケンス解析サーバー搁别蝉别辩解析マニュアル
次世代シーケンス解析サーバー搁别蝉别辩解析マニュアル
Amelieff
?
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
Amelieff
?
R を起動するその前に
R を起動するその前にR を起動するその前に
R を起動するその前に
Kosei ABE
?
狈骋厂速习コース:鲍狈滨齿の基础の理解/尝颈苍耻虫导入
狈骋厂速习コース:鲍狈滨齿の基础の理解/尝颈苍耻虫导入狈骋厂速习コース:鲍狈滨齿の基础の理解/尝颈苍耻虫导入
狈骋厂速习コース:鲍狈滨齿の基础の理解/尝颈苍耻虫导入
Takeru Nakazato
?
バイオインフォマティクスによる遗伝子発现解析
バイオインフォマティクスによる遗伝子発现解析バイオインフォマティクスによる遗伝子発现解析
バイオインフォマティクスによる遗伝子発现解析
sesejun
?
フリーソフトではじめる颁丑滨笔-蝉别辩解析冲第40回勉强会资料
フリーソフトではじめる颁丑滨笔-蝉别辩解析冲第40回勉强会资料フリーソフトではじめる颁丑滨笔-蝉别辩解析冲第40回勉强会资料
フリーソフトではじめる颁丑滨笔-蝉别辩解析冲第40回勉强会资料
Amelieff
?
狈骋厂现场の会第2回冲アメリエフ株式会社冲がん贰虫辞尘别解析
狈骋厂现场の会第2回冲アメリエフ株式会社冲がん贰虫辞尘别解析狈骋厂现场の会第2回冲アメリエフ株式会社冲がん贰虫辞尘别解析
狈骋厂现场の会第2回冲アメリエフ株式会社冲がん贰虫辞尘别解析
Amelieff
?
贰虫辞尘别解析入门
贰虫辞尘别解析入门贰虫辞尘别解析入门
贰虫辞尘别解析入门
Amelieff
?
狈骋厂现场の会第2回冲アメリエフ株式会社冲厂狈痴フィルタリング
狈骋厂现场の会第2回冲アメリエフ株式会社冲厂狈痴フィルタリング狈骋厂现场の会第2回冲アメリエフ株式会社冲厂狈痴フィルタリング
狈骋厂现场の会第2回冲アメリエフ株式会社冲厂狈痴フィルタリング
Amelieff
?
はじめての尝颈苍耻虫
はじめての尝颈苍耻虫はじめての尝颈苍耻虫
はじめての尝颈苍耻虫
Amelieff
?
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
Genaris Omics, Inc.
?
狈骋厂现场の会第2回冲アメリエフ株式会社冲蚕肠濒别补苍别谤
狈骋厂现场の会第2回冲アメリエフ株式会社冲蚕肠濒别补苍别谤狈骋厂现场の会第2回冲アメリエフ株式会社冲蚕肠濒别补苍别谤
狈骋厂现场の会第2回冲アメリエフ株式会社冲蚕肠濒别补苍别谤
Amelieff
?
尘颈搁狈础データ解析入门冲第23回勉强会资料
尘颈搁狈础データ解析入门冲第23回勉强会资料尘颈搁狈础データ解析入门冲第23回勉强会资料
尘颈搁狈础データ解析入门冲第23回勉强会资料
Amelieff
?
狈骋厂现场の会第2回冲アメリエフ株式会社冲搁狈础蝉别辩解析
狈骋厂现场の会第2回冲アメリエフ株式会社冲搁狈础蝉别辩解析狈骋厂现场の会第2回冲アメリエフ株式会社冲搁狈础蝉别辩解析
狈骋厂现场の会第2回冲アメリエフ株式会社冲搁狈础蝉别辩解析
Amelieff
?
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
Genaris Omics, Inc.
?
次世代シーケンス解析サーバー搁别蝉别辩解析マニュアル
次世代シーケンス解析サーバー搁别蝉别辩解析マニュアル次世代シーケンス解析サーバー搁别蝉别辩解析マニュアル
次世代シーケンス解析サーバー搁别蝉别辩解析マニュアル
Amelieff
?
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
Amelieff
?
R を起動するその前に
R を起動するその前にR を起動するその前に
R を起動するその前に
Kosei ABE
?
狈骋厂速习コース:鲍狈滨齿の基础の理解/尝颈苍耻虫导入
狈骋厂速习コース:鲍狈滨齿の基础の理解/尝颈苍耻虫导入狈骋厂速习コース:鲍狈滨齿の基础の理解/尝颈苍耻虫导入
狈骋厂速习コース:鲍狈滨齿の基础の理解/尝颈苍耻虫导入
Takeru Nakazato
?
バイオインフォマティクスによる遗伝子発现解析
バイオインフォマティクスによる遗伝子発现解析バイオインフォマティクスによる遗伝子発现解析
バイオインフォマティクスによる遗伝子発现解析
sesejun
?

Similar to フリーソフトで始める狈骋厂解析冲第41?42回勉强会资料 (20)

颁叠滨学会2013チュートリアル 狈骋厂データ解析入门 (解析编)配布资料
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门 (解析编)配布资料颁叠滨学会2013チュートリアル 狈骋厂データ解析入门 (解析编)配布资料
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门 (解析编)配布资料
Genaris Omics, Inc.
?
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdfStatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
The University of Tokyo, Osaka University, RIKEN IMS
?
36th mtg in NIBIO
 36th mtg in NIBIO 36th mtg in NIBIO
36th mtg in NIBIO
Maori Ito
?
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门(実験条件编) 配布资料
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门(実験条件编) 配布资料颁叠滨学会2013チュートリアル 狈骋厂データ解析入门(実験条件编) 配布资料
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门(実験条件编) 配布资料
Genaris Omics, Inc.
?
Bh13.13 sagace 1
Bh13.13 sagace 1Bh13.13 sagace 1
Bh13.13 sagace 1
Maori Ito
?
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
pinmarch_t Tada
?
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
DNA Data Bank of Japan center
?
事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方
Yuki Yamada
?
150304 science council of japan-kawaji
150304 science council of japan-kawaji150304 science council of japan-kawaji
150304 science council of japan-kawaji
Hideya Kawaji
?
コスモバイオニュース No.122 (2016年10月)
コスモバイオニュース No.122 (2016年10月)コスモバイオニュース No.122 (2016年10月)
コスモバイオニュース No.122 (2016年10月)
COSMO BIO
?
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
弘毅 露崎
?
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
Itoshi Nikaido
?
Ajacs33 文献の検索とその整理方法
Ajacs33 文献の検索とその整理方法Ajacs33 文献の検索とその整理方法
Ajacs33 文献の検索とその整理方法
yayamamo @ DBCLS Kashiwanoha
?
パワポ资料作成の基础(β版)
パワポ资料作成の基础(β版)パワポ资料作成の基础(β版)
パワポ资料作成の基础(β版)
PPTpresentation11
?
A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...
Shuji Suzuki
?
[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法
DNA Data Bank of Japan center
?
40th MTG in NIBIO
40th MTG in NIBIO40th MTG in NIBIO
40th MTG in NIBIO
Maori Ito
?
41st MTG in NIBIO
41st MTG in NIBIO41st MTG in NIBIO
41st MTG in NIBIO
Maori Ito
?
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システムイメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
Dell TechCenter Japan
?
がんと共に生きる
がんと共に生きるがんと共に生きる
がんと共に生きる
kinosita1316
?
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门 (解析编)配布资料
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门 (解析编)配布资料颁叠滨学会2013チュートリアル 狈骋厂データ解析入门 (解析编)配布资料
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门 (解析编)配布资料
Genaris Omics, Inc.
?
36th mtg in NIBIO
 36th mtg in NIBIO 36th mtg in NIBIO
36th mtg in NIBIO
Maori Ito
?
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门(実験条件编) 配布资料
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门(実験条件编) 配布资料颁叠滨学会2013チュートリアル 狈骋厂データ解析入门(実験条件编) 配布资料
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门(実験条件编) 配布资料
Genaris Omics, Inc.
?
Bh13.13 sagace 1
Bh13.13 sagace 1Bh13.13 sagace 1
Bh13.13 sagace 1
Maori Ito
?
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
pinmarch_t Tada
?
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
DNA Data Bank of Japan center
?
事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方
Yuki Yamada
?
150304 science council of japan-kawaji
150304 science council of japan-kawaji150304 science council of japan-kawaji
150304 science council of japan-kawaji
Hideya Kawaji
?
コスモバイオニュース No.122 (2016年10月)
コスモバイオニュース No.122 (2016年10月)コスモバイオニュース No.122 (2016年10月)
コスモバイオニュース No.122 (2016年10月)
COSMO BIO
?
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
弘毅 露崎
?
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
Itoshi Nikaido
?
パワポ资料作成の基础(β版)
パワポ资料作成の基础(β版)パワポ资料作成の基础(β版)
パワポ资料作成の基础(β版)
PPTpresentation11
?
A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...A gene-based association method for mapping traits using reference transcript...
A gene-based association method for mapping traits using reference transcript...
Shuji Suzuki
?
[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法
DNA Data Bank of Japan center
?
40th MTG in NIBIO
40th MTG in NIBIO40th MTG in NIBIO
40th MTG in NIBIO
Maori Ito
?
41st MTG in NIBIO
41st MTG in NIBIO41st MTG in NIBIO
41st MTG in NIBIO
Maori Ito
?
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システムイメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
Dell TechCenter Japan
?
がんと共に生きる
がんと共に生きるがんと共に生きる
がんと共に生きる
kinosita1316
?

フリーソフトで始める狈骋厂解析冲第41?42回勉强会资料

  • 1. フ リ ー ソ フ ト で は じ め る N G S 解 析 入 門 ~公開データベース活用編~
  • 2. Copyright ? Amelieff Corporation. All Rights Reserved. 2 本 日 の テ ー マ ? NGSデータのSNV/Indel検出 ? 公開データベース – Variant database – Disease curation – Prediction database – データベースの特徴 ? データベース活用実践 – 「疾患関連の既知変異探索と新規変異探索」の例
  • 3. N G S デ ー タ の S N V / I n d e l 検 出 Copyright ? Amelieff Corporation. All Rights Reserved. 3 入力ファイル リードのクリーニング クオリティチェック リファレンスゲノムへのマッピング 重複リードを除去 リアライメント、リキャリブレーション マッピング結果のファイル ? Illumina CASAVA filter [Y] を除去 ? クオリティ20未満の塩基が80%以上のリードを除去 ? クオリティ20未満の末端をトリム ? 未知の塩基(N)が多いリード除去 ? 配列長が短いリード除去 ? 片側のみのリードを除去 ファイルの形式 フリーソフト 自社開発ツール SNV / Indel 検出とフィルタリング アノテーション付与 多型情報のファイル
  • 4. Copyright ? Amelieff Corporation. All Rights Reserved. 4 N G S デ ー タ の S N V / I n d e l 検 出 ショートリード リファレンスゲノム マッピングソフトウェア ?最新版 0.7.12(2014/12/28公開) ?BWA-SW & BWA-MEMアルゴリズム ? 70bp~1Mbに対応。 ? MEMはクオリティの高いシーケンスの時に高速かつ 高精度。70~100bpのイルミナシーケンス、454、 Ion Torrent、Sanger などで使用。 ? SWはgapが多いときに感度が良い。 ? Error rateは、100bpで2%以下、200bpで3%以下、 500bpで5%以下、 1000bp以上で10%以下が推奨。 ? BWA-backtrackアルゴリズム ? 100bp以上のイルミナシーケンス用に最適化。 ? Error rateは、2%以下が対象。 BWA
  • 5. Copyright ? Amelieff Corporation. All Rights Reserved. 5 N G S デ ー タ の S N V / I n d e l 検 出 ショートリード リファレンスゲノム パッケージソフトウェア ?最新版 3.3-0(2014/10/23公開) ?DNAseqおよびRNAseqからSNV/Indel検出 ? UnifiedGenotyperとHaplotypeCaller ? HaplotypeCallerはlocal de-novo assemblyを実施 ? VQSR(Variant Quality Score Recalibration)を使用 して、VQSLODを付与。既知SNPを用いたエラーモ デルによって、真の変異であるか評価。ガウス混合 モデルで推定した対数オッズ比。 ?2倍体以外の生物種の変異検出に対応。 ? 「-ploidy」オプションの引数として、倍数を指定可能。 GATK
  • 6. Copyright ? Amelieff Corporation. All Rights Reserved. 6 N G S デ ー タ の S N V / I n d e l 検 出 リードがマッピング されている様子 カバレージ 変異 BAM VCF ?IGVによる可視化 ?VCFファイル :
  • 7. Copyright ? Amelieff Corporation. All Rights Reserved. 7 N G S デ ー タ の S N V / I n d e l 検 出 ?アノテーション情報 SnpEff 基本情報 ICGC COSMIC 転写産物によって、 タンパク質へのインパ クトが大きく異なる。 米国の直腸がんのプロジェクトで 0.46%の頻度で報告されている。 Functional impactが「Low」に なっているが、どのように考えたらいいのか?
  • 8. Copyright ? Amelieff Corporation. All Rights Reserved. 8 N G S デ ー タ の S N V / I n d e l 検 出 ?アノテーション情報 ClinVar HGVD, ESP, 1kgp OMIM IntOGen さまざまな集団中で Altアリルの頻度が高い。 疾患関連変異のデータベースに登録がない。 dbSNP
  • 9. Copyright ? Amelieff Corporation. All Rights Reserved. 9 N G S デ ー タ の S N V / I n d e l 検 出 dbSNPに登録されている変異は除外してもいいのだろうか? サンプル数が増えて 同じ作業を繰り返している。 自動的に絞り込んでくれるシ ステムを作れないだろうか? どのデータベースが信頼できるのか? 疾患関連の既知の変異のみを まずは見たい。 でも、新規の可能性がある 変異情報も蓄積したい。 ?アノテーション情報の活用?
  • 10. Copyright ? Amelieff Corporation. All Rights Reserved. 10 公 開 デ ー タ ベ ー ス Prediction database Disease curation Variant database
  • 11. 11 公 開 デ ー タ ベ ー ス ?Variant database HGVD ※引用 http://www.genome.med.kyoto-u.ac.jp/SnpDB/statistics.html ? 日本人のゲノム情報データベース Human Genetic Variation Databaseは、2013年11月12日に公開。 ? 登録されているSNPの半分以上は、dbSNPなどこれまでの既知変異デー タベースに含まれていない日本人特異的。 ? 日本人1,208名のエクソームシーケンシングデータから発見されたアリ ルやジェノタイプの頻度を公開。 443,967変異を収録
  • 12. 12 公 開 デ ー タ ベ ー ス ?Variant database HGVD ? 2013.11.13公開データのサマリを示します。 [ Alt allele frequencyの分布 ][ Total allele countの分布 ] データベースに含まれる1,208人の2,416本のアリルの うち、各SNVにおいてジェノタイピングしたアリル数。 Altのアリル頻度の出現回数。
  • 13. Copyright ? Amelieff Corporation. All Rights Reserved. 13 公 開 デ ー タ ベ ー ス ?Disease curation ClinVar ? 論文 ? 臨床医学的に重要な変異と表現型の関連性についてのデータベース。 ClinVar: public archive of relationships among sequence variation and human phenotype Landrum MJ, Lee JM, et al., Nucleic Acids Res. 2014 Jan 1 ? 0 - Uncertain significance, 1 - not provided 2 - Benign 3 - Likely benign 4 - probable-pathogenic, 5 - pathogenic 6 - drug-response 7 - histocompatibility 255 – other / confers sensitivity / risk factor / association / protective 88,268変異を収録 ※引用 http://www.ncbi.nlm.nih.gov/clinvar/docs/clinsig/
  • 14. Copyright ? Amelieff Corporation. All Rights Reserved. 14 公 開 デ ー タ ベ ー ス ?Prediction database dbNSFP [1] dbNSFP: A Lightweight Database of Human Nonsynonymous SNPs and Their Functional Predictions Liu et al., HUMAN MUTATION, Vol. 32, No. 8, 894–899, 2011. [2] dbNSFP v2.0: A Database of Human Non-synonymous SNVs and Their Functional Predictions and Annotations Liu et al., HUMAN MUTATION Database in Brief 34: E2393-E2402 (2013) Online. ? 論文 ? ヒトゲノムで起こりうるnon-synonymous SNP(NS)について、 SIFT、PolyPhen-2、LRT、Mutation Tasterによるprediction scoreを公開。 ? PhyloP によるconservation scoreを公開。 ? 遺伝子とコドンは、hg18のCCDS v.20090327に基づいて計算し、 liftOver tool を用いてhg19に変換。 ? 全てのscoreは高いほど、高度に保存されている、または、有害で ある可能性が高い。
  • 15. Copyright ? Amelieff Corporation. All Rights Reserved. 15 公 開 デ ー タ ベ ー ス ?Prediction database dbNSFP ? dbSNP V2.0では、prediction scoreにMutationAssessor と FATHMM、conservation scoreにGERP++ と SiPhyを追加。 ※引用 論文[2]のfigure 2, 3-A, 3-B ttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC4109890/ [ dbNSFP v2.0に登録されているscoreの割合 ] prediction score conservation score [prediction score と conservation scoreの樹形図] UPGMA(非加重平均結合法)を用いてクラスタ解析。
  • 16. Copyright ? Amelieff Corporation. All Rights Reserved. 16 公 開 デ ー タ ベ ー ス ?データベースの特徴 1kgp (39,619,602)ESP (1,942,722) HGVD (443,967) Variant database 1kgp独自の変異 ESP独自の変異 HGVD独自の変異 98.6%: : : 72.6% 65.7% 3つに共通する変異と、 HGVD独自の変異では、 Altアリル頻度の分布が異なる。 [ HGVDのAltアリル頻度 ] COMMON (78,023) UNIQUE (291,592) Min. 0.0004 0.0004 1st Qu. 0.0023 0.0013 Median 0.0233 0.0017 Mean 0.1586 0.0125 3rd Qu. 0.2015 0.0033 Max. 1 1 UE
  • 17. ICGC (9,805,320) COSMIC (1,024,612) ClinVar (88,268) Copyright ? Amelieff Corporation. All Rights Reserved. 17 公 開 デ ー タ ベ ー ス ?データベースの特徴 ICGC独自の変異 COSMIC独自の変異 ClinVar独自の変異 Disease curation 96.7%: : : 67.9% 84.5% 0 2000 4000 6000 8000 10000 12000 COSMIC ∩ Clinvar ICGC ∩ Clinvar CLNSIG=255 CLNSIG=6 CLNSIG=5 CLNSIG=4 CLNSIG=3 CLNSIG=2 CLNSIG=1 CLNSIG=0 ClinVarと共通する変異のうち、疾患関連の インパクトがあるとされた(≥4の)変異の 割合は、COSMICが77.8%、ICGCが56.4%
  • 18. ClinVar (88,268) Copyright ? Amelieff Corporation. All Rights Reserved. 18 公 開 デ ー タ ベ ー ス ?データベースの特徴 HGVD とClinVarに共通する変異 HGVDのうち共通する変異の割合 ClinVarのうち共通する変異の割合 Variant database と Disease curation 5,176SNPs: : : 1.17% 5.86% HGVD (443,967) さらにデータベースに閾値を設定すると… ? ClinVarで疾患関連のインパクトがあるとされた (≥4の)変異は、1,743SNPs ? HGVDで「アリル頻度が5%未満」となる変異は、 3,303SNPs ? 「ClinVar」かつ「アリル頻度が5%未満」とな る変異は、468SNPs
  • 19. ? driver gene / mutationを特定するソフトウェア。 ? TCGAなどのExome-seqデータ(6,079 cases)を使用。 ? 多数のアルゴリズムで変異の有害性を評価してDriver Scoreを 付与。 Copyright ? Amelieff Corporation. All Rights Reserved. 19 公 開 デ ー タ ベ ー ス ?がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム CanDrA: Cancer-Specific Driver Missense Mutation Annotation with Optimized Features Mao Y, et al., PLoS ONE 8(10): e77945. 2013. ? missense driver mutationの predictionソフトウェア。 ? driver mutationを「腫瘍細胞にgrowth advantage を獲得させる体細胞変異」と定義。 ? COSMIC、TCGA、Cancer Cell Line Encyclopedia (CCLE)のデータから、 driver mutationとpassenger mutationのトレーニングデータを作成。 ? support vector machine (SMV) algorithmを用いて、3つのカテゴリ(driver、 passenger、non-call)に分類。 CanDrA DriverDB: an exome sequencing database for cancer driver gene identification Cheng et al., Nucleic Acids Research, 2013.DriverDB
  • 20. Copyright ? Amelieff Corporation. All Rights Reserved. 20 公 開 デ ー タ ベ ー ス ? 実験医学増刊「個別化医療を拓くがんゲノム研究」の3章6の英語版 ? cancer mutationのインパクトの評価 ① non-synonymous mutationsを特定する。 SIFT, Polyphen-2, Mutation Assessor ,Condel, FATHMM, CHASM, transFIC ② driver mutationによって細胞は増殖優位性を獲得する。このようなpositive selectionのシグナルは、ドライバー遺伝子の推定にも用いられる。 MuSiC, MutSigCV , OncodriverFM , OncodriveCLUST , Active Driver Identification of oncogenic driver mutations (Chapter 3.6) Tamborero et al., Experimental Medicine, 2014 実験医学 ※引用 https://www.yodosha.co.jp/jikkenigaku/book/9784758103404/ 偶然よりも高い確率 で変異が蓄積される 機能的に影響を及ぼ す変異に偏っている 特定の領域に蓄積する タンパク質のリン酸化部 位に起きる傾向がある ?がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
  • 21. Copyright ? Amelieff Corporation. All Rights Reserved. 21 デ ー タ ベ ー ス 活 用 実 践 ① nsSNVとssSNVを検索 ② 1kgpとESPで、MAFが5%を超える変異を除外 ③ prediction scoreが高い順にランク付け ④ conservation scoreが高い順にランク付け ⑤ 疾患関連の組織で発現していない遺伝子の変異を除外 ⑥ Mendelian Inheritance in Man (MIM)に登録のある、または、 GWASで報告のある遺伝子の変異を強調 ⑦ 疾患を引き起こす遺伝子と相互作用する遺伝子の変異を強調 ⑧ 疾患関連のパスウェイにある遺伝子の変異を強調 dbNSFPが推奨しているフィルタリング方法 ?「疾患関連の既知変異探索と新規変異探索」の例
  • 22. Copyright ? Amelieff Corporation. All Rights Reserved. 22 デ ー タ ベ ー ス 活 用 実 践 Variant classification Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders Yang et al., N Engl J Med 369, 2013. ?「疾患関連の既知変異探索と新規変異探索」の例
  • 23. Copyright ? Amelieff Corporation. All Rights Reserved. 23 デ ー タ ベ ー ス 活 用 実 践 ?データベースは更新が必要 ClinVar dbSNP ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar /release_notes/ http://www.ncbi.nlm.nih.gov/projects /SNP/buildhistory.cgi Date Total Submissions 1-Feb-15 156,999 1-Jan-15 149,013 1-Dec-14 148,008 1-Nov-14 144,117 1-Oct-14 143,601 1-Sep-14 143,114 1-Aug-14 127,557 : : 1-Aug-13 45,901 1-Jul-13 39,170 1-Jun-13 39,047 1-May-13 30,386 5-Apr-13 30,333 Build Date 142 19-Sep-14 141 21-May-14 140 20-Mar-14 139 25-Oct-13 138 25-Apr-13 137 26-Jun-12 136 26-Jan-12 135 12-Oct-11 : : 4 16-Dec-98 3 15-Dec-98 2 10-Dec-98 1 1-Dec-98 ICGC Build Date ?release_18 21-Jan-15 ?release_17 12-Sep-14 ?release_16 15-May-14 ?release_15.1 12-Feb-14 ?release_15 4-Feb-14 ?release_14 26-Sep-13 : : ?release_06 7-Jul-11 ?release_05 5-Jun-11 ?release_04 1-May-11 ?release_03 6-Dec-10 ?release_02 12-Aug-10 ?release_01 13-Apr-10 https://dcc.icgc.org/repository /legacy_data_releases
  • 24. Copyright ? Amelieff Corporation. All Rights Reserved. 24 デ ー タ ベ ー ス 活 用 実 践 ?解析アルゴリズムのブラッシュアップが必要 PROVEAN(Protein Variation Effect Analyzer) ? タンパク質におけるアミノ酸配列の変異が当てる影響度合いを数値化 ? クエリは、アミノ酸配列(FASTA)とその変異パターン ? WEBフォームからも利用可能 ※引用 http://provean.jcvi.org/about.php[5つのpredictionアルゴリズムと精度 ]
  • 25. Copyright ? Amelieff Corporation. All Rights Reserved. 25 デ ー タ ベ ー ス 活 用 実 践 PROVEAN(Protein Variation Effect Analyzer) ? 複数の変異やサンプルを解析したい時は、Linuxで実行可能 ① 2つの入力ファイルを準備 ② コマンド(命令文)を入力して実行 $ provean.sh -q P04637.fasta -v P04637.var --save_supporting_set P04637.sss タンパク質のアミノ酸配列 ( ファイル名:P04637.fasta ) タンパク質のアミノ酸配列 (ファイル名:P04637.var) ?解析アルゴリズムのブラッシュアップが必要 LinuxというOSで 実行します。
  • 26. Copyright ? Amelieff Corporation. All Rights Reserved. 26 デ ー タ ベ ー ス 活 用 実 践 PROVEAN(Protein Variation Effect Analyzer) ? 複数の変異やサンプルを解析したい時は、Linuxで実行可能 ③ 出力ファイル Supporting Sequence Set ( ファイル名:P04637.sss ) SSSファイルのシーケンス (ファイル名:P04637.sss.fasta) ?解析アルゴリズムのブラッシュアップが必要
  • 27. Copyright ? Amelieff Corporation. All Rights Reserved. 27 本 日 の 内 容 ? さまざまな公開データベース – Gene-based Annotation:シーケンスのターゲット領域や、 疾患関連遺伝子の情報。 – Region-based Annotation:染色体領域や遺伝子情報。 – Variant database:変異の頻度情報。 – Disease curation:疾患関連の変異情報。 – Prediction database:有害な変異を予測。 ? 「必要なデータベースを選択し、組み合わせ、変異データを用途 によって分類して、活用または保存する」方法は、実際のデータ と目的に最適化することをおすすめします。 ? データベースと解析アルゴリズムはブラッシュアップが必要です。
  • 28. Copyright ? Amelieff Corporation. All Rights Reserved. 28 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク