狠狠撸

狠狠撸Share a Scribd company logo
NGSを用いたジェノタイピングを	
 ?
様々な解析に用いるには?	
 ?
~高密度SNPデータ解析の処方箋~	
鐘ケ江 弘美	
 ?
	
 ?
東京大学大学院 農学生命科学研究科 	
 ?
生産?環境生物学専攻 生物測定学研究室	
2015/11/11	
 1
Molecular	
 ?Markers	
?? Simple	
 ?Sequence	
 ?Repeats	
 ?(SSR)	
 ?markers	
 ?	
 ?
遺伝子のマッピングやQTL解析、マーカー選抜など様々な解析に利用される	
 ?
共優性マーカー(codominant	
 ?maker)、mul=allelicマーカー	
 ?
再現性が高く、他の種でも利用可能	
 ?
	
 ?	
 ?
?? Single	
 ?Nucleo8de	
 ?Polymorphism	
 ?(SNP)	
 ?markers	
 ?
SSRマーカーと比較するとハイスループット	
 ?
連鎖地図やゲノミックセレクション、GWASに利用されている 	
 ?
	
 ?
?? Next	
 ?genera8on	
 ?sequencing	
 ?(NGS)	
 ?を使ったジェノタイピング	
 ?
RAD-?‐seq、GBS、low	
 ?depth	
 ?WGS	
 ?
一度に多くのSNPを得ることができる	
 ?
マーカーの偏りが少ない	
 ?
欠測も多い	
 ?
	
 ?
	
 ?
C	
A	
SNP	
2015/11/11	
 2
RAD-?‐seq	
 ?
	
 ?	
 ?	
 ?	
 ?
Genome	
 ?wide	
 ?resequence	
 ?
SNP	
 ?posi=on	
 ?
系統名	
3	
RAD-?‐seqでは欠測が多い	
SNP	
 ?posi=on	
 ?
系統名	
2015/11/11
GWAS	
 ?やゲノミックセレクションに利用する時の問題点	
High	
 ?coverage	
?? 欠測が少ない	
?? コストが高い	
Low	
 ?coverage	
?? 欠測が多い	
?? コストが低い	
?? 遺伝子型の正確性
が低下する可能性	
2015/11/11	
 4
2015/11/11	
 5	
ゲノミックセレクション –出穂日の予測	
予測モデル	
 ?
y:出穂日	
 ?
y=f(x1,x2,x3,...,xk)	
出穂日予測	
 ?
y=f(x)	
	
 ?
	
C	
A	
SNP	
表現型(y)およびDNAマーカー多型を調査し、	
 ?
回帰分析を用いて、予測式f(x)を求めておく	
実際にはどこに遺伝子があるか分からないので、
高密度DNA多型を網羅的に予測に利用する	
出穂日(y)が未知の個体でも、	
 ?
DNAマーカー多型(x1,x2,x3,...,xk)から	
 ?
出穂日を予測できる。	
 ?
Togo	
 ?picture	
 ?gallery	
 ?by	
 ?DBCLS	
 ?is	
 ?
	
 ?Licensed	
 ?under	
 ?a	
 ?Crea=ve	
 ?Commons	
 ?表示 2.1	
 ?日本 (c)	
 ?
2015/11/11	
 6	
ゲノミックセレクション	
 ? 	
 ?-?‐欠測が多い場合	
 ?
予測モデル	
 ?
y:出穂日	
 ?
y=f(x1,x2,x3,...,xk)	
出穂日予測	
 ?
y=f(x)	
	
 ?
	
C	
A	
SNP	
欠測があるマーカーは マーカー遺伝子型から
行列を計算できない	
 ?
	
 ?
	
 ?
	
 ?
	
欠測が多く、DNA多型が低密度	
 ?
DNA多型を網羅的に予測に利用できない	
出穂日の予測精度が低下	
 ?
Togo	
 ?picture	
 ?gallery	
 ?by	
 ?DBCLS	
 ?is	
 ?
	
 ?Licensed	
 ?under	
 ?a	
 ?Crea=ve	
 ?Commons	
 ?表示 2.1	
 ?日本 (c)	
 ?
検出力の低下	
x1	
 ?
x2	
 ?
x3	
 ?
…	
 ?
DNA多型	
 ?
y1	
 ?
y2	
 ?
y3	
 ?
…	
 ?
=	
 b	
 ?+	
 ?e	
出穂日	
 ?
GWAS	
 ?やゲノミックセレクションに利用する時の問題点	
High	
 ?coverage	
??欠測が少ない	
??コストが高い	
Low	
 ?coverage	
??欠測が多い	
??コストが低い	
??ジェノタイピングの正確性が
低下する可能性	
2015/11/11	
 7	
欠測した遺伝子型を補完し	
 ?
低コストでジェノタイピング	
 ?
2015/11/11	
 8	
マーカーセットが異なるデータを用いる場合	
setA	
 setB	
両方のセットで遺伝子型データのある
重なったマーカーしか利用できない	
2つのデータセットで共通していない
マーカーの遺伝子型を補完する
Imputa=onを行うことで、	
 ?
すべてのマーカーを利用できる	
setA	
 setB	
Imputa8onを行わない場合	
 Imputa8onを行う場合
欠測した遺伝子型の補完	
2015/11/11	
 9	
手作業で欠測を補完する場合	
C	
G	
遺伝子型が似ている系統の情報をもとに、補完	
 ?
	
 ?
-?‐>	
 ?多数の系統およびSNPマーカーを利用する場合、手作業では不可能
2015/11/11	
 10	
IMPUTATION ソフトウエア	
ソフトウエア名	
 URL	
Beagle	
 hWps://faculty.washington.edu/browning/beagle/
beagle.html	
Tassel	
 hWp://www.maizegene=cs.net/#!tassel/c17q9	
IMPUTE2	
 hWps://mathgen.stats.ox.ac.uk/impute/
impute_v2.html	
PLINK	
 hWp://pngu.mgh.harvard.edu/~purcell/plink/
pimputa=on.shtml	
minimac2	
 hWp://genome.sph.umich.edu/wiki/Minimac2
2015/11/11	
11	
遺伝子型の予測	
Step	
 ?2	
Step	
 ?1	
Step	
 ?3	
品種A	
品種B	
品種C	
品種D	
品種E	
品種F	
マーカー	
マーカー	
マーカー	
サンプルで遺伝子型を	
 ?
共有している領域を特定	
 ?
ハプロタイプの情報から	
 ?
欠測している遺伝子型を補完	
ゲノムに存在する連鎖不平衡と	
 ?
ハプロタイプブロ ック構造を利用	
T C	
 C A G C G	
 T	
 C	
 G A G G A G C	
C C ?	
 A G C T C C G A G C ?	
 T C
T C ?	
 A G C G T C G A ?	
 G A G C
C C C A A C G T ?	
 G A G C G T C
A C C A	
 G C T C C ?	
 A G G G G T
C C C A G C T C C G A G	
 G ?	
 T T
T C C A G C G T C G ?	
 G G A G C
C C ?	
 A G C T C C G A G C ?	
 T C
T C ?	
 A G C G T C G A ?	
 G A G C
C C C A A C G T ?	
 G A G C G T C
A C C A G C T C C ?	
 A G G G G T
C C C A G C T C C G A G G ?	
 T T
品種A	
品種B	
品種C	
品種D	
品種E	
品種F	
T C C A G C G T C G A G G A G C
C C C A G C T C C G A G C G T C
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
品種A	
品種B	
品種C	
品種D	
品種E	
品種F
2015/11/11	
12	
リファレンスパネルを用いた遺伝子型の予測	
サンプル	
リファレンスパネル	
T ?	
 C A G C ?	
 ?	
 ?	
 G A G G A G ?	
C C C A G C ?	
 ?	
 ?	
 G A G C ?	
 T C
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
T ?	
 C A G C ?	
 ?	
 ?	
 G A G G A G ?	
C C C A G C ?	
 ?	
 ?	
 G A G C ?	
 T C
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
サンプル	
リファレンスパネル	
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
サンプル	
リファレンスパネル	
Step	
 ?2	
Step	
 ?1	
Step	
 ?3	
品種A	
品種B	
品種C	
品種D	
品種E	
品種F	
品種A	
品種B	
品種C	
品種D	
品種E	
品種F	
品種A	
品種B	
品種C	
品種D	
品種E	
品種F	
マーカー	
マーカー	
マーカー	
サンプルとリファレンスパネルの中の個体
で、遺伝子型を共有している領域を特定	
 ?
リファレンスパネルの遺伝子型と	
 ?
ハプロタイプの情報から	
 ?
欠測している遺伝子型を補完	
ゲノムに存在する連鎖不平衡と	
 ?
ハプロタイプブロ ック構造を利用	
T C C A G C G T C G A G G A G C
C C C A G C T C C G A G C G T C
2015/11/11	
 13	
リファレンスパネルを用いた遺伝子型の予測	
欠測を含むRAD-?‐seq	
ジェノタイピング	
 ?
されていないSNP	
リファレンスパネル	
ジェノタイピングされて
いないSNPの補完	
 ?
リファレンスパネル	
遺伝子型を補完した
サンプルデータ	
リファレンスパネルの遺伝子型に基づいて	
 ?
統計学的にサンプルの遺伝子型を予測	
遺伝子型を補完することにより、	
 ?
解析するSNP数を増やすことが可能	
T C C A G C ?	
 ?	
 ?	
 G A G G A G C
C C C A G C ?	
 ?	
 ?	
 G A G C G T C
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
T C C A G C G T C G A G G A G C
C C C A A C G T C G A G C G T C
A C C A G C T C C G A G G G G T
C C C A G C T C C G A G G G T T
T C C A G C G T C G A G G A G C
C C C A G C T C C G A G C G T C
T C C A G C G T C G A G G A G C
C C C A G C T C C G A G C G T C
T ?	
 C A G C ?	
 C ?	
 G A G G A G ?	
C C ?	
 A G C T C C G A G C ?	
 T C
品種A	
品種B	
品種A	
品種B	
マーカー	
マーカー
2015/11/11	
 14	
リファレンスパネルの作成	
?? 自前のデータだけでは、リファレンスパネルとして利用できる系統数が少ない	
 ?
	
 ?
?? 公共データベースで公開されているゲノム配列を解析することで、系統数を
増やすことができる	
 ?
?? 公開されたデータを使うことで、シーケンスにコストがかからない	
 ?
	
 ?
?? SNPの遺伝子型情報を利用してリファレンスパネルを作成	
 ?
データベース名	
 URL	
DRAsearch	
 hWps://trace.ddbj.nig.ac.jp/DRASearch/	
DBCLS	
 ?SRA	
 hWp://sra.dbcls.jp	
NCBI	
 hWp://www.ncbi.nlm.nih.gov/sra/	
DNAnexus	
 hWp://sra.dnanexus.com/	
公開されているゲノム配列を検索
2015/11/11	
 15	
公開されているゲノム配列を検索	
DBCLS	
 ?SRA	
検索結果を	
 ?
タブ区切りで	
 ?
保存可能	
下位を含めて、生物種で検索	
hWp://sra.dbcls.jp
imputa8onを行う前に、以下のようなマーカーを除去	
?? 欠測率の高いマーカー	
 ?
?? 分離比が歪んでいるマーカー	
 ?
?? 実験サンプル間で不一致が多いマーカー	
 ?
?? MAFが非常に低いマーカー	
2015/11/11	
 16	
データのフィルタリング	
どのような条件でマーカーを除去するか?	
 ?
最適な条件はサンプルごとに異なるので、	
 ?
それぞれの研究に応じて適切な条件を用いる
2015/11/11	
 17	
Imputa8onに用いるソフトの選択の例	
家系情報の	
 ?
利用	
reference	
 ?
genome	
 ?
の利用	
マーカーの	
 ?
順序の利用	
連鎖地図は利用
できますか?	
全ゲノムシーケ
ンスは利用可能
ですか?	
R	
 ?
qtl	
家系情報を利用
しますか?	
Tassel	
Beagle	
R	
missForest	
Yes	
No	
Yes	
No	
Yes	
No	
どのソフトが適しているのか?はサンプルごとに異なる	
 ?
いくつかのソフトで解析し、最適なソフトを選択する
2015/11/11	
 18	
	
 ?R  missForest	
missForest:	
 ?Nonparametric	
 ?Missing	
 ?Value	
 ?Imputa8on	
 ?using	
 ?Random	
 ?Forest	
 ?
hWps://cran.r-?‐project.org/web/packages/missForest/missForest.pdf	
?? ノンパラメトリック	
 ?
?? mixed-?‐type	
 ?imputa=on	
 ?method	
 ?
?? random	
 ?forestを用いて、実測値から欠測値を予測	
 ?
	
 ?R  qtl	
hWp://www.rqtl.org/manual/qtl-?‐manual.pdf	
?? calc.genoprob	
 ?	
 ?:	
 ?Calculate	
 ?condi7onal	
 ?genotype	
 ?probabili7es	
 ?
地図距離に基づいて、欠測値を予測
imputa=on,genotype	
 ?calling,	
 ?genotype	
 ?phasing,	
 ?IBD	
 ?segment	
 ?detec=onを行う	
?? 2015.11.11現在の最新版はBeagle	
 ?version	
 ?4.1	
 ?
?? hWp://faculty.washington.edu/browning/beagle/beagle.html	
 ?
?? Beagle	
 ?4.1の場合、Java	
 ?version	
 ?8が必要	
2015/11/11	
 19	
Beagleとは?	
HPからのBeagleのダウンロード	
hWps://faculty.washington.edu/browning/beagle/beagle.html#download	
wget	
 ?を使う方法	
wget	
 ?hWp://faculty.washington.edu/browning/beagle/beagle.21Oct15.abc.jar
?? vcfおよびvcf.gzを利用可能	
 ?
?? Beagleで利用するためにはGTあるいはGLのFORMATが必要	
2015/11/11	
 20	
Beagleの入力ファイル	
#CHROM	
POS	
ID	
 REF	
ALT	
QUAL	
 FILTER	
 INFO	
 FORMAT	
 RTx430	
 Tx642	
Chr01	
 236	
ss.3	
C	
 T	
 2256.5	
PASS	
 AC=2;AF=0.043	
 GT:AD:DP:GQ:PL	
 0/0:14,0:14:33:0,33,423	
 0/0:143,0:143:99:0,376,5016	
Chr01	
 284	
ss.6	
T	
 A	
 5219.94	
PASS	
 AC=6;AF=0.130	
 GT:AD:DP:GQ:PL	
 0/0:14,0:14:36:0,36,491	
 0/0:135,0:135:99:0,370,4920	
Chr01	
 871	
ss.
10	
 C	
 T	
 24370.1	
PASS	
 AC=32;AF=0.696	
 GT:AD:DP:GQ:PL	
 1/1:0,10:10:24:328,24,0	
 0/0:88,0:88:99:0,244,3212	
GT:	
 ?genotype,	
 ?encoded	
 ?as	
 ?allele	
 ?values	
 ?separated	
 ?by	
 ?either	
 ?of	
 ?/	
 ?or	
 ?|.	
 ?The	
 ?allele	
 ?
values	
 ?are	
 ?0	
 ?for	
 ?the	
 ?reference	
 ?allele	
 ?(what	
 ?is	
 ?in	
 ?the	
 ?REF	
 ??eld),	
 ?1	
 ?for	
 ?the	
 ??rst	
 ?allele	
 ?
listed	
 ?in	
 ?ALT,	
 ?2	
 ?for	
 ?the	
 ?second	
 ?allele	
 ?list	
 ?in	
 ?ALT	
 ?and	
 ?so	
 ?on.	
 ?
	
 ?
GL	
 ?:	
 ?genotype	
 ?likelihoods	
 ?comprised	
 ?of	
 ?comma	
 ?separated	
 ??oa=ng	
 ?point	
 ?log10-?‐scaled	
 ?
likelihoods	
 ?for	
 ?all	
 ?possible genotypes	
 ?given	
 ?the	
 ?set	
 ?of	
 ?alleles	
 ?de?ned	
 ?REF	
 ?and	
 ?ALT	
 ?
?elds.	
GT FORMATの例 
2015/11/11	
 21	
Beagleの実行	
Format	
 ?GT	
 ?vcf	
 ??le	
java	
 ?-?‐jar	
 ?beagle.21Oct15.abc.jar	
 ?gt="test.sorghum.Nov11.abc.vcf.gz"	
 ?out="out.gt"	
データサイズが大きい場合は、染色体ごとにvcfファイルを分けて、実行する	
Format	
 ?GL	
 ?vcf	
 ??le	
java	
 ?-?‐jar	
 ?beagle.21Oct15.abc.jar	
 ?gl="test.21Oct15.abc.vcf.gz"	
 ?out="out.gl"	
test.sorghum.Nov11.abc.vcf.gz	
 ?
phytozome	
 ?sorghum	
 ?v.2.1 SNP数 3,699,951	
 ?	
 ?	
 ?22系統 のサイズを小さくしたvcf	
 ??le	
 ?
gt=で入力するvcf	
 ??leを指定、 out=で出力ファイルを指定 	
 ?
	
リファレンスパネルを利用した欠測の補完	
 ?
java	
 ?-?‐jar	
 ?beagle.21Oct15.abc.jar	
 ?ref=ref.21Oct15.abc.vcf.gz	
 ?gt=target.21Oct15.abc.vcf.gz	
 ?
out=out.ref	
ref=でリファレンスパネルのvcf	
 ??leを指定	
gl=で入力するvcf	
 ??leを指定
2015/11/11	
 22	
Beagleの実行結果	
#CHROM	
POS	
 ID	
 REF	
 ALT	
 QUAL	
 FILTER	
 INFO	
 FORMAT	
 RTx430	
 Tx642	
 Ajabsido	
SC35	
 SC971	
 SC265	
 SC283	
Chr01	
 236	
ss.3	
 C	
 T	
 .	
 PASS	
 .	
 GT:DS	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
Chr01	
 284	
ss.6	
 T	
 A	
 .	
 PASS	
 .	
 GT:DS	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 1|1:2	
 0|0:0	
Chr01	
 871	
ss.10	
 C	
 T	
 .	
 PASS	
 .	
 GT:DS	
 1|1:2	
 0|0:0	
 1|1:2	
 0|1:1	
 1|1:2	
 1|1:2	
 0|1:1	
出力ファイル out.gt.vcf.gz ファイルを解凍	
gunzip	
 ?out.gt.vcf.gz	
imputa=on前の入力ファイルは 0/0,0/1,1/1	
 ?
imputa=on後の出力ファイルは 0|0,0|1,1|1	
 ?
	
 ?
GT:	
 ?0がREF	
 ?alleleで、1がALT	
 ?allele	
 ?
0/0はREFのホモ	
 ?
0/1はREFとALTのヘテロ	
 ?
1/1はALTのホモ 	
	
	
 ?
|	
 ?	
 ?	
 ?はphasedを示す	
 ?
/	
 ? は unphasedを示す	
 ?
2015/11/11	
 23	
Beagleの実行結果	
#CHROM	
POS	
 ID	
 REF	
 ALT	
 QUAL	
 FILTER	
 INFO	
 FORMAT	
 RTx430	
 Tx642	
 Ajabsido	
SC35	
 SC971	
 SC265	
 SC283	
Chr01	
 236	
ss.3	
 C	
 T	
 .	
 PASS	
 .	
 GT:DS	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
Chr01	
 284	
ss.6	
 T	
 A	
 .	
 PASS	
 .	
 GT:DS	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 0|0:0	
 1|1:2	
 0|0:0	
Chr01	
 871	
ss.10	
 C	
 T	
 .	
 PASS	
 .	
 GT:DS	
 1|1:2	
 0|0:0	
 1|1:2	
 0|1:1	
 1|1:2	
 1|1:2	
 0|1:1	
marker	
 RTx430	
 Tx642	
 Ajabsido	
 SC35	
 SC971	
 SC265	
 SC283	
Chr01:236	
 0	
 0	
 0	
 0	
 0	
 0	
 0	
Chr01:284	
 0	
 0	
 0	
 0	
 0	
 2	
 0	
Chr01:871	
 2	
 0	
 2	
 1	
 2	
 2	
 1	
imputa8on後のvcfファイル	
0/0はREFのホモ	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ? 	
 ?	
 ?-?‐>	
 ?	
 ?	
 ?	
 ?0	
 ?
0/1はREFとALTのヘテロ	
 ? 	
 ?	
 ?-?‐>	
 ?	
 ?	
 ?	
 ?1	
 ?
1/1はALTのホモ 	
	
 ? 	
 ? 	
 ?	
 ?-?‐>	
 ?	
 ?	
 ?	
 ?2	
GWASやゲノミックセレクションなど、様々な解析に用いるためにスコア化
2015/11/11	
 24	
Tasselとは?	
hWp://www.maizegene=cs.net/#!tassel/c17q9	
Trait	
 ?Analysis	
 ?by	
 ?aSSocia0on,	
 ?Evolu0on	
 ?and	
 ?Linkage	
?? 作物の解析に最適化	
 ?
?? 欠測の補完だけではなく、様々な機能がある	
 ?
?? コマンドラインからだけではなく、充実したGUIから簡単に解析可能
HPからのダウンロード	
 ?	
 ?
	
 ?java	
 ?1.8	
 ?	
 ?
	
2015/11/11	
 25	
Tasselのダウンロード	
hWp://www.maizegene=cs.net/#!tassel/c17q9	
ここからOSに合わせてダウンロード	
YouTubeでの解説
2015/11/11	
 26	
Tasselの入力ファイル	
メニューのDataからLoadを選択  → Make	
 ?Best	
 ?Guess	
 ?
	
 ?vcf	
 ??leを入力ファイルとして利用 	
YouTubeでの解説	
vcf	
 ??leだけでなく、Hapmapや
Plinkなどのファイルを利用可能	
 ?
2015/11/11	
 27	
Tassel 遺伝子型データの表示	
Major	
 ?alleleとMinor	
 ?alleleを色分けして表示させることで、データの確認が可能	
 ?
2015/11/11	
 28	
Tassel 染色体ごとに分けたファイルを作成	
Dataから	
 ?
Separateを選択	
 ?
	
 ?
元のファイルの下に	
 ?
染色体ごとに分けた	
 ?
ファイルが作成される
2015/11/11	
 29	
Tassel データのフィルタリング	
Filter	
 ?→ Filter	
 ?Genotype	
 ?Table	
 ?Sitesを選択	
MAFでフィルタリング	
sequence	
 ?
?leを選択	
YouTubeでの解説	
Filter	
 ?→ Taxa	
 ?Names
系統名を	
 ?
検索しながら	
 ?
フィルタリングが可能	
 ?
2015/11/11	
 30	
Tassel LD	
 ?plotの作成	
Step	
 ?1	
 Step	
 ?2	
Step	
 ?3	
 Step	
 ?4	
Analysis	
 ?→	
 ?Linkage	
 ?Disequilibriumを選択	
Result	
 ?フォルダにLDの結果が表示される	
Result	
 ?→	
 ?LD	
 ?plot	
LD	
 ?plot	
 ?が表示される
2015/11/11	
 31	
Tassel Phenotype の欠測を補完	
欠測を補完する方法を選択	
hWps://bitbucket.org/tasseladmin/tassel-?‐5-?‐source/wiki/UserManual/NumericalImpute/NumericalImpute	
Impute	
 ?→	
 ?Numerial	
 ?Imputeを選択	
元のファイルの下に	
 ?
Imputed	
 ?ファイルが作成される
2015/11/11	
 32	
Tassel Genotype の欠測を補完	
Impute	
 ?By	
 ?FILLIN	
 ?
Impute	
 ?BY	
 ?FSFHap	
 ?
Tasselには2種類のImpute方法	
 ?
	
 ?
集団に合わせて使い分ける	
 ?
Fast,	
 ?Inbred	
 ?Line	
 ?Library	
 ?Imputa=oN	
 ?
generalized	
 ?approach	
impute	
 ?missing	
 ?data	
 ?in	
 ?full	
 ?sib	
 ?families	
 ?(bi-?‐parental	
 ?families)
2015/11/11	
 33	
Tassel -?‐	
 ?Impute	
 ?By	
 ?FILLIN	
 ?
hWps://bitbucket.org/tasseladmin/tassel-?‐5-?‐source/wiki/UserManual/FILLIN/FILLIN より引用	
Beagleとは異なり、欠測を埋められないマーカーがある
?? Inbred	
 ?の両親と後代のImputa=on	
 ?
?? 欠測率が高く、ヘテロ率の高いGBSデータ用に開発	
 ?
	
 ?
?? 親の遺伝子型と後代の遺伝子型データが必要	
	
 ?
?? ヘテロの両親のF1には利用できない	
 ?
?? 両親の遺伝子型が正確である場合にはこれを利用した方が良い	
 ?
	
 ?
	
2015/11/11	
 34	
Tassel -?‐	
 ?Impute	
 ?BY	
 ?FSFHap	
 ?
hWps://bitbucket.org/tasseladmin/tassel-?‐5-?‐source/wiki/UserManual/FSFHapImputa=on/FSFHapImputa=on
2015/11/11	
 35	
Genotype-?‐Imputa8on	
 ?Accuracy	
 ?
hWps://ciedeakin.?les.wordpress.com/2013/12/glaubitzswarts_gbs20140213.pdfy  より引用
2015/11/11	
 36	
Genotype-?‐Imputa8on	
 ?Accuracy	
 ?
?? 正確に遺伝子型を補完することができなければ、その後の解析に影響する	
 ?
	
 ?
?? 遺伝子型に矛盾がないか?を確認することでimputa=onの正確性を調べることが
可能	
 ?
	
 ?
?? 既知の遺伝子型をマスクすることで、遺伝子型の正確性を解析 	
 ? 	
 ?
	
 ?既知の遺伝子型と補完された遺伝子型を比較	
 ?
	
 ?
?? Tasselの場合はすべての遺伝子型を補完することができない	
 ?
	
 ?このため、Tasselで遺伝子型を予測したのち、補完できなかった遺伝子型を
	
 ?Beagleを用いて補完する方法もある	
 ?
	
 ?
?? BeagleとTasselを両方用いて、一致する遺伝子型だけを利用することで正確性が
高くなる	
 ?
	
 ?
?? Inbredに関してはTasselの方が優れているが、ヘテロな集団の場合はBeagleの方
が適している	
 ?
	
 ?

More Related Content

What's hot (20)

Data-driven Analysis for Multi-agent Trajectories in Team Sports
Data-driven Analysis for Multi-agent Trajectories in Team SportsData-driven Analysis for Multi-agent Trajectories in Team Sports
Data-driven Analysis for Multi-agent Trajectories in Team Sports
Keisuke Fujii
?
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
?
[DL Hacks]Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternati...
[DL Hacks]Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternati...[DL Hacks]Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternati...
[DL Hacks]Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternati...
Deep Learning JP
?
1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリ1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリ
NVIDIA Japan
?
WebGIS初級編 - OpenLayersで簡単作成
WebGIS初級編 - OpenLayersで簡単作成WebGIS初級編 - OpenLayersで簡単作成
WebGIS初級編 - OpenLayersで簡単作成
Hideo Harada
?
PsychoPy Builder:Code Componentの使い方
PsychoPy Builder:Code Componentの使い方PsychoPy Builder:Code Componentの使い方
PsychoPy Builder:Code Componentの使い方
HiroyukiSogo
?
础颁搁颈ウェビナー:小野様ご讲演资料
础颁搁颈ウェビナー:小野様ご讲演资料础颁搁颈ウェビナー:小野様ご讲演资料
础颁搁颈ウェビナー:小野様ご讲演资料
直久 住川
?
贰虫辞尘别解析入门
贰虫辞尘别解析入门贰虫辞尘别解析入门
贰虫辞尘别解析入门
Amelieff
?
多変量解析
多変量解析多変量解析
多変量解析
Yoshihiro_Handa
?
Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向
Ryohei Suzuki
?
「FPGA 開発入門:FPGA を用いたエッジ AI の高速化手法を学ぶ」
「FPGA 開発入門:FPGA を用いたエッジ AI の高速化手法を学ぶ」「FPGA 開発入門:FPGA を用いたエッジ AI の高速化手法を学ぶ」
「FPGA 開発入門:FPGA を用いたエッジ AI の高速化手法を学ぶ」
直久 住川
?
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
Mr. Vengineer
?
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Japan
?
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読み
NVIDIA Japan
?
Chainer でのプロファイリングをちょっと楽にする話
Chainer でのプロファイリングをちょっと楽にする話Chainer でのプロファイリングをちょっと楽にする話
Chainer でのプロファイリングをちょっと楽にする話
NVIDIA Japan
?
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
DeNA
?
A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”
Kota Matsui
?
TVM の紹介
TVM の紹介TVM の紹介
TVM の紹介
Masahiro Masuda
?
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
Ryo Sakamoto
?
Data-driven Analysis for Multi-agent Trajectories in Team Sports
Data-driven Analysis for Multi-agent Trajectories in Team SportsData-driven Analysis for Multi-agent Trajectories in Team Sports
Data-driven Analysis for Multi-agent Trajectories in Team Sports
Keisuke Fujii
?
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
?
[DL Hacks]Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternati...
[DL Hacks]Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternati...[DL Hacks]Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternati...
[DL Hacks]Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternati...
Deep Learning JP
?
1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリ1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリ
NVIDIA Japan
?
WebGIS初級編 - OpenLayersで簡単作成
WebGIS初級編 - OpenLayersで簡単作成WebGIS初級編 - OpenLayersで簡単作成
WebGIS初級編 - OpenLayersで簡単作成
Hideo Harada
?
PsychoPy Builder:Code Componentの使い方
PsychoPy Builder:Code Componentの使い方PsychoPy Builder:Code Componentの使い方
PsychoPy Builder:Code Componentの使い方
HiroyukiSogo
?
础颁搁颈ウェビナー:小野様ご讲演资料
础颁搁颈ウェビナー:小野様ご讲演资料础颁搁颈ウェビナー:小野様ご讲演资料
础颁搁颈ウェビナー:小野様ご讲演资料
直久 住川
?
贰虫辞尘别解析入门
贰虫辞尘别解析入门贰虫辞尘别解析入门
贰虫辞尘别解析入门
Amelieff
?
Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向
Ryohei Suzuki
?
「FPGA 開発入門:FPGA を用いたエッジ AI の高速化手法を学ぶ」
「FPGA 開発入門:FPGA を用いたエッジ AI の高速化手法を学ぶ」「FPGA 開発入門:FPGA を用いたエッジ AI の高速化手法を学ぶ」
「FPGA 開発入門:FPGA を用いたエッジ AI の高速化手法を学ぶ」
直久 住川
?
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
Mr. Vengineer
?
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Japan
?
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読み
NVIDIA Japan
?
Chainer でのプロファイリングをちょっと楽にする話
Chainer でのプロファイリングをちょっと楽にする話Chainer でのプロファイリングをちょっと楽にする話
Chainer でのプロファイリングをちょっと楽にする話
NVIDIA Japan
?
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
DeNA
?
A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”
Kota Matsui
?
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
GPUが100倍速いという神話をぶち殺せたらいいな ver.2013
Ryo Sakamoto
?

狈骋厂を用いたジェノタイピングを様々な解析に用いるには?

  • 1. NGSを用いたジェノタイピングを ? 様々な解析に用いるには? ? ~高密度SNPデータ解析の処方箋~ 鐘ケ江 弘美 ? ? 東京大学大学院 農学生命科学研究科 ? 生産?環境生物学専攻 生物測定学研究室 2015/11/11 1
  • 2. Molecular ?Markers ?? Simple ?Sequence ?Repeats ?(SSR) ?markers ? ? 遺伝子のマッピングやQTL解析、マーカー選抜など様々な解析に利用される ? 共優性マーカー(codominant ?maker)、mul=allelicマーカー ? 再現性が高く、他の種でも利用可能 ? ? ? ?? Single ?Nucleo8de ?Polymorphism ?(SNP) ?markers ? SSRマーカーと比較するとハイスループット ? 連鎖地図やゲノミックセレクション、GWASに利用されている  ? ? ?? Next ?genera8on ?sequencing ?(NGS) ?を使ったジェノタイピング ? RAD-?‐seq、GBS、low ?depth ?WGS ? 一度に多くのSNPを得ることができる ? マーカーの偏りが少ない ? 欠測も多い ? ? ? C A SNP 2015/11/11 2
  • 3. RAD-?‐seq ? ? ? ? ? Genome ?wide ?resequence ? SNP ?posi=on ? 系統名 3 RAD-?‐seqでは欠測が多い SNP ?posi=on ? 系統名 2015/11/11
  • 4. GWAS ?やゲノミックセレクションに利用する時の問題点 High ?coverage ?? 欠測が少ない ?? コストが高い Low ?coverage ?? 欠測が多い ?? コストが低い ?? 遺伝子型の正確性 が低下する可能性 2015/11/11 4
  • 5. 2015/11/11 5 ゲノミックセレクション –出穂日の予測 予測モデル ? y:出穂日 ? y=f(x1,x2,x3,...,xk) 出穂日予測 ? y=f(x) ? C A SNP 表現型(y)およびDNAマーカー多型を調査し、 ? 回帰分析を用いて、予測式f(x)を求めておく 実際にはどこに遺伝子があるか分からないので、 高密度DNA多型を網羅的に予測に利用する 出穂日(y)が未知の個体でも、 ? DNAマーカー多型(x1,x2,x3,...,xk)から ? 出穂日を予測できる。 ? Togo ?picture ?gallery ?by ?DBCLS ?is ? ?Licensed ?under ?a ?Crea=ve ?Commons ?表示 2.1 ?日本 (c) ?
  • 6. 2015/11/11 6 ゲノミックセレクション ? ?-?‐欠測が多い場合 ? 予測モデル ? y:出穂日 ? y=f(x1,x2,x3,...,xk) 出穂日予測 ? y=f(x) ? C A SNP 欠測があるマーカーは マーカー遺伝子型から 行列を計算できない ? ? ? ? 欠測が多く、DNA多型が低密度 ? DNA多型を網羅的に予測に利用できない 出穂日の予測精度が低下 ? Togo ?picture ?gallery ?by ?DBCLS ?is ? ?Licensed ?under ?a ?Crea=ve ?Commons ?表示 2.1 ?日本 (c) ? 検出力の低下 x1 ? x2 ? x3 ? … ? DNA多型 ? y1 ? y2 ? y3 ? … ? = b ?+ ?e 出穂日 ?
  • 7. GWAS ?やゲノミックセレクションに利用する時の問題点 High ?coverage ??欠測が少ない ??コストが高い Low ?coverage ??欠測が多い ??コストが低い ??ジェノタイピングの正確性が 低下する可能性 2015/11/11 7 欠測した遺伝子型を補完し ? 低コストでジェノタイピング ?
  • 10. 2015/11/11 10 IMPUTATION ソフトウエア ソフトウエア名 URL Beagle hWps://faculty.washington.edu/browning/beagle/ beagle.html Tassel hWp://www.maizegene=cs.net/#!tassel/c17q9 IMPUTE2 hWps://mathgen.stats.ox.ac.uk/impute/ impute_v2.html PLINK hWp://pngu.mgh.harvard.edu/~purcell/plink/ pimputa=on.shtml minimac2 hWp://genome.sph.umich.edu/wiki/Minimac2
  • 11. 2015/11/11 11 遺伝子型の予測 Step ?2 Step ?1 Step ?3 品種A 品種B 品種C 品種D 品種E 品種F マーカー マーカー マーカー サンプルで遺伝子型を ? 共有している領域を特定 ? ハプロタイプの情報から ? 欠測している遺伝子型を補完 ゲノムに存在する連鎖不平衡と ? ハプロタイプブロ ック構造を利用 T C C A G C G T C G A G G A G C C C ? A G C T C C G A G C ? T C T C ? A G C G T C G A ? G A G C C C C A A C G T ? G A G C G T C A C C A G C T C C ? A G G G G T C C C A G C T C C G A G G ? T T T C C A G C G T C G ? G G A G C C C ? A G C T C C G A G C ? T C T C ? A G C G T C G A ? G A G C C C C A A C G T ? G A G C G T C A C C A G C T C C ? A G G G G T C C C A G C T C C G A G G ? T T 品種A 品種B 品種C 品種D 品種E 品種F T C C A G C G T C G A G G A G C C C C A G C T C C G A G C G T C T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T 品種A 品種B 品種C 品種D 品種E 品種F
  • 12. 2015/11/11 12 リファレンスパネルを用いた遺伝子型の予測 サンプル リファレンスパネル T ? C A G C ? ? ? G A G G A G ? C C C A G C ? ? ? G A G C ? T C T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T T ? C A G C ? ? ? G A G G A G ? C C C A G C ? ? ? G A G C ? T C T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T サンプル リファレンスパネル T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T サンプル リファレンスパネル Step ?2 Step ?1 Step ?3 品種A 品種B 品種C 品種D 品種E 品種F 品種A 品種B 品種C 品種D 品種E 品種F 品種A 品種B 品種C 品種D 品種E 品種F マーカー マーカー マーカー サンプルとリファレンスパネルの中の個体 で、遺伝子型を共有している領域を特定 ? リファレンスパネルの遺伝子型と ? ハプロタイプの情報から ? 欠測している遺伝子型を補完 ゲノムに存在する連鎖不平衡と ? ハプロタイプブロ ック構造を利用 T C C A G C G T C G A G G A G C C C C A G C T C C G A G C G T C
  • 13. 2015/11/11 13 リファレンスパネルを用いた遺伝子型の予測 欠測を含むRAD-?‐seq ジェノタイピング ? されていないSNP リファレンスパネル ジェノタイピングされて いないSNPの補完 ? リファレンスパネル 遺伝子型を補完した サンプルデータ リファレンスパネルの遺伝子型に基づいて ? 統計学的にサンプルの遺伝子型を予測 遺伝子型を補完することにより、 ? 解析するSNP数を増やすことが可能 T C C A G C ? ? ? G A G G A G C C C C A G C ? ? ? G A G C G T C T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T T C C A G C G T C G A G G A G C C C C A A C G T C G A G C G T C A C C A G C T C C G A G G G G T C C C A G C T C C G A G G G T T T C C A G C G T C G A G G A G C C C C A G C T C C G A G C G T C T C C A G C G T C G A G G A G C C C C A G C T C C G A G C G T C T ? C A G C ? C ? G A G G A G ? C C ? A G C T C C G A G C ? T C 品種A 品種B 品種A 品種B マーカー マーカー
  • 14. 2015/11/11 14 リファレンスパネルの作成 ?? 自前のデータだけでは、リファレンスパネルとして利用できる系統数が少ない ? ? ?? 公共データベースで公開されているゲノム配列を解析することで、系統数を 増やすことができる ? ?? 公開されたデータを使うことで、シーケンスにコストがかからない ? ? ?? SNPの遺伝子型情報を利用してリファレンスパネルを作成 ? データベース名 URL DRAsearch hWps://trace.ddbj.nig.ac.jp/DRASearch/ DBCLS ?SRA hWp://sra.dbcls.jp NCBI hWp://www.ncbi.nlm.nih.gov/sra/ DNAnexus hWp://sra.dnanexus.com/ 公開されているゲノム配列を検索
  • 15. 2015/11/11 15 公開されているゲノム配列を検索 DBCLS ?SRA 検索結果を ? タブ区切りで ? 保存可能 下位を含めて、生物種で検索 hWp://sra.dbcls.jp
  • 16. imputa8onを行う前に、以下のようなマーカーを除去 ?? 欠測率の高いマーカー ? ?? 分離比が歪んでいるマーカー ? ?? 実験サンプル間で不一致が多いマーカー ? ?? MAFが非常に低いマーカー 2015/11/11 16 データのフィルタリング どのような条件でマーカーを除去するか? ? 最適な条件はサンプルごとに異なるので、 ? それぞれの研究に応じて適切な条件を用いる
  • 17. 2015/11/11 17 Imputa8onに用いるソフトの選択の例 家系情報の ? 利用 reference ? genome ? の利用 マーカーの ? 順序の利用 連鎖地図は利用 できますか? 全ゲノムシーケ ンスは利用可能 ですか? R ? qtl 家系情報を利用 しますか? Tassel Beagle R missForest Yes No Yes No Yes No どのソフトが適しているのか?はサンプルごとに異なる ? いくつかのソフトで解析し、最適なソフトを選択する
  • 18. 2015/11/11 18 ?R  missForest missForest: ?Nonparametric ?Missing ?Value ?Imputa8on ?using ?Random ?Forest ? hWps://cran.r-?‐project.org/web/packages/missForest/missForest.pdf ?? ノンパラメトリック ? ?? mixed-?‐type ?imputa=on ?method ? ?? random ?forestを用いて、実測値から欠測値を予測 ? ?R  qtl hWp://www.rqtl.org/manual/qtl-?‐manual.pdf ?? calc.genoprob ? ?: ?Calculate ?condi7onal ?genotype ?probabili7es ? 地図距離に基づいて、欠測値を予測
  • 19. imputa=on,genotype ?calling, ?genotype ?phasing, ?IBD ?segment ?detec=onを行う ?? 2015.11.11現在の最新版はBeagle ?version ?4.1 ? ?? hWp://faculty.washington.edu/browning/beagle/beagle.html ? ?? Beagle ?4.1の場合、Java ?version ?8が必要 2015/11/11 19 Beagleとは? HPからのBeagleのダウンロード hWps://faculty.washington.edu/browning/beagle/beagle.html#download wget ?を使う方法 wget ?hWp://faculty.washington.edu/browning/beagle/beagle.21Oct15.abc.jar
  • 20. ?? vcfおよびvcf.gzを利用可能 ? ?? Beagleで利用するためにはGTあるいはGLのFORMATが必要 2015/11/11 20 Beagleの入力ファイル #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT RTx430 Tx642 Chr01 236 ss.3 C T 2256.5 PASS AC=2;AF=0.043 GT:AD:DP:GQ:PL 0/0:14,0:14:33:0,33,423 0/0:143,0:143:99:0,376,5016 Chr01 284 ss.6 T A 5219.94 PASS AC=6;AF=0.130 GT:AD:DP:GQ:PL 0/0:14,0:14:36:0,36,491 0/0:135,0:135:99:0,370,4920 Chr01 871 ss. 10 C T 24370.1 PASS AC=32;AF=0.696 GT:AD:DP:GQ:PL 1/1:0,10:10:24:328,24,0 0/0:88,0:88:99:0,244,3212 GT: ?genotype, ?encoded ?as ?allele ?values ?separated ?by ?either ?of ?/ ?or ?|. ?The ?allele ? values ?are ?0 ?for ?the ?reference ?allele ?(what ?is ?in ?the ?REF ??eld), ?1 ?for ?the ??rst ?allele ? listed ?in ?ALT, ?2 ?for ?the ?second ?allele ?list ?in ?ALT ?and ?so ?on. ? ? GL ?: ?genotype ?likelihoods ?comprised ?of ?comma ?separated ??oa=ng ?point ?log10-?‐scaled ? likelihoods ?for ?all ?possible genotypes ?given ?the ?set ?of ?alleles ?de?ned ?REF ?and ?ALT ? ?elds. GT FORMATの例 
  • 21. 2015/11/11 21 Beagleの実行 Format ?GT ?vcf ??le java ?-?‐jar ?beagle.21Oct15.abc.jar ?gt="test.sorghum.Nov11.abc.vcf.gz" ?out="out.gt" データサイズが大きい場合は、染色体ごとにvcfファイルを分けて、実行する Format ?GL ?vcf ??le java ?-?‐jar ?beagle.21Oct15.abc.jar ?gl="test.21Oct15.abc.vcf.gz" ?out="out.gl" test.sorghum.Nov11.abc.vcf.gz ? phytozome ?sorghum ?v.2.1 SNP数 3,699,951 ? ? ?22系統 のサイズを小さくしたvcf ??le ? gt=で入力するvcf ??leを指定、 out=で出力ファイルを指定  ? リファレンスパネルを利用した欠測の補完 ? java ?-?‐jar ?beagle.21Oct15.abc.jar ?ref=ref.21Oct15.abc.vcf.gz ?gt=target.21Oct15.abc.vcf.gz ? out=out.ref ref=でリファレンスパネルのvcf ??leを指定 gl=で入力するvcf ??leを指定
  • 22. 2015/11/11 22 Beagleの実行結果 #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT RTx430 Tx642 Ajabsido SC35 SC971 SC265 SC283 Chr01 236 ss.3 C T . PASS . GT:DS 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 Chr01 284 ss.6 T A . PASS . GT:DS 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 1|1:2 0|0:0 Chr01 871 ss.10 C T . PASS . GT:DS 1|1:2 0|0:0 1|1:2 0|1:1 1|1:2 1|1:2 0|1:1 出力ファイル out.gt.vcf.gz ファイルを解凍 gunzip ?out.gt.vcf.gz imputa=on前の入力ファイルは 0/0,0/1,1/1 ? imputa=on後の出力ファイルは 0|0,0|1,1|1 ? ? GT: ?0がREF ?alleleで、1がALT ?allele ? 0/0はREFのホモ ? 0/1はREFとALTのヘテロ ? 1/1はALTのホモ ? | ? ? ?はphasedを示す ? / ? は unphasedを示す ?
  • 23. 2015/11/11 23 Beagleの実行結果 #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT RTx430 Tx642 Ajabsido SC35 SC971 SC265 SC283 Chr01 236 ss.3 C T . PASS . GT:DS 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 Chr01 284 ss.6 T A . PASS . GT:DS 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 1|1:2 0|0:0 Chr01 871 ss.10 C T . PASS . GT:DS 1|1:2 0|0:0 1|1:2 0|1:1 1|1:2 1|1:2 0|1:1 marker RTx430 Tx642 Ajabsido SC35 SC971 SC265 SC283 Chr01:236 0 0 0 0 0 0 0 Chr01:284 0 0 0 0 0 2 0 Chr01:871 2 0 2 1 2 2 1 imputa8on後のvcfファイル 0/0はREFのホモ ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?-?‐> ? ? ? ?0 ? 0/1はREFとALTのヘテロ ? ? ?-?‐> ? ? ? ?1 ? 1/1はALTのホモ ? ? ? ?-?‐> ? ? ? ?2 GWASやゲノミックセレクションなど、様々な解析に用いるためにスコア化
  • 24. 2015/11/11 24 Tasselとは? hWp://www.maizegene=cs.net/#!tassel/c17q9 Trait ?Analysis ?by ?aSSocia0on, ?Evolu0on ?and ?Linkage ?? 作物の解析に最適化 ? ?? 欠測の補完だけではなく、様々な機能がある ? ?? コマンドラインからだけではなく、充実したGUIから簡単に解析可能
  • 25. HPからのダウンロード ? ? ?java ?1.8 ? ? 2015/11/11 25 Tasselのダウンロード hWp://www.maizegene=cs.net/#!tassel/c17q9 ここからOSに合わせてダウンロード YouTubeでの解説
  • 26. 2015/11/11 26 Tasselの入力ファイル メニューのDataからLoadを選択  → Make ?Best ?Guess ? ?vcf ??leを入力ファイルとして利用  YouTubeでの解説 vcf ??leだけでなく、Hapmapや Plinkなどのファイルを利用可能 ?
  • 27. 2015/11/11 27 Tassel 遺伝子型データの表示 Major ?alleleとMinor ?alleleを色分けして表示させることで、データの確認が可能 ?
  • 28. 2015/11/11 28 Tassel 染色体ごとに分けたファイルを作成 Dataから ? Separateを選択 ? ? 元のファイルの下に ? 染色体ごとに分けた ? ファイルが作成される
  • 29. 2015/11/11 29 Tassel データのフィルタリング Filter ?→ Filter ?Genotype ?Table ?Sitesを選択 MAFでフィルタリング sequence ? ?leを選択 YouTubeでの解説 Filter ?→ Taxa ?Names 系統名を ? 検索しながら ? フィルタリングが可能 ?
  • 30. 2015/11/11 30 Tassel LD ?plotの作成 Step ?1 Step ?2 Step ?3 Step ?4 Analysis ?→ ?Linkage ?Disequilibriumを選択 Result ?フォルダにLDの結果が表示される Result ?→ ?LD ?plot LD ?plot ?が表示される
  • 32. 2015/11/11 32 Tassel Genotype の欠測を補完 Impute ?By ?FILLIN ? Impute ?BY ?FSFHap ? Tasselには2種類のImpute方法 ? ? 集団に合わせて使い分ける ? Fast, ?Inbred ?Line ?Library ?Imputa=oN ? generalized ?approach impute ?missing ?data ?in ?full ?sib ?families ?(bi-?‐parental ?families)
  • 33. 2015/11/11 33 Tassel -?‐ ?Impute ?By ?FILLIN ? hWps://bitbucket.org/tasseladmin/tassel-?‐5-?‐source/wiki/UserManual/FILLIN/FILLIN より引用 Beagleとは異なり、欠測を埋められないマーカーがある
  • 34. ?? Inbred ?の両親と後代のImputa=on ? ?? 欠測率が高く、ヘテロ率の高いGBSデータ用に開発 ? ? ?? 親の遺伝子型と後代の遺伝子型データが必要 ? ?? ヘテロの両親のF1には利用できない ? ?? 両親の遺伝子型が正確である場合にはこれを利用した方が良い ? ? 2015/11/11 34 Tassel -?‐ ?Impute ?BY ?FSFHap ? hWps://bitbucket.org/tasseladmin/tassel-?‐5-?‐source/wiki/UserManual/FSFHapImputa=on/FSFHapImputa=on
  • 35. 2015/11/11 35 Genotype-?‐Imputa8on ?Accuracy ? hWps://ciedeakin.?les.wordpress.com/2013/12/glaubitzswarts_gbs20140213.pdfy  より引用
  • 36. 2015/11/11 36 Genotype-?‐Imputa8on ?Accuracy ? ?? 正確に遺伝子型を補完することができなければ、その後の解析に影響する ? ? ?? 遺伝子型に矛盾がないか?を確認することでimputa=onの正確性を調べることが 可能 ? ? ?? 既知の遺伝子型をマスクすることで、遺伝子型の正確性を解析 ?  ? ?既知の遺伝子型と補完された遺伝子型を比較 ? ? ?? Tasselの場合はすべての遺伝子型を補完することができない ? ?このため、Tasselで遺伝子型を予測したのち、補完できなかった遺伝子型を ?Beagleを用いて補完する方法もある ? ? ?? BeagleとTasselを両方用いて、一致する遺伝子型だけを利用することで正確性が 高くなる ? ? ?? Inbredに関してはTasselの方が優れているが、ヘテロな集団の場合はBeagleの方 が適している ? ?