狠狠撸

ゲノム育種を
実装?利用するための
NGSデータ解析
鐘ケ江弘美
東京大学大学院農学生命科学研究科
生産?環境生物学専攻生物測定学研究室
2017/11/12 @ 龍谷大学
2017年鳥取大学
NGS ワークショップ 2017
「NGS データの多彩な活用」
1

DNAマーカー選抜育種
? 有用遺伝子の有無を識別できるマーカーを利用
? 有用な遺伝子を保持しているか？を短時間で診断
? DNAマーカ-選抜により優良品種の育成が短期間で可能になる
? 単一あるいは少数の遺伝子で決定されている形質に限られている
? 多くの遺伝子が少しずつ寄与している形質には利用できない
ソルガム
2

ゲノミックセレクション
多数の遺伝子が関わる形質について利用可能
機械学習による選抜の効率化?高速化
形質に関与する個々の遺伝子の機能解明は必要ない
3

ゲノミックセレクション
4

果樹のゲノミックセレクション
Minamikawa MF, Nonaka K, Kaminuma E, Kajiya-Kanegae H, Onogi A, Goto S, Yoshioka T, Imai A, Hamada H, Hayashi T,
Matsumoto S, Katayose Y, Toyoda A, Fujiyama A, Nakamura Y, Shimizu T, Iwata H.
Genome-wide association study and genomic prediction in citrus: Potential of genomics-assisted breeding for fruit quality traits.
Sci Rep. 2017 Jul 5;7(1):4721.
5

Molecular Markers
Simple Sequence Repeats (SSR) markers
遺伝子のマッピングやQTL解析、マーカー選抜など様々な解析に利用される
共優性マーカー(codominant maker)、multiallelicマーカー
再現性が高く、他の種でも利用可能
Single Nucleotide Polymorphism (SNP) markers
SSRマーカーと比較するとハイスループット
連鎖地図やゲノミックセレクション、GWASに利用されている
Next generation sequencing (NGS) を使ったジェノタイピング
RAD-Seq、GBS、low depth WGS、Amplicon Seq、GRAS-Di
一度に多くのSNPを得ることができる
マーカーの偏りが少ない
6

RAD-Seqでは欠測が多い
系統名系統名
RAD-Seq WGS
7

NGSをGWASやGSに利用する時の問題点
8

ゲノミックセレクション –出穂日の予測
9

ゲノミックセレクション -欠測が多い場合
10

Rice Diversity
SNP数と欠測率の関係
https://ricediversity.org/data/
1,568個体
High Density Rice Array 700k
Missing SNP
1 5,525
0.9 441,294
0.8 679,654
0.6 700,000
HDRA-G6-4-RDP1-RDP2-NIAS.ACGT.VCF.gz
欠測少多
Missing = 1
全ての個体で遺伝子型が
決まっているマーカー
11

欠測した遺伝子型を補完し
低コストでジェノタイピング
12

連鎖地図の作成
RAD-Seq SNP array
マーカーの位置と密度が偏る->
親の多型の位置や密度の影響が
大きいことが示唆された
マーカーの位置と密度の偏りが少ない
遺伝子型の欠測率が高い
RAD-Seqと比較すると、
遺伝子型の欠測率は低い
事前情報なしに連鎖地図を作成可能
事前に多型のあるマーカーを
探索する必要が有る
13

データのフィルタリング
? 実験サンプル間で不一致が多いマーカー
? 親のWGSで多型のないマーカー
Imputationを行う前に、
以下のようなマーカーを除去
? 欠測が多いマーカー
? MAFが非常に低いマーカー
Reference panelの利用
14

vcftools を用いたSNPのフィルタリング
vcftools_0.1.13
入力vcf file : name.vcf.gz
出力vcf file : name_bi_MQ20_DP3-100_maf0.025.recode.vcf
minQ 20 : --minQ 20
Depth 3-100 : --minDP 3 --maxDP 100
biallelic : --min-alleles 2 --max-alleles 2
SNP only : --remove-indels
maf 0.025 : --maf 0.025
vcftools --gzvcf name.vcf.gz --min-alleles 2 --max-alleles 2 --minDP 3 --maxDP 100 --
remove-indels --max-missing 0.8 --minQ 20 --maf 0.025 --recode --out
name_bi_MQ20_DP3-100_maf0.025
15
-- max-missing : 0.2, 0.4, 0.6, 0.8, 0.9, 0.95 など様々な条件を試す

欠測した遺伝子型の補完
16

Beagleとは？
? 2017.11.10 現在の最新版はBeagle version 4.1
? http://faculty.washington.edu/browning/beagle/beagle.html
? reference genome へのマッピングが必要
? Beagle 4.1の場合、Java version 8が必要
? 親子関係を用いて(ped argument)解析する場合は、Beagle 4.0 を使用
? 参考文献
B L Browning and S R Browning (2016).
Genotype imputation with millions of reference samples.
Am J Hum Genet 98:116-126. doi:10.1016/j.ajhg.2015.11.020
17

Beagleの入力ファイル
? vcfおよびvcf.gzを利用可能
? Beagleで利用するためにはGTあるいはGLのFORMATが必要
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT RTx430 Tx642
Chr01 123ss.3 C T 2256.5PASS AC=2;AF=0.043 GT:AD:DP:GQ:PL 0/0:14,0:14:33:0,33,423 0/0:143,0:143:99:0,376,5016
Chr01 284ss.6 T A 5219.94PASS AC=6;AF=0.130 GT:AD:DP:GQ:PL 0/0:14,0:14:36:0,36,491 0/0:135,0:135:99:0,370,4920
Chr01 871ss.10 C T 24370.1PASS AC=32;AF=0.696 GT:AD:DP:GQ:PL 1/1:0,10:10:24:328,24,0 0/0:88,0:88:99:0,244,3212
18

Beagle 実行
データサイズが大きい場合は、染色体ごとにvcfファイルを分けて、実行する
Format GT vcf file
gt=で入力するvcf fileを指定、 out=で出力ファイルを指定
Format GL vcf file
gl=で入力するvcf fileを指定、 out=で出力ファイルを指定
リファレンスパネルを利用した欠測の補完
ref=でリファレンスパネルのvcf fileを指定
19

Beagleの実行結果
imputation前の入力ファイルは 0/0,0/1,1/1
imputation後の出力ファイルは 0|0,0|1,1|1
GT: 0がREF alleleで、1がALT allele
0/0はREFのホモ
0/1はREFとALTのヘテロ
1/1はALTのホモ
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT RTx430 Tx642 Ajabsido SC35 SC971 SC265 SC283
Chr01 236 ss.3 C T . PASS . GT:DS 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0
Chr01 284 ss.6 T A . PASS . GT:DS 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 1|1:2 0|0:0
zcat out.gt.vcf.gz | grep -v “##” | head
zcat:圧縮されたファイルの内容を表示する
20

Beagleの実行
imputation後のvcfファイル
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT RTx430 Tx642 Ajabsido SC35 SC971 SC265 SC283
Chr01 284 ss.6 T A . PASS . GT:DS 0|0:0 0|0:0 0|0:0 0|0:0 0|0:0 1|1:2 0|0:0
GWASやゲノミックセレクションなど、様々な解析に用いるためにスコア化
marker RTx430 Tx642 Ajabsido SC35 SC971 SC265 SC283
Chr01:236 0 0 0 0 0 0 0
Chr01:284 0 0 0 0 0 2 0
Chr01:871 2 0 2 1 2 2 1
vcftools --vcf file1.vcf --extract-FORMAT-info GT
-- 012 option も利用可能
21

交配後代のジェノタイピング
22

交配後代のジェノタイピングパイプラインの構
築
23

r/qtlによるImputation
require(qtl)
qtl パッケージを読み込む
データを読み込む
cross <- read.cross(format = "csvs", genfile = "geno.csv",
phefile = “pheno.csv")
fill.geno : 欠測を補完
fill.geno(cross, method=c("imp","argmax", "no_dbl_XO",
“maxmarginal"),error.prob=0.0001,
map.function=c("haldane","kosambi","c-
f","morgan"),min.prob=0.95)
https://www.rdocumentation.org/packages/qtl/versions/1.41-6/topics/fill.geno
24

fill.geno : 欠測を補完 methodの選択
https://www.rdocumentation.org/packages/qtl/versions/1.41-6/topics/fill.geno
imp
impute using a single simulation replicate
from sim.geno
sim.geno
argmax
Viterbi algorithm, as implemented in
argmax.geno
argmax.geno
no_dbl_XO
simply filling in missing genotypes between
markers with matching genotypes
maxmarginal
choosing (at each marker) the genotype
with maximal marginal probability
25

sim.geno(cross, n.draws=16, step=0, off.end=0,
error.prob=0.0001,
map.function=c("haldane","kosambi","c-f","morgan"),
stepwidth=c("fixed", "variable", "max"))
sim.geno : Simulate Genotypes Given Observed Marker Data
argmax.geno : Reconstruct Underlying Genotypes
argmax.geno(cross, step=0, off.end=0, error.prob=0.0001,
map.function=c("haldane","kosambi","c-f","morgan"),
stepwidth=c("fixed", "variable", "max"))
26

r/qtlの入力ファイル
遺伝子型 genfile
ad.cross(format = "csvs", genfile = "geno.csv", phefile = "pheno.csv", estimate.map=FALSE, BC.g
表現型 phefile
マーカー
系統名
系統名
形質名
chr
pos(cM)
27

Genetic and Physical Map Correlation
28

高標高×低標高交雑に由来するトドマツ分離集団を用いた
RAD-Seqによる連鎖地図構築?QTL解析
Genetic mapping of local adaptation along the altitudinal gradient in Abies sachalinensis
Goto S, Kajiya-Kanegae H, Ishizuka W, Kitamura K, Ueno S, Hisamoto Y, Kudoh H,
Yasugi M, Nagano AJ, Iwata H
Tree Genetics & Genomes (2017) 13: 104.
https://doi.org/10.1007/s11295-017-1191-3
29

人工交配→分離集団の作出
2011年5月：P1とP2を相互に人工交配
（北海道富良野）
2012年5月：播種して実生からDNA抽出
30

トドマツ連鎖地図作成
? 連鎖地図作成→大量のマーカーが必要
? 分離集団が必要
? トランスポゾンや反復配列が多い
? モミ属のゲノムサイズは巨大（≒20Gb）スギは約11G
? ゲノムは解読されていない
? 既存のマーカー核SSR 4座, 葉緑体SSR 3座
? 新規マーカー開発に莫大な労力と費用
? 両親2個体＋実生376個体のRAD-Seq分析
? リファレンスゲノムを利用できないため、
? Stacksを利用して遺伝子型を決定
31

トドマツ連鎖地図
? JoinMap を用いて連鎖地図作成
? 事前にゲノム情報がなくても、RAD-Seqで連鎖地図を作成
? 連鎖地図は両親ともに、モミ属の染色体数と同じ12連鎖群に収束
32

トドマツ QTL解析
標高適応に関与する遺伝子に迫る上で、分離世代の作出と
RAD-Seqによる遺伝子型の決定およびQTL解析は有効
33

トドマツ遺伝子型修正
修正前
修正後
修正前修正後
242.2cM 127.7cM34

Tasselとは？
? TASSEL 5
? Java platform
? 作物ゲノムの多様性解析に最適
化されている
? 欠測の補完だけでなく、様々な
機能がある
? コマンドラインからだけでなく
、充実したGUIから簡単に解析可
能
35

TASSELのインストール
? Tassel 5.0 にはJava 1.8が必要
? gitではなくdownloadも可能
? https://bitbucket.org/tasseladmin/tassel-
5-source/downloads/
? GBS Pipeline v2
? Tassel 5.0 Youtube Tutorials
? https://www.youtube.com/channel/UCS
1SdXlyMI1OsSf5yA_oFqw
git clone https://bitbucket.org/tasseladmin/tassel-5-standalone.git
36

Tassel 5 GBS v2 Pipeline
https://bitbucket.org/tasseladmin/tassel-5-source/wiki/Tassel5GBSv2Pipeline
37

TASSEL
Major alleleとMinor alleleを色分けして表示させることで、データの確認が可能
38

Tassel
染色体ごとに分けたファイルを作成
39

Tassel データのフィルタリング
Filter → Filter Genotype Table Sitesを選択
40

TASSEL Trait format
<Trait> EarHT dpoll EarDia
811 59.5 NA NA
33-16 64.75 64.5 NA
38-11 92.25 68.5 37.897
4226 65.5 59.5 32.219
42

TASSEL Numerical Imputation
表現型データでも、遺伝子型データでも対応可能
43

TASSEL Numerical Imputation
Imputation 前
Imputation 後
44

TASSEL Imputation
FILLIN
all types of populations but optimized for those with higher inbreeding coefficients
FSFHap
optimized for finding recombination break points in full-sib families
LD-kNNi
k-nearest neighbor genotype imputation method (for unordered markers)
45

Genotype-Imputation Accuracy
47

最後に...
共同研究を行う時に
お願いしたいこと
48

データの前処理の重要性
? データのフォーマット変換、欠測値や外れ値の除去
? そのまま入力しても、良い結果は得られない
Garbage In, Garbage Out.
40%
40%
20%
環境構築
データの前処理
解析
49

「こんなExcel file は前処理に時間がかかる」
全角空白全角記号全角数字
セル内改行セル内コメントセルの結合
セルの結合
全角空白
全角記号全角数字
50

狠狠撸

ゲノム育种を実装?利用するための狈骋厂データ解析

Recommended

More Related Content

What's hot (20)

Similar to ゲノム育种を実装?利用するための狈骋厂データ解析 (20)

ゲノム育种を実装?利用するための狈骋厂データ解析