狠狠撸

狠狠撸Share a Scribd company logo
NGSワークショップ2017@龍谷大学
2017.11.12.
魚類遺伝育種のための
大規模多型解析
細谷将(東大水実)
狈骋厂による多型解析革命
ゲノムに刻まれた生物の特徴が见えるように
ACGTの羅列のままでは何が何だか分からない
正信念仏偈?
聖書?
コーラン?
见た目とゲノムの共通性を利用する
见た目とゲノムの共通性を利用する
? ?
? ?
全部を比べるのは効率がわるい
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?
? ?? ?
?
? ?? ?
? ?? ?
? ?
? ?
? ?
? ?
? ?? ?
? ?
? ?
? ?
? ?
? ?? ?
? ?
? ?
? ?
? ?
? ?? ?
? ?
? ?
? ?
? ?
? ?? ?
? ?
? ?
? ?
? ?
? ?? ?
? ?
? ?
? ?
? ?
? ?? ?
? ?
? ?
? ?
? ?
? ?
? ?
一部の標識(マーカー)を比べる
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
表現型と関連性のあるマーカーが見つかる
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
? ? ?
多型解析
ゲノム上に散らばる配列の差異(多型)
に関する情報を得ること
多型と多型解析
祖父祖母 父母
多型(アレル)=対立遺伝子座の型
祖先由来の配列の差異
子
多型と多型解析
祖父祖母 父母
多型(アレル)=対立遺伝子座の型
祖先由来の配列の差異
祖父型の
ホモ接合
祖父母型の
ヘテロ接合
祖母型の
ホモ接合
子
多型解析すると何ができる?
QTL解析
第2代
小 大
第1代
多型解析すると何ができる?
QTL解析
第2代
小 大
第1代
多型解析すると何ができる?
GWAS (genome-wide association study)-log10(Pvalue)
コンセンサス C A T G A G T A T C G A T T T A C T
- - - - - - - - - - - - - A - - - C
- - - - - - - - - - T - - - - - - C
- - - T - - A - - G - - G - - - - -
- C - - - - - C - - - - - - - - - -
- - - - - A - - - - - C - - - - - -
- - - - - - - - - - - - G - - G T -
- - - - T - A - - G - - G - A G T -
- - - T - - A C - G - - G - - G T -
- C - - - - - - - - - C G - - G - -
- - - - - A A - - - - C - - - G - -
小さい個体
大きい個体
大きさを決めるSNP(gttgttだと大きい)
(表現型) = (個体の能力)
+ (性などの影響)
+ (残差)
表現型の類似性 ≒ ゲノムの類似性
多型解析すると何ができる?
GS/GP (genomic selection/prediction)
全ゲノム上に配置した無数のSNP座の
アリルの共有具合(ゲノムの類似性)から
表現型を予測できる。
多型解析
多型には
どんな種類(のマーカー)が
あるの?
制限酵素断片長(RFLP/AFLP)多型
? PCR産物の制限酵素処理後の断片長の多型
? DNA配列の差を検出する遺伝マーカー
? 配列そのものの情報を必要としない
? 頻度は制限酵素の認識配列依存
L: サイズマーカー
A: ホモ接合
C: (カウンター) ホモ接合
D: ヘテロ接合
祖
父
祖
母
父 母 子
1
子
2
子
3
子
4
マイクロサテライト
? DNAの単純繰り返し構造の多型
? (CA)n, (GAC) n など
? 数千塩基に一回の頻度で出現
? 代表的な遺伝マーカー
一塩基多型(SNP)
? DNA一塩基の多型
? A, C, G, T のどれか(大抵は2種類)
? 数百塩基に一回の頻度で出現
? 最近では主要な遺伝マーカー
一塩基多型(SNP)
? DNA一塩基の多型
? A, C, G, T のどれか(大抵は2種類)
? 数百塩基に一回の頻度で出現
? 最近では主要な遺伝マーカー
一塩基多型(SNP)
? DNA一塩基の多型
? A, C, G, T のどれか(大抵は2種類)
? 数百塩基に一回の頻度で出現
? 最近では主要な遺伝マーカー
課題は、
どうやって見つけてくるのか
どうやって多型サイトを見つけてくる?
? 古典はコロニーハイブリダイゼーションや
クローニングなど
? 最近では次世代シーケンサーで読めば良い
CHR POS REF ALT N01 N2 N3
20 14370 G A 0|0 1|0 1/1
20 17330 T A 0|0 0|1 0/0
20 1110696 A G,T 1|2 2|1 2/2
20 1230237 . T 0|0 0|0 0/0
どうやって多型判定(ジェノタイピング)する?
? 古典は電気泳動やサンガーシーケンス
? 最近ではSNP chip/array
? あるいは次世代シーケンサーで読めば良い
SNP chip/array NGS (Miseq)
どうやって多型判定(ジェノタイピング)する?
電気泳動によるマイクロサテライト解析
200個体、150遺伝子座 → 3か月
NGSによるSNP解析
300個体、3000遺伝子座 → 2週間
どうやって多型判定(ジェノタイピング)する?
電気泳動によるマイクロサテライト解析
200個体、150遺伝子座 → 3か月
NGSによるSNP解析
300個体、3000遺伝子座 → 2週間
革命的にハイスループット化された
必要
リシーケンス GBS ターゲットPCR
GBS = Genotype-by-sequencing
マーカー数
対象解析
104~106 103~105 ~103
手法 リシーケンス RAD-seq
ddRAD-seq
… etc.
Ampliseq
TruSeq
… etc.
参照配列 不必要
MIG-seq
GRAS-Di
… etc.
ランダムPCR
102~104
必要不必要
GWAS
GS
集団解析
GWAS
GS
集団解析
GS
集団解析
GWAS?
GS
集団解析
バイアス 低い
コスト 高い
中くらい
低い 低い低い
中くらい 高い
開発コスト 低い 低い 高い低い
NGSを用いた主な多型解析法とその特徴
リシーケンス
物理的断片化
サイズ選択
~300bp
ゲノムの数パーセントを読む方法。
参照配列がない生物でもつかえる。集団解析には注意が必要で
はあるが、親子情報があるときは有効。
検体毎に
制限酵素処理
ライブラリー化
多検体を
プール
NGSで一度に
シーケンス
AATACGTTATGTA
ATTAAGTTAAGTA
ATTACGTTAAGTA
ATTACGTTATGTA
ATTAAGTTAAGTA
AATACGTTAAGTA
取得配列から
ジェノタイピング
どの生物種でも同じ方法で解析可能
GBS (genotype-by-sequencing)
PCRアンプリコンをNGSでシーケンスする方法。ターゲット
PCRであれば、読まれる領域が小さい分、RAD-seq法よりも多
検体を一度にシーケンスできる。
数千SNPを
1チューブで
PCR増幅
多検体を
プール
NGSで一度に
シーケンス
AATACGTTATGTA
ATTAAGTTAAGTA
ATTACGTTAAGTA
ATTACGTTATGTA
ATTAAGTTAAGTA
AATACGTTAAGTA
取得配列から
ジェノタイピング
Amplicon sequence法を利用した多型判定法
アンプリコンシーケンス
ACGT
ACAT
CGTT
CATT
CATT
GTAT
GTAC
GTAT
TGCT
TACT
TGCT
GCTC
GCTT
GCTC
GCTC
ACGT
ACAT
ACAT
ACGT
CGTT
CGTT
CATT
GTAC
GTAC
GTAT
TGCT
TACT
TACT
GCTT
GCTT
アンプリコンシーケンス
ランダムPCR
MIG-seq、GRAS-Di
ターゲットPCR
Ampliseq
Truseq amplicon
生物種を問わない
参照配列いらない
ACGT
ACAT
CGTT
CATT
CATT
GTAT
GTAC
GTAT
TGCT
TACT
TGCT
GCTC
GCTT
GCTC
GCTC
ACGT
ACAT
ACAT
ACGT
CGTT
CGTT
CATT
GTAC
GTAC
GTAT
TGCT
TACT
TACT
GCTT
GCTT
アンプリコンシーケンス
ランダムPCR
MIG-seq、GRAS-Di
ターゲットPCR
Ampliseq
Truseq amplicon
生物種毎に設計
参照配列必要
ケーススタディ
1.RAD-seq(宮城県のギンザケ)
2.Amplicon sequence (長崎県のトラフグ)
? Hiseq2000
? 1レーンあたり200Mリード(single end)
? 100個体解析の場合、2.0Mリード/個体
? 平均25xで読む場合、80,000遺伝子座/個体
SNP座がどのくらい含まれる?
個体間で共通して取れてくるSNP座はどのくらい?
1.RAD-seq(宮城県のギンザケ)
? Hiseq2000
? 1レーンあたり200Mリード(single end)
? 100個体解析の場合、2.0Mリード/個体
? 平均25xで読む場合、80,000遺伝子座/個体
SNP座がどのくらい含まれる?
個体間で共通して取れてくるSNP座はどのくらい?
1.RAD-seq(宮城県のギンザケ)
トライ&エラーが必要
1.RAD-seq(宮城県のギンザケ)
n = 89 n = 61
家系1 家系2
1対1交配で得た2家系を利用
多型のコール or
連鎖地図作製 R/qtl
ddRAD-seq
De novo
dDocent
Reference map +
FreeBayes
Hiseq2000 1 lane
1.RAD-seq(宮城県のギンザケ)
166 サンプル 平均リード数:79,081
平均:50k loci 平均:211k loci
Reference based genotyping
by FreeBayes
De novo genotyping
by dDocent
(被覆率 7x 以上)
1.RAD-seq(宮城県のギンザケ)
ジェノタイプ率 ≧ 90%以上, MAF ≧ 0.05, SNP数 ≧ 3
連鎖地図の作製
dDocent Mapping
家系1 ♂
連鎖群数:30
総SNP数:470
連鎖群数:33
総SNP数:584
連鎖群数:79
総SNP数:3,611
連鎖群数:87
総SNP数:4,308
家系2♂
1.RAD-seq(宮城県のギンザケ)
ジェノタイプ率 ≧ 90%以上, MAF ≧ 0.05, SNP数 ≧ 3
連鎖地図の作製
dDocent Mapping
家系1 ♂
連鎖群数:30
総SNP数:470
連鎖群数:33
総SNP数:584
連鎖群数:79
総SNP数:3,611
連鎖群数:87
総SNP数:4,308
家系2♂
? 参照配列がなくても十分なデータが
取れるが、あった方がデータ量多い。
? 参照配列の有無が影響しない解析法
の開発が望まれる。
? Miseq reagent v2 kit = 出力4Gbp
? 350個体、3,000サイト、 150bp でシーケンス
? データ量:被覆率20x: 3.15Gbp
? データ量:被覆率25x: 3.95Gbp
いわゆるカタログ値
2.Amplicon sequence (長崎県のトラフグ)
? Miseq reagent v2 kit = 出力4Gbp
? 350個体、3,000サイト、 150bp でシーケンス
? データ量:被覆率20x: 3.15Gbp
? データ量:被覆率25x: 3.95Gbp
いわゆるカタログ値
2.Amplicon sequence (長崎県のトラフグ)
トライ&エラーが必要
? Miseq (v2) 300cycle kit
? 326個体、3182SNP座
? トラフグ参照配列にマッピング(BWA)
? Samtools/GATK
2.Amplicon sequence (長崎県のトラフグ)
平均リード数と被覆率(326個体)
2.Amplicon sequence (長崎県のトラフグ)
SNP毎の平均被覆率(326個体)
2.Amplicon sequence (長崎県のトラフグ)
2.Amplicon sequence (長崎県のトラフグ)
相関係数=0.99
1回目のラン
2回目のラン
被覆率の再現性
( 濒辞肠耻蝉毎の平均?异なる326个体)
父
母
子
フェーズも取れている
2.Amplicon sequence (長崎県のトラフグ)
2.Amplicon sequence (長崎県のトラフグ)
性決定遺伝子の探索(501個体)
横軸はSNPのID(染色体の位置情報をもとに整序)、縦軸はSNPの効果。
各プロットはひとつひとつのSNPを表し、染色体別に色分けした。
トラフグの性決定SNP近傍
2.Amplicon sequence (長崎県のトラフグ)
? 予想される規模のデータが得られた
? シーケンス後の解析はシンプル
? プライマーの設計にかかる労力が大きい
? ターゲットサイトを恣意的に選んでいるので、
個体群動態などの推定に利用できるかは不明
まとめ
? NGSにより多様なデータ取得法が開発された
? 必要なサンプル数、loci数で手法を選択
? プールできる検体数とシーケンスする領域は
トレードオフ
? DRY解析(下流の解析)の複雑さとプライ
マー設計の労力もトレードオフ

More Related Content

Gsワークショップ2017 資料(細谷将先生講演)

Editor's Notes

  • #45: 各サイトの被覆率について、最小値、Q1、Q2、average、Q3、最大値を出す。 最小値で昇順にソートして、5未満のサイト数を数えると2031サイト。 Q1で昇順にソートして、5未満のサイト数を数えると530サイト。 最小値→各サイトにおけるcoverageの最小値が5未満のサイト数 Q1   →各サイトにおけるcoverageのQ1が5未満のサイト数 中央値→各サイトにおけるcoverageの中央値が5未満のサイト数 平均値→各サイトにおけるcoverageの平均値が5未満のサイト数 Q3   →各サイトにおけるcoverageのQ3が5未満のサイト数 最大値→各サイトにおけるcoverageの最大値が5未満のサイト数