端端舝

CBI悝頗民亙奈玄伉失伙本永扑亦件
2013-10-28

NGS犯奈正賤昴⻌嬡
奈SNP賤昴‵骨必用丞賤昴引匹奈

本永扑亦件ㄡㄩ賤昴汁奈伙�
絁宒頗扦斥瓜伉旦
奻游怍栝

Outline
本永扑亦件ㄠㄩ灍歠沭璃�
? 棒岍測扑奈弗件扑件弘及玄伊件玉
? 棒岍測扑奈弗件扑件弘賤昴卞僕籵及旦氾永皿
? 扑瓜伉左ㄗ骨必用丞Exome賤昴ㄘ
↙ Wet賤昴童絞氪午及支曰午曰
↙ 犯奈正賤昴卞荌�允月灍歠沭璃

本永扑亦件ㄡㄩ賤昴汁奈伙�
? NGS犯奈正賤昴及霜木
? 穴永疋件弘?SNP賤昴引匹
↙ 灍犛毛引元尹凶民亙奈玄伉失伙
↙ 汁奈伙腢太及禾奶件玄
? NGS犯奈正匎搪?奪燴扑旦氾丞GenaGenomeManager

掛゜及乒犯伙弗奈旦ㄩ扑瓜伉左

※

骨2扔件皿伙及Exome犯奈正
匹允﹝劐�及掀廌賤昴毛云
�中仄引允ㄐ

§
ERR035486_1.fastq.gz

升氏卅扔件皿伙匹允井ˋ
賤昴及醴腔反ˋ
? 肮珨遞氪蚕懂及Ovarian Cancer Cell line
每 ERR035486ㄩCisplatin sensitive (post-treatment)
每 ERR035487: Cisplatin resistant (relapse)

?
?
?
?

SureSelect Human AllExon Kit (Agilent)
Illumina Genome Analyzer IIx
Paired End library
跪扔件皿伙及SNV毛伉
旦玄趙仄﹜暫眭SNP卅升午
Read length 72 bp x 2

※

每 ERR035486ㄩ53.3 M reads (6.6 Gb)
每 ERR035487: 68.0 M reads (9.8 Gb)

桽磁仄卅互日Cisplatin
sensitivity卞憝歹月劐�
毛�勾仃堤仄凶中

§

灍歠沭璃及引午戶
? Starting material: 5 mg gDNA from Cancer cell
line (no WGA)
? 1st PCR (library prep): 10 cycles
? SureSelect Human AllExon Kit (Agilent)
? Illumina GAIIx Paired-end library 2 x 72bp,
insert size ~155 bp
每 ERR035486ㄩ53.3 M reads (6.6 Gb)
每 ERR035487: 68.0 M reads (9.8 Gb)

掛民亙奈玄伉失伙及友日中
? NGS犯奈正賤昴及云云方公及霜木毛燴賤允月
? 犯奈正賤昴及跪旦氾永皿反睡毛仄化中月及井﹜
卅兮斛猁卅及井毛眻覜腔卞燴賤允月

? 捧勞釦犯奈正及梓𨃨白巧奈穴永玄毛燴賤允月

堤逃犯奈正
白央奶伙
𨈘极
白央奶伙扔奶朮
ERR035486_1.fastq ERR035486
13.8GB

13.8GB
17.6GB
17.6GB
磁�60GB眕奻!

NGS賤昴及霜木ㄗmappingㄘ
汜犯奈正
Base caller (辻け葆扽)
珨棒饜蹈犯奈正ㄗFastq, sffㄘ
穴永疋件弘賤昴

辻け葆扽 (CASAVA, Newbler, TMAP),
Galaxy, DDBJ Read Annotation Pipeline,
CLC Bio, etc.

媼棒賤昴犯奈正ㄗBAMㄘ
劐�賤昴
劐�賤昴犯奈正ㄗVCFㄘ

逃政賤昴
逃政賤昴犯奈正ㄗGFFㄘ

反元戶卞𨃨�允月手及
? 賤昴虐噫
每 Linux, Mac, Windows (丟乒伉8GB眕奻﹜犯奴旦弁
300GB眕奻)
每媼棒賤昴弁仿它玉
? Read Annotation Pipeline (DDBJ)
? galaxy

民亙奈玄伉失伙及霜木
伉奈玉QC
穴永疋件弘賤昴

穴永疋件弘QC

笭恚壺�
伉失仿奶件丟件玄
伉平乓伉皮伊奈扑亦件

劐�賤昴
劐�失用氾奈
扑亦件

QCㄗ軑�賤昴ㄘ
醴腔ㄩ
?灍歠﹜犯奈正龰腕卞�觳互卅井勻凶井ˋ
?迵尹日木凶FASTQ白央奶伙井日堤逃仄化﹜陓螸
匹五月賤昴磐彆互腕日木月井ˋ
↙ ㄡ棒賤昴毛俴勻化場戶化逃�匹五月�觳手
丐月﹝
read quality, mapping rates, duplicates, coverage
bias
-> FastQC, On target %, Coverage plot analysis

方仁お仇月�觳
?
?
?
?

Per Base Quality
Duplicate 互嗣中﹝
穴永皿薹互丐互日卅中﹝
市田伊奈斥互歙珨匹卅中﹝

FASTQ白巧奈穴永玄
(1) 実價饜蹈毛跪実價及弁它巧伉氾奴旦戊失午午手卞�扴允月凶戶及白央奶伙白巧奈穴永玄
(2) NGS及伉奈玉汜犯奈正毛悵湔允月白巧奈穴永玄午仄化𣷣仁瞳蚚今木化中月
隅膽ㄩ 4俴匹1伉奈玉毛�扴
@SEQ_ID [description (optional)]
実價饜蹈
+[SEQ_ID description(optional)]
弁它巧伉氾奴饜蹈ㄗASCII戊奈玉ㄩ弁它巧伉氾奴旦戊失+ 33ㄘ
弁它巧伉氾奴旦戊失午仄化反﹜Phred旦戊失互蚚中日木月仇午互嗣中﹝

Illumina HiSeq2000 (CASAVA 1.8ㄘ及瞰
@HWI-ST818R:232:D22C7ACXX:5:1101:1669:1981 1:N:0:GTTTCG
GACAAGGCGGGCAGCAAAAGCAAGAAAGGCAAAGGGACTAGGAATGCACGAAACTGAGCTCAAGT
ACTGG
+
4=DFDFFHFHHHADGIJJJJJJEFAHIGGIIEEEHHFFFFEEEEEDDDDDDDDDDDDDDDDDDD3@CA::

※4§ : ASCII戊奈玉 52 每 33 = 弁它巧伉氾奴旦戊失 19
※=※ : ASCII戊奈玉 61 每 33 = 弁它巧伉氾奴旦戊失 28

PhredㄗSangerㄘ旦戊失
Qphred = -10 log p
p : 公及矛奈旦戊奈伙互悷曰匹丐月復薹

Phred 旦戊
失
20

矛奈旦戊奈伙及復井日仄
今
99%

30

99.9%

40

99.99%

FastQC卞方月伉奈玉QC
(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)

> fastqc -o fastqc_out ERR035486_1.fastq.gz ERR035486_2.fastq.gz
> fastqc -o fastqc_out ERR035487_1.fastq.gz ERR035487_2.fastq.gz

FastQC: Per Base Quality
ERR035486
伉奈玉ㄠ

伉奈玉ㄡ

FastQC: Per Sequence Quality Scores
ERR035486

伉奈玉ㄠ

伉奈玉ㄡ

必用丞皮仿它扒
? Integrative Genomics Viewer
http://www.broadinstitute.org/igv/

失仿奶件丟件玄及�源

A C G T

穴永疋件弘賤昴午反ˋ
伉奈玉饜蹈互升及�伎极及升及弇离井日腕日木凶手及匹丐月井毛芢隅允月﹝
SNP支巨仿奈毛漪氏分伉奈玉毛淏仄中�垀卞饜离允月及反珨啜卞嬪褣

ACGTTGCG

AGGTTGCG
C

T

伉奈玉
ACGTTGTG

T

郔手立旦穴永民及杅互屾卅中�垀卞饜离允月及互邰絞
GCCATGTA
伉奈玉
GCCATGAA

GTCATGAA
C

A

?

肮元復井日仄今匹恚杅預垀卞穴永皿褫夔卅�磁

?
(a) 中內木井卞仿件母丞卞穴永皿
(b) �I源卞穴永皿
(c) 升切日卞手穴永皿仄卅中

RNA-Seq及穴永疋件弘
RNA (total RNA/mRNA)

統桽必用丞饜蹈

暫眭exon

暫眭exon

陔�exon

G

cDNA磁傖

read饜蹈

剿⑵趙

A
A
A
A

巨平末件斥乓件弁扑亦件毛蕉𩬅仄凶穴永疋件弘
穴永疋件弘

仿奶皮仿伉奈
釬庨?饜蹈𢜪隅

ATGCGG＃

GCGGCA＃

Short read匹Deep卞掂戈仇午卞方曰
?逃政講軑䛐
?陔�exon軑䛐
?exon-intron�婖軑䛐
?SNP𨈘堤
互褫夔

ChIP-Seq及穴永疋件弘
cells
DNA

統桽必用丞饜蹈

gene

protein
殤点?喲堤?剿⑵趙

read饜蹈

疋奈弁𨈘堤
轎砮朻蔥?賤褩?儕庨
仿奶皮仿伉奈釬庨?饜
蹈𢜪隅

ATGCGG＃

穴永疋件弘

GCGGCA＃

Short read匹Deep卞掂戈仇午卞方曰
?㻢腔protein及磐磁窒弇及𨈘堤
互褫夔

穴永疋件弘皿伕弘仿丞及腢亼
paired
mapping

伉奈玉墿

gapped
alignment

蚚芴

aln

♀

?200bp

♀

Genome-to-Genome,
cDNA-to-cDNA 穴永疋件弘

bwasw

℅

350-1000bp

⊕

Long read穴永疋件弘

Bowtie 1

♀

?1024bp

℅

Genome-to-Genome,

Bowtie 2

♀

剠秶癹

⊕

Genome-to-Genome,

Tophat 1

♀

Bowtie1卞脹仄中

→

RNA-seq(spliced mappingㄘ

Tophat 2

♀

Bowtie2卞脹仄中

⊕

RNA-seq(spliced mappingㄘ

皿伕弘仿丞

BWA
(v0.7眕ゴ)

BWA 穴永疋件弘
穴永疋件弘失伙打伉朮丞及衙謹ㄗ犯白巧伙玄偞隅及�磁ㄘ
read饜蹈
seed length (=32)

?5＊�井日seed length(=32)楓醴引匹及実價饜蹈毛max. seed differences(=2) 及立
旦穴永民﹜幼乓永皿毛偝⺍仄凶�磁卞穴永疋件弘褫夔卅統桽饜蹈奻及薆郖毛抻坰
?seed互穴永民仄凶公木冗木及薆郖卞勾中化﹜紹曰及実價毛失仿奶件丟件玄仄﹜伉奈玉
墿卞𡛟元凶郔湮偝⺍立旦穴永民杅眕狟及失仿奶件丟件玄毛А戶月
?眕奻匹腕日木凶失仿奶件丟件玄及丹切﹜郔手旦戊失及詢中弇离卞穴永疋件弘允月
?肮珨旦戊失匹恚杅預垀卞穴永皿今木月�磁反﹜仿件母丞卞ㄠ市垀毛腢少
?PE 伉奈玉及�磁反允屯化及甲永玄及矢失及丹切﹜郔囡及瞎心磁歹六毛腢少

伉白央伊件旦饜蹈
UCSC Genome Browser
http://genome.ucsc.edu/cgi-bin/hgGateway

Downloads ↙ Genome Data

(1) hg19伉白央伊件旦饜蹈及⻌忒

�伎极�e卞⻌忒褫夔
(1) 1白央奶伙卞磐磁仄凶FASTA白央奶伙毛汜傖允月�磁及瞰ㄗ�楓卞蛁砩!ㄘ

> cat chr1.fa.gz chr2.fa.gz chr3.fa.gz ... chr22.fa.gz ?
chrX.fa.gz chrY.fa.gz chrM.fa.gz | gzip 每cd > hg19.fa

hg19伉白央伊件旦饜蹈
ㄗ公及坻及⻌忒珂ㄘ
(2) Broad Institute
ftp://ftp.broadinstitute.org/pub/seq/references/Homo_sapiens_assembly19.fasta

(3) 1000 Genomes
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.gz

�伎极靡

Um饜蹈

目伙矢旦
它奴伙旦

chr1, ＃ , chrX, chrY, chrM

衄

剠

(2) Broad Institute 1, 2, ＃ , X, Y, MT

漪

衄

(3) 1000
Genomes

漪

剠

統桽饜蹈⻌忒珂
(1) UCSC

1, 2, ＃ , X, Y, MT

BWA卞方月穴永疋件弘
統桽饜蹈 hg19.fa (FASTA白巧奈穴永玄ㄘ卞 PE伉奈玉 ERR035486_1.fastq,
ERR035486_2.fastq (FASTQ白巧奈穴永玄ㄘ毛BWA匹穴永疋件弘允月�磁及瞰ㄩ
Ｋ

> bwa index -a bwtsw hg19.fa

Ｌ

> bwa aln hg19.fa ERR035486_1.fastq > ERR035486.1.sai

Ｍ

> bwa aln hg19.fa ERR035486_2.fastq > ERR035486.2.sai

Ｎ

> bwa sampe hg19.fa ERR035486.1.sai ERR035486.2.sai ?
ERR035486_1.fastq ERR035486_2.fastq > ERR035486.sam

Ｋ hg19.fa毛賤昴仄﹜詢厒卞穴永疋件弘毛俴丹凶戶及index白央奶伙�毛釬傖
Ｌ, Ｍ伉奈玉1, 伉奈玉2毛公木冗木統桽饜蹈卞�仄化失仿奶件丟件玄
Ｎ伉奈玉1, 伉奈玉2及失仿奶件丟件玄方曰﹜矢失伉件弘毛俴中﹜郔羥卅失仿奶件丟件玄磐彆
毛А戶SAM白巧奈穴永玄匹堤薯

SAM白巧奈穴永玄
(Sequence Alignment/Map Format)
?
?
?

伉奈玉饜蹈及統桽饜蹈卞�允月失仿奶件丟件玄磐彆毛�扴允月白央奶伙倛宒
NGS及伉奈玉饜蹈及穴永疋件弘磐彆毛�嶕允月蕣及岈灍奻及㻢𨃨白巧奈穴永玄
氾平旦玄倛宒ㄗSAMㄘ午田奶瓜伉倛宒ㄗBAMㄘ互湔婓

@HD
@SQ

VN:1.4 SO:coordinate
SN:chr1 LN:249250621
(笢謹)
@SQ
SN:chrY LN:59373566
@SQ
SN:chrM LN:16571
@RG
ID:ERR035486 PL:Illumina
PU:Illumina
LB:ERR035486 SM:ERR035486
ERR035486.7
99
chr1 10005 14
53M1I14M4S
=
10174 241
CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCAGAT
CDCCFEHHHBEHGGHDFHGHIDDHIHIDGHIHIDG@FGGA;CAFD>EFGDIDHIIIIIDGIIHGACBA><:<
XA:Z:chr5,+11529,72M,4; MD:Z:67
PG:Z:MarkDuplicates
RG:Z:ERR035486 XG:i:1 AM:i:14 NM:i:1 SM:i:14 XM:i:0 XO:i:1 XT:A:M
ERR035486.10 163
chr1 10032 0
72M
=
10297 336
AACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAGCCT
?BCDFGDFGGGHDGHHHIE
GHHHIDGGGHHEGH6DHDGFHHHCGHGHHCFC;7<CD5??#############
X0:i:424
MD:Z:68C3
PG:Z:MarkDuplicates
RG:Z:ERR035486 XG:i:0 AM:i:0 NM:i:1 SM:i:0 XM:i:1 XO:i:0 XT:A:R

目永母窒

1. QNAME
2. FLAG
3. RNAME
4. POS
5. MAPQ
6. CIGAR

弁巨伉奈靡ㄗ伉奈玉IDㄘ
申永玄白仿弘
統桽饜蹈靡
菴珨実價及嶱宎弇离
穴永疋件弘弁它巧伉氾奴
CIGAR string

ERR035486.7
99 = 1100011 (2筳杅ㄘ => PE及伉奈玉1匹伉奈玉2午淏仄中弇离憝�S匹僕卞穴永皿今木化中月﹝
chr1
10005
14
53M1I14M4S => 54楓醴及実價互統桽饜蹈卞�仄化insertion﹜郔摽及4実價反弁伉永疋件弘

SAMtools
http://samtools.sourceforge.net
SAM白巧奈穴永玄及帊�𤩸手肮扔奶玄井日⻌忒褫夔

? SAMㄞBAM白巧奈穴永玄卞�允月今引介引卅紱
釬毛俴丹皿伕弘仿丞汁奈伙
samtools戊穴件玉毛蚚中化統桽饜蹈�卞末奈玄今木凶BAM白央奶伙毛釬傖仄﹜今日卞index毛釬傖允月�磁

> samtools sort unsorted.bam sorted.bam
> samtools index sorted.bam

unsorted.BAM
伉奈玉1
伉奈玉2
伉奈玉3
伉奈玉4
伉奈玉5
伉奈玉6

chr22
chr1
chr4
chr1
chr3
chr2

1500
24000
100
8000
12000
7500

sorted.BAM
sort

伉奈玉4
伉奈玉2
伉奈玉6
伉奈玉5
伉奈玉3
伉奈玉1

chr1
chr1
chr2
chr3
chr4
chr22

8000
24000
7500
12000
100
1500

index
sorted.bam.bai
統桽饜蹈及￤砩及薆郖卞
穴永皿今木凶伉奈玉毛詢厒卞
𨈘坰允月仇午互褫夔

笭恚壺�
醴腔ㄩ
? PCR duplicates 蚕懂及伉奈玉笭恚毛龰曰壺五﹜劐�
𨈘堤及蕣及田奶失旦毛幏𦑩仄﹜��俶毛𦑩日允﹝
PCR笭恚午心卅仄﹜
4匹反卅仁1午市它件玄
今木月屯五

PE伉奈玉及伉奈玉ㄠ﹜伉奈玉ㄡ及�互�仁肮元�垀
卞穴永皿今木化中月﹝

蛁砩ㄩ
Amplicon 矛奈旦及Target seq支RNA-seq 卅升﹜掛旦氾永皿毛灍囥允屯五匹卅中仇午手丐月ㄐ

Picard卞方月笭恚壺�
http://picard.sourceforge.net/index.shtml

? SAMㄞBAM﹜FASTQ﹜VCF白巧奈穴永玄卅升卞�
允月今引介引卅紱釬毛俴丹皿伕弘仿丞汁奈伙
> java -Xmx4G 每jar picard-tools-1.93/MarkDuplicates.jar ?
INPUT=ERR035486.sort.bam ?
REMOVE_DUPLICATES=true VALIDATION_STRINGENCY=LENIENT ?
METRICS_FILE=ERR035486.dup OUTPUT=ERR035486.rmdup.bam

ERR035486
Before
Total reads
Mapped reads
Duplicates

After

ERR035487
Before

After

106,591,524

96,615,204

135,916,704

123,987,331

98,763,696
(92.66%)

88,787,376
(91.90%)

130,729,264
(96.18%)

118,799,891
(95.82%)

9,976,320 (9.3%)

11,929,373 (8.8%)

Picard: CollectInsertSizeMetrics
>java -Xmx4G 每jar picard-tools-1.93/CollectInsertSizeMetrics.jar ?
INPUT=ERR035486.rmdup.bam ?
OUTPUT=ERR035486.rmdup.insert_size_metrics ?
HISTGRAM_FILE=ERR035486.rmdup.insert_size_metrics.pdf ?
VALIDATION_STRINGENCY=LENIENT

FR

0

2e+05
0e+00

1e+05

50000 100000

Count

200000

3e+05

300000

FR

Count

Insert Size Histogram for All_Reads
in file ERR035487.rmdup.bam

4e+05

Insert Size Histogram for All_Reads
in file ERR035486.rmdup.bam

0

100

200
Insert Size

300

400

500

0

100

200

300
Insert Size

400

500

600

正奈必永玄薆郖及隅膽
伉疋奈玄

伉疋奈玄

伉疋奈玄

巨平末件
矛奶玄
正奈必永玄
左件正奈必永玄
伉奈玉

左白正奈必永玄
伉奈玉

禾奶件玄ㄩ
?正奈必永玄薆郖毛升及方丹卞隅膽允月井ˋ
?睡毛左件正奈必永玄伉奈玉午允月井ˋ

BED白巧奈穴永玄
? 必用丞奻及薆郖毛�扴允月僕籵白巧奈穴永玄
? 正皮Еピ曰氾平旦玄白央奶伙ㄗ4市仿丞醴眕蔥反￤砩ㄘ
�伎极
chr1
chr1
chr1
chr1

嶱宎弇离皺賸弇离
721381
721530
721851
752916

721519
721806
721942
753035

ㄗ￤砩ㄘ

mRNA|AK290103,mRNA|AK125248,ens|ENST00000358533,ens|ENST00000429505
ens|ENST00000435300,mRNA|AK097327,ens|ENST00000326734

SureSelect 及正奈必永玄薆郖及BED白央奶伙反眕狟方曰⻌忒褫夔
?Agilent SureDesign
https://earray.chem.agilent.com/suredesign/

左件正奈必永玄薹
睡%及伉奈玉互正奈必永玄奻卞穴永皿今木凶井ˋ
?正奈必永玄吲窺薹及啐�ㄗ灍歠旃噶氪尺及白奴奈玉田永弁ㄘ
?扑奈弗件扑件弘戊旦玄卞�允月矛生白奴永玄啐�卞手衄�
ERR035486

ERR035487

Total reads

96,615,204

123,987,331

Mapped reads

88,787,376
(91.90%)

118,799,891
(95.82%)

On Target reads

54,898,505
(56.82%)

75,627,222
(61.00%)

市田伊奈斥皿伕永玄及釬傖
bedtools (http://code.google.com/p/bedtools/) 毛瞳蚚仄凶市田伊奈斥皿伕永玄及釬傖
>coverageBed -abam -d -a ERR035486.rmdup.bam 每b exome_target.bed

薆郖毛ㄠ実價仍午卞
桯嶱仄﹜跪実價弇离
及depth毛堤薯

chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1
chr1

65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509
65509

65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625
65625

-

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1

ㄡㄟ俴最僅及��g卅
旦弁伉皿玄匹�I燴允月仇午匹
市田伊奈斥皿伕永玄毛釬傖
允月仇午互褫夔﹝

実價弇离

depth

市田伊奈斥皿伕永玄
ERR035486

ERR035487

100.0%

90.0%

80.0%

70.0%

60.0%

50.0%

40.0%

30.0%

20.0%

10.0%

0.0%
1

10

100

1000

depth中仁勾眕奻匹正奈必永玄薆郖及睡%互市田奈今木化中月井ˋ劐�賤昴及��𢜪隅卞手衄�

唬詁梆悝頗2013民亙奈玄伉失伙﹛捧勞釦犯奈正賤昴⻌藷﹛ㄗ賤昴晤ㄘ饜票訧蹋

GATK卞方月伉失仿奶件丟件玄
Ｋ

Ｌ

> java -jar GenomeAnalysisTK.jar -T RealignerTargetCreator ?
-R hg19.fa ?
每I ERR035486.rmdup.bam ?
每o ERR035486.rmdup.intervals
> java 每jar GenomeAnalysisTK.jar -T IndelRealigner ?
-R hg19.fa ?
每I ERR035486.rmdup.bam ?
每targetIntervals ERR035486.rmdup.intervals ?
每o ERR035486.rmdup.realigned.bam

Ｋ RealignerTargetCreator 卞方曰伉失仿奶件丟件玄毛灍囥允屯五薆郖毛喲堤
ＬＫ匹喲堤仄凶薆郖毛硌隅仄﹜伉失仿奶件丟件玄毛灍俴

GATK Lite(1.x) 午 2.x

http://gatkforums.broadinstitute.org/discussion/1720/what-is-gatk-lite-and-how-does-it-relate-to-full-gatk-2-x-retired

伉平乓伉皮伊奈扑亦件及斛猁俶

http://www.broadinstitute.org/gatk/events/2038/GATKwh0-BP-3-Base_recalibration.pdf

実價弁它巧伉氾奴旦戊失及娗淏

http://www.broadinstitute.org/gatk/events/2038/GATKwh0-BP-3-Base_recalibration.pdf

GATK卞方月伉平乓伉皮伊奈扑亦件
> java -jar GenomeAnalysisTK.jar -T CountCovariates ?
-I ERR035486.rmdup.realigned.bam ?
-R hg19.fa ?
-S LENIENT ?
-knownSites 00-All.chr.vcf ?
-cov ReadGroupCovariate ?
-cov QualityScoreCovariate ?
-cov CycleCovariate ?
-cov DinucCovariate ?
-log ERR035486.rmdup.realigned.recal.log ?
-recalFile ERR035486.rmdup.realigned.recal_data.csv
> java -Xmx8g -jar $gatk_dir/GenomeAnalysisTK.jar -T TableRecalibration ?
-I $sample.rmdup.realigned.bam ?
-R hg19.fa ?
-recalFile ERR035486.rmdup.realigned.recal_data.csv ?
-log ERR035486.rmdup.realigned.Qual.log ?
-o ERR035486.rmdup.realigned.recal.bam

BAM白央奶伙及跪伉奈玉及実價及弁它巧伉氾奴旦戊失互娗淏今木月﹝
�必用丞支�巨平末件卅升及鋒縫腔卅賤昴匹卅中�磁反﹜坋煦卅犯奈正禾奶件玄
互腕日木內�彆反ヽ渾匹五卅中仇午卞蛁砩﹝

Variant Call / Genotype Call 午反ˋ

G/T

C/C

劐�𨈘堤皿伕弘仿丞及掀廌
皿伕弘仿丞
SAMtools

仿奶本件旦

SNP

Indel

Somatic
SNV

Somatic
Indel

♀

♀

奈

奈

剠�

GATK
Unified Genotyper

♀

♀

奈

奈

Lite唳剠�
2.X 反失市犯立永弁白伉奈

VarScan

♀

♀

♀

♀

失市犯立永弁白伉奈

MuTect

奈

奈

♀

ˋ


GATK
Somatic Indel
Detector

奈

奈

奈

♀


Unified Genotyper卞方月劐�𨈘堤
> java -jar GenomeAnalysisTK.jar 每T UnifiedGenotyper ?
-R hg19.fa ?
-I ERR035486.rmdup.realigned.recal.bam ?
-I ERR035487.rmdup.realigned.recal.bam ?
-glm BOTH ?
-nt 4 ?
-o result.recal.gatk.var.vcf ?
-metrics ug_recal_metrics ?
-D 00-All.chr.vcf ?
-S LENIENT ?
-out_mode EMIT_VARIANTS_ONLY ?
-L exome_target.bed

ERR035486, ERR035487及�I源及BAM白央奶伙毛迵尹化Variant Call毛俴丹仇午匹�I源及
扔件皿伙及劐�互掀廌褫夔卅倛匹VCF白央奶伙互堤薯今木月﹝
今日卞奻�左皿扑亦件卞方曰﹜屾卅仁午手中內木井及BAM白央奶伙匹正奈必永玄薆郖奻卞
𨈘堤今木凶SNV引凶反Indel卞勾中化堤薯今木月﹝
※-D§ 左皿扑亦件匹dbSNP及ロ�毛失用氾奈扑亦件允月�磁反﹜統桽饜蹈及FASTA白央奶
伙卞隅膽今木化中月�伎极靡午dbSNP及VCF白央奶伙卞隅膽今木化中月�伎极靡毛珨
祡今六化云仁斛猁互丐月仇午卞蛁砩﹝

VCF白巧奈穴永玄
(Variant Call Format)
?
?
?

劐�?斥尼用正奶皿毛�扴允月僕籵白巧奈穴永玄
禾疋亙伊奈扑亦件仍午卞失伊伙螿僅支伉奈玉杅
氾平旦玄倛宒ㄗVCFㄘ午田奶瓜伉倛宒ㄗBCFㄘ互湔婓

##fileformat=VCFv4.1
##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Approximate read depth (reads with MQ=255 or with bad mates are filtered)">
##FORMAT=<ID=GQ,Number=1,Type=Float,Description="Genotype Quality">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
ㄗ笢謹ㄘ
#CHROM POS
ID
REF
ALT
QUAL FILTER INFO FORMAT ERR035486
ERR035487
chr1 4772053 rs1061968
T
C
40.42 .
AC=2;AF=0.50;AN=4;BaseQRankSum=0.311;DB;DP=16;Dels=0.00;FS=2.522;HRun=0;HaplotypeScore=0.0000;MQ=57.05;MQ0=0;MQRankSum=0.778;QD=2.53;ReadPosRa
nkSum=0.467;SB=-31.32 GT:AD:DP:GQ:PL 0/1:3,2:5:60.71:63,0,61 0/1:8,3:11:12.06:12,0,231
chr1 4772717 rs242056
G
A
2547.13 .
AC=4;AF=1.00;AN=4;DB;DP=78;Dels=0.00;FS=0.000;HRun=0;HaplotypeScore=0.0000;MQ=57.71;MQ0=0;QD=32.66;SB=-665.84 GT:AD:DP:GQ:PL
1/1:0,32:32:75.24:973,75,0
1/1:0,46:46:99:1610,123,0
chr1 5935162 rs1287637
A
T
70.70 .
AC=2;AF=1.00;AN=2;DB;DP=3;Dels=0.00;FS=0.000;HRun=0;HaplotypeScore=0.0000;MQ=51.77;MQ0=0;QD=23.57;SB=-39.86 GT:AD:DP:GQ:PL
1/1:0,3:3:9.02:103,9,0 ./.
chr1 5987696 rs7520105
T
C
42.36 .
AC=4;AF=1.00;AN=4;DB;DP=4;Dels=0.00;FS=0.000;HRun=1;HaplotypeScore=0.0000;MQ=53.95;MQ0=0;QD=10.59;SB=-40.65 GT:AD:DP:GQ:PL 1/1:0,2:2:3.01:45,3,0
1/1:0,1:2:3.01:31,3,0
chr1 6027252 rs875573
A
G
64.26 .
AC=3;AF=0.75;AN=4;BaseQRankSum=0.727;DB;DP=4;Dels=0.00;FS=0.000;HRun=1;HaplotypeScore=0.0000;MQ=60.00;MQ0=0;MQRankSum=0.727;QD=16.06;ReadPosRankSum=0.727;SB=-36.47 GT:AD:DP:GQ:PL 1/1:0,1:1:3.01:41,3,0 0/1:1,2:3:27.10:58,0,27

劐�失用氾奈扑亦件皿伕弘仿丞及掀廌
皿伕弘仿丞

仿奶本件旦

VCF
⻌薯

VCF
堤薯

HTML
伊禾奈玄

SnpEff

♀

♀

♀

剠�

Variant Effect
Predictor

♀

♀

♀

剠�

ANNOVAR

♀

♀

奈


𨈘堤今木凶劐�卞勾中化﹜公木日互朡�赽宴昜卞迵尹月荌�毛失用氾奈扑亦件允月﹝

釦紳梯楚款款ㄩ扔穴伉奈伊禾奈玄

穴奶瓦件弘
? VarSifter
http://research.nhgri.nih.gov/software/VarSifter/index.shtml

伊禾奈氾奴件弘
? QC磐彆ㄗ灍歠童絞氪尺及白奴奈玉田永弁ㄘ
? 賤昴犯奈正
每郔皺及BAM白央奶伙ㄗ扔件皿伙仍午卞ㄘ
每 VCF白央奶伙ㄗ失用氾奈扑亦件葆五ㄘ
賤昴犯奈正反﹜IGV﹜VarSifter毛妏尹壬﹜GUI虐噫ㄗ由末戊件奻ㄘ匹煦昴匹五引允

今日卞砆仄仁眭曰凶中源尺

1000扔件皿伙�耀及必用丞賤昴犯奈正毛珨啋奪燴匹五月
甩奈玉它尼失珨极倰扑旦氾丞

FASTQ

BAM

�跡670勀�?

價掛辻夔ㄩ Variant伊禾奈玄

憝蟀ロ惆及市旦正丞隅砱ㄗ丟正犯奈正ㄘ

必用丞犯奈正午丟正犯奈正及奪燴

丟正犯奈正毛蚚中凶劐祑及穴奶瓦件弘

端端舝

唬詁梆悝頗2013民亙奈玄伉失伙﹛捧勞釦犯奈正賤昴⻌藷﹛ㄗ賤昴晤ㄘ饜票訧蹋

Recommended

More Related Content

What's hot (20)

Similar to 唬詁梆悝頗2013民亙奈玄伉失伙﹛捧勞釦犯奈正賤昴⻌藷﹛ㄗ賤昴晤ㄘ饜票訧蹋 (20)

Recently uploaded (11)

唬詁梆悝頗2013民亙奈玄伉失伙﹛捧勞釦犯奈正賤昴⻌藷﹛ㄗ賤昴晤ㄘ饜票訧蹋