狠狠撸

狠狠撸Share a Scribd company logo
2019年度
第4回バイオインフォマティクス実習
先端医科学研究センター バイオインフォマティクス解析室
中林潤
ATAC-seqデータ解析
? bed formatピークファイルをUCSC genome browserにアップロード
? ピーク領域の配列をTable Browserで取得
? MEME Suiteでピーク領域配列のモチーフ検索
カバー率 = (N × L) / G : 1塩基当りの断片数
リード数 : N
リード数 : L
ゲノム長 : G
…AGGTGCATGCCGCATCGATCGAGC…
AGGTGCATG
GCATGCCGCAT
GCATCGATCGAGC
paired end
single end
ゲノム
リード
Next Generation Sequencer (NGS)
DNAを断片化して配列を読む→参照ゲノムにマッピング→配列を再構成する
カバー率が十分でないと正確な配列情報が得られない。
ChIP-seq
ATAC-seq
Tn5 transposase
insertion
insertion sequence as a primer
PCR amplification
NGSmapped onto reference genome
文字の羅列?
thoughyetofhamletourdearbrothersdeaththememorybegreenandthati
tusbefittedtobearourheartsingriefandourwholekingdomtobecontracte
dinonebrowofwoeyetsofarhathdiscretionfoughtwithnaturethatwewith
wisestsorrowthinkonhimtogetherwithremembranceofourselvestheref
oreoursometimesisternowourqueentheimperialjointresstothiswarlikes
tatehaveweastwerewithadefeatedjoywithanauspiciousandadroppinge
yewithmirthinfuneralandwithdirgeinmarriageinequalscaleweighingdeli
ghtanddoletakentowifenorhavewehereinbarrdyourbetterwisdomswhi
chhavefreelygone15withthisaffairalongforallourthanks
ハムレットのせりふ
thoughyetofhamletourdearbrothersdeaththememorybegreenandthati
tusbefittedtobearourheartsingriefandourwholekingdomtobecontracte
dinonebrowofwoeyetsofarhathdiscretionfoughtwithnaturethatwewith
wisestsorrowthinkonhimtogetherwithremembranceofourselvestheref
oreoursometimesisternowourqueentheimperialjointresstothiswarlikes
tatehaveweastwerewithadefeatedjoywithanauspiciousandadroppinge
yewithmirthinfuneralandwithdirgeinmarriageinequalscaleweighingdeli
ghtanddoletakentowifenorhavewehereinbarrdyourbetterwisdomswhi
chhavefreelygone15withthisaffairalongforallourthanks
Motif
#1 GACAGAAAGGGCAAAGAGGAAGTGAAAGCTAAGAAGACT
#2 GTCCCCTGAAAGTAAGAGGAAGTGAAAGCTGTCTGCTGG
#3 TGCCAAACATGGAAAGGGGAAGTGAAAGAGACAGACGTA
#4 GGTCTCATGGGAAAACAGGAAGTGAAAGCACAACTAAGA
#5 TGGCCTGGCTGAAAGGGGGAAGTGAAAGCGAGGTGAACT
#6 TCTTAACCTGACAAACAGGAAGTGAAAGTACCTTTCGGG
specific sequence repeatedly observed in genome DNA
↓
functionally and biologically significant region
↓
motif
モチーフ解析
? 30億塩基対の配列から特定の配列を見つける
? 総当り
計算時間 → 30億の2乗
不可能
? MEME Suiteを用いたモチーフ検索
データのダウンロード
GEOデータベース
GSM2937018
GSM2937018_ATAseq-EGFP-1_peaks.narrowPeak.gz
http://ncbi.nlm.nih.gov/geo
Bed file format
染色体番号 スタートポジション エンドポジション ID 数値 ストランド
chr1 191423 191584 EGFP1_peak_1 71 +
chr1 629825 630062 EGFP1_peak_2 763 +
chr1 633909 634155 EGFP1_peak_3 764 +
???
ピークの位置を記述するフォーマット
UCSC genome browser
http://genome.ucsc.edu
Genomes項目から該当する
参照ゲノムを選択する
今回はhg38
add custom tracksボタンをクリック
custom trackのアップロード
ファイルを選択をクリック
bedファイルを選択
submitボタンをクリック
custom trackのアップロード
goをクリックして表示
custom trackの表示
custom track
Table Browser
Tools項目からTable Browserを選択
ピーク領域の配列を取得
group:Custom Tracks
Tracks:User Track
output format:sequence
output file:ファイル名
get outputボタンを
クリック
Table Browser
get sequenceをクリック
FASTA file format
>配列名、説明など
配列
>hg38_ct_UserTrack_3545_EGFP1_peak_270 range=chr1:36306876-36307119
5'pad=0 3'pad=0 strand=+ repeatMasking=none
CGCGGAGGCCGCGCTGTGCGCGCCGCCGAGGTGAGCGCAAGGGCGGGGAC
>hg38_ct_UserTrack_3545_EGFP1_peak_578 range=chr1:93847167-93847655
5'pad=0 3'pad=0 strand=+ repeatMasking=none
GCCTGGGCCTGCAACTCTGGGGTCCCGGCCGGGCTGGAGCGGCCGCCGGA
MEME Suite
https://meme-suite.org/index.html
MEMEをクリック
MEME Suite
upload sequenceのファイルを選択をクリックして
FASTAファイルを選択
Start 厂别补谤肠丑をクリック
MEME Suite
Recent Jobsに自分のjobが表示される
MEME Suite
MEME HTML 辞耻迟辫耻迟をクリックして结果を表示
MEME Suite
検出された配列のロゴが表示される
得られた結果を他の解析へ
サブミットできる
MEME Suite TOMTOMで既知のモチーフのどれに該当するか検索
MEME Suite
Start 厂别补谤肠丑をクリック
MEME Suite
TOMTOM HTML 辞耻迟辫耻迟をクリック
MEME Suite
データベースに登録されているモチーフの中から一致するものを検索してくれる
モンテカルロシミュレーションで円の面積を求める方法
面積=半径 ×半径 × 3.14
面積=(円内の点 / 点の総数)× 四角の面積
10cm
円の面積
10 cm
#1 GTAAAATCCGTCGTG
#2 GTTGTTCCCAAAAGC
#3 GTCTGTAAAAGGCTC
#4 GAAAATTGCCTCCGT
#1 AAAAAAAAAAAAAAA
#2 AAAAAAAAAAAAAAA
#3 AAAAAAAAAAAAAAA
#4 AAAAAAAAAAAAAAA
配列“AAAA”の持つ情報量
#1 GTCACATCAGTCGTG
#2 GTTGTTCACAGAAGC
#3 GTCTGTACATGGCAC
#4 GTAGATAGCCTCCGT
情報量+
情報量なし
情報量なし
#1 GTAAGTACAGATAGCCACAG
#2 GTATGTTCCCGATAAGTTTA
#3 GTATGTTCATGTCTGATACT
#4 GCATGATAGCTGCCCAAGTT
#5 GTATGTTGACGATATTACTT
#6 GTAAGTATCCAGATATTACT
問題
20 塩基 6 配列中に4塩基のモチーフ
Step 1
#1 GTAAGTACAGATAGCCACAG
#2 GTATGTTCCCGATAAGTTTA
#3 GTATGTTCATGTCTGATACT
#4 GCATGATAGCTGCCCAAGTT
#5 GTATGTTGACGATATTACTT
#6 GTAAGTATCCAGATATTACT
配列を一つランダムに選択
Step 2
1 2 3 4
A G T A
T C C C
T G T C
C C A A
A T C C
GTAAGTACAGATAGCCACAG
GTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACT
GCATGATAGCTGCCCAAGTT
GTAAGTATCCAGATATTACT
#1
#2
#3
#4
#6
1 2 3 4
A 2 0 1 2
T 2 1 2 0
G 0 2 0 0
C 1 2 2 3
4塩基配列をランダムに選択
1 2 3 4
A 0.4 0 0.2 0.4
T 0.4 0.2 0.4 0
G 0 0.4 0 0
C 0.2 0.4 0.4 0.6
塩基の確率
最初の塩基がAの確率
T
G
C
二番目の塩基がAの確率
T
G
C
Step 3
#5 GTATGTTGACGATATTACTT
??? ?
?
K
i
M
j i
ij
p
p
F
1 1
2log4
最初に選んだ配列中の4塩基配列の確率
GTAT : -∞
TATG : -∞
…
TGAC : 4log2(0.4/0.342)+4log2(0.4/0.208)+4log2(0.2/0.283)+4log2(0.6/0.167)=10.055
1 2 3 4
A 0.4 0 0.2 0.4
T 0.4 0.2 0.4 0
G 0 0.4 0 0
C 0.2 0.4 0.4 0.6
pi
34/120=0.283
41/120=0.342
25/120=0.208
20/120=0.167
position-specific scoring matrix (PSSMs)
??
?
?
?
?
?
?
?
?
?
L
j CGTA
jCGTA
P
P
1 },,,{
},,,,{
2logPSSMs
pij : probability that jth bases is {A, T, G, C}
pi : frequency of {A,T,G,C}
長さL の塩基配列の確率
L base motif
1 2 3 4 … L
A G G C T
Step4
GTAAGTACAGATAGCCACAG
GTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACT
GCATGATAGCTGCCCAAGTT
GTAAGTATCCAGATATTACT
#1
#2
#3
#4
#5
#6
GTATGTTGACGATATTACTT
PSSMsが最大となる4塩基を選択
1 2 3 4
A 0 0.8 0.4 0.8
T 0 0 0.6 0.2
G 0.6 0.2 0 0
C 0.4 0 0 0
GTAAGTACAGATAGCCACAG
GTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACT
GCATGATAGCTGCCCAAGTT
GTATGTTGACGATATTACTT
GTAAGTATCCAGATATTACT
#1
#2
#3
#4
#5
#6
pi
34/120=0.283
41/120=0.342
25/120=0.208
20/120=0.167
PSSM最大となる配列を選択
GTAAGTACAGATAGCCACAG
GTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACT
GCATGATAGCTGCCCAAGTT
GTAAGTATCCAGATATTACT
モチーフが見つかる
? 宿題
GEOデータベースからGSM4073848のデータを取得し、モチーフ
解析を行ってみてください
? アンケートにご協力ください。 「先端研 バイオインフォマ
ティクス解析室」ホームページまたはQRコードにアクセスし
回答してください。
https://www.yokohama-
cu.ac.jp/amedrc/section/support/bioinfomatics2.html

More Related Content

What's hot (13)

PDF
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门 (解析编)配布资料
Genaris Omics, Inc.
?
PDF
フリーソフトて?はし?める狈骋厂融合遗伝子解析入门
Amelieff
?
PDF
狈骋厂现场の会第2回冲アメリエフ株式会社冲搁狈础蝉别辩解析
Amelieff
?
PDF
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
Amelieff
?
PDF
贰虫辞尘别解析入门
Amelieff
?
PDF
フナコシニュース2017年2月1日号
fu7koshi
?
PDF
コスモバイオニュース No.164 (2020年5月)
removed_76de688259b1d349764e5216b72529b3
?
PPTX
緑色蛍光蛋白质骋贵笔を用いた骋笔颁搁様制御系蛋白质の局在解析
裕士郎 鈴木
?
PDF
コスモバイオニュース No.167 (2020年10月)
removed_76de688259b1d349764e5216b72529b3
?
PDF
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门(実験条件编) 配布资料
Genaris Omics, Inc.
?
PDF
遗伝子のアノテーション付加
弘毅 露崎
?
PDF
狈骋厂现场の会第2回冲アメリエフ株式会社冲がん贰虫辞尘别解析
Amelieff
?
PDF
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
pinmarch_t Tada
?
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门 (解析编)配布资料
Genaris Omics, Inc.
?
フリーソフトて?はし?める狈骋厂融合遗伝子解析入门
Amelieff
?
狈骋厂现场の会第2回冲アメリエフ株式会社冲搁狈础蝉别辩解析
Amelieff
?
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
Amelieff
?
贰虫辞尘别解析入门
Amelieff
?
フナコシニュース2017年2月1日号
fu7koshi
?
コスモバイオニュース No.164 (2020年5月)
removed_76de688259b1d349764e5216b72529b3
?
緑色蛍光蛋白质骋贵笔を用いた骋笔颁搁様制御系蛋白质の局在解析
裕士郎 鈴木
?
コスモバイオニュース No.167 (2020年10月)
removed_76de688259b1d349764e5216b72529b3
?
颁叠滨学会2013チュートリアル 狈骋厂データ解析入门(実験条件编) 配布资料
Genaris Omics, Inc.
?
遗伝子のアノテーション付加
弘毅 露崎
?
狈骋厂现场の会第2回冲アメリエフ株式会社冲がん贰虫辞尘别解析
Amelieff
?
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
pinmarch_t Tada
?

More from Jun Nakabayashi (20)

PPTX
2019bioinformaticsstudyno3
Jun Nakabayashi
?
PPTX
2014年度 第5回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2014年度 第4回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2014年度 第3回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2014年度 第2回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2014年度 第1回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2015年度 第2回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2015年度 第1回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2016年度 第5回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2016年度 第4回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2016年度 第3回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2016年度 第2回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2016年度 第1回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2017年度 第5回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2017年度 第4回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2017年度 第3回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2017年度 第2回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2017年度 第1回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2018年度 第5回バイオインフォマティクス実习
Jun Nakabayashi
?
PPTX
2018年度 第2回バイオインフォマティクス実习
Jun Nakabayashi
?
2019bioinformaticsstudyno3
Jun Nakabayashi
?
2014年度 第5回バイオインフォマティクス実习
Jun Nakabayashi
?
2014年度 第4回バイオインフォマティクス実习
Jun Nakabayashi
?
2014年度 第3回バイオインフォマティクス実习
Jun Nakabayashi
?
2014年度 第2回バイオインフォマティクス実习
Jun Nakabayashi
?
2014年度 第1回バイオインフォマティクス実习
Jun Nakabayashi
?
2015年度 第2回バイオインフォマティクス実习
Jun Nakabayashi
?
2015年度 第1回バイオインフォマティクス実习
Jun Nakabayashi
?
2016年度 第5回バイオインフォマティクス実习
Jun Nakabayashi
?
2016年度 第4回バイオインフォマティクス実习
Jun Nakabayashi
?
2016年度 第3回バイオインフォマティクス実习
Jun Nakabayashi
?
2016年度 第2回バイオインフォマティクス実习
Jun Nakabayashi
?
2016年度 第1回バイオインフォマティクス実习
Jun Nakabayashi
?
2017年度 第5回バイオインフォマティクス実习
Jun Nakabayashi
?
2017年度 第4回バイオインフォマティクス実习
Jun Nakabayashi
?
2017年度 第3回バイオインフォマティクス実习
Jun Nakabayashi
?
2017年度 第2回バイオインフォマティクス実习
Jun Nakabayashi
?
2017年度 第1回バイオインフォマティクス実习
Jun Nakabayashi
?
2018年度 第5回バイオインフォマティクス実习
Jun Nakabayashi
?
2018年度 第2回バイオインフォマティクス実习
Jun Nakabayashi
?
Ad

2019年第4回バイオインフォマティクス実习

Editor's Notes

  • #4: 次世代シーケンサーでは従来のシーケンサーと异なり、顿狈础を断片化して配列を読むのが特徴である。この断片の配列を参照とするゲノム上に割り当てて、元の塩基配列を再构成する。この作业をマッピングと呼ぶ。このとき问题となるのがカバー率である。断片の量と多様性が不十分だとゲノム全体をカバーすることができない。
  • #5: SOX4的遺伝子の中にclioquinolで発現が増加している遺伝子が観察され、それらの遺伝子のGO解析ではagingが有意にエンリッチされたGO termとして挙がっていた。clioquinolで発現が増加した遺伝子のプロモータ解析では、FOXO3の結合配列がエンリッチされていた。FOXO3は長寿に関連する遺伝子として良く知られている。ここではFOXO3に着目して、FOXO3のゲノム上における結合領域を調べた。ChIP-seqはゲノムDNA上の転写因子の結合をゲノムワイドに調べる方法である。DNAをクロスリンクした後に断片化し、目的とする転写因子の抗体で免疫沈降して転写因子結合領域のDNAを濃縮する。断片の配列を次世代シーケンサーで読み、転写因子結合領域をゲノムワイドに調べる。