狠狠撸

アメリエフ株式会社
第19回バイオインフォマティクス勉強会

「厂狈笔データ解析入门」

Copyright ? Amelieff Co. Ltd. All Rights Reserved.
2012/12/15

目次
１．遺伝マーカーとSNPについて

２．SNPによる遺伝統計解析について
GWAS（Genome-Wide Association Study：全ゲノム関連解析）
連鎖解析（LODスコア、TDT、罹患同胞対）
QTL、ExpressionQTL

３．SNPデータ解析（バイオインフォマティクス）の実践
PLINK、HaploView、その他

４．アメリエフの紹介
2
データ解析受託、Linuxサーバー、バイオインフォマティクス?スクール

遺伝マーカーとSNPについて

? 反復配列
ミニサテライト?VNTR（Variable Number of Tandem Repeat）
10～100bp, 20～50繰り返し配列
マイクロサテライト?STR（Short Tandem Repeat）
約数十万カ所、1～9bp, 5～60繰り返し配列、複数の対立遺伝子

? SNP（Single Nucleotide Polymorphism:一塩基多型）
約1200万カ所、基本はbiallele（2対立遺伝子）
マーカーとしての意味に加え、変位に直接関わっている場合もある

3

ハプロタイプ（Haplotype）
＝連鎖した（同一染色体上で近接した）SNPの組合せ

SNP1 SNP2 SNP3

ACACAGGATCACTTGAGGCCAGGAGTT ハプロタイプ1
Aさん
A C A C A T G A T C A A T T G A G G C C A G G A G G T ハプロタイプ2

A C A C A G G A T C A C T T G A G G C C A G G A G T T ハプロタイプ1
Bさん
A C A C A G G A T C A C T T G A G G C C A G G A G T T ハプロタイプ1

１つのSNP（TagSNP）のみを調べれば十分
4

組換えの頻度

1モルガン（M、遺伝学的な距離の指標）
一回の減数分裂で一回の組換えが期待される遺伝学的距離

1cM：約1Mbpといわれている
＝ 1モルガン → 100Mbp

ヒトゲノム（3000Mbp）＝平均30回の組み換えが起こる

5

連鎖不平衡
染色体上には交差が起こりやすい場所と起こりにくい場所がある

何万年もの複数世代を経た結果、連鎖する領域に偏りが生じる

連鎖が不平衡になる → 連鎖不平衡（LD値、r2値：0～1）
連鎖する領域をブロックとしてみなすのが、ハプロタイプブロック

ハプロタイプブロックから代表する1つのSNP（TagSNP）を選び
タイピングすればよい
6

ハプロタイプブロック（HaploView)

7

SNPによる遺伝統計解析について
疾患に関わる遺伝子の探索法
? パラメトリック連鎖解析
大家系による単一遺伝子の探索家
系
? ノンパラメトリック連鎖解析に
複数の小家系による多因子遺伝子の探索、罹患同胞対
よ
る
? 伝達不平衡検定（TDT法）解
析
複数の小家系による多因子遺伝子の探索

? ケース?コントロール関連解析
多数の非血縁患者と健常者による多因子遺伝子の探索
8

遺伝統計解析方法

パラメトリック法
パラメータ（正規分布モデル）に基づく解析方法
疾患モデルを仮定、LODスコア（パラメトリック連鎖解析）

ノンパラメトリック法
パラメータ（正規分布モデル）に基づかない解析方法
疾患モデルを仮定しない罹患同胞対法（ノンパラメトリック連鎖解析）

9

検出力

ケース?コントロール関連解析において、対象とする遺伝子座を
検出できる確率

検出力0.8以上となるよう研究デザインする

パラメータ
症例数N、対照数M、集団内のアリル頻度、浸透率、集団罹患率、有意水準

■検出力の算出ソフト
CaTS
（ http://www.sph.umich.edu/csg/abecasis/CaTS/download.html ）
10

SNP解析の流れ
１．生データのQC
Call rate（SNPおよびサンプル）
Minor Allele Frequency（MAF）>0.01
ハーディー?ワインバーグ平衡検定（HWE）：>1.0e-06
層別化の有無（MDS解析、主成分分析:PCA）
Q-Qプロット

11
MAF＞0% MAF≧5%

MDS（層別化）解析のプロット

12

２．有意差検定（ケース/コントロール研究）
2x3もしくは2x2分割表（ノンパラメトリック）
カイ二乗検定
Fisherの直接確率法
オッズ比

２ｘ３分割表２ｘ２分割表

SNP 11 12 22 SNP 1 2
rsX case 8 31 10 rsX case 47 51
ctrl 29 11 4 ctrl 69 19

13

２．有意差検定（QTL解析）
連続値（Quantitative Trait: QT）
例）血糖値、血中濃度、BMI、遺伝子発現量など
t検定（パラメトリック：2群間の平均値の差）
Wilcoxon検定（ノンパラメトリック：ペアとなる2群間の差）
Mann-Whitney検定（ノンパラメトリック：2群間の順位差）
Kruskal-Wallis検定（ノンパラメトリック：複数群間の差）

２．有意差検定（多変量解析）
1つ以上の説明変数から従属変数（遺伝子型）
例）性別、年齢、BMI、血中マーカー値など

二段階絞り込み法（Replication）

一段階目はGWASで網羅的に候補SNP（領域）を選び、
二段階目は小SNP数、大サンプル数で同様の検定を行う手法

連鎖不平衡の無い遺伝子座 100カ所程度を選び出す

15

その他

ボンフェローニ（Bonferroni）の補正（多重検定を補正）
真の有意水準＝有意水準 ÷ マーカー数
例） 0.05 / 100万 snps ＝ 5.0 x 10-8

16

SNPデータ解析
一般的なツール

PLINK：GWAS解析統合パッケージ
HaploView：ハプロタイプ解析、Viewer
GeneHunter、MERLIN：遺伝統計解析、連鎖解析
IGV（Integrative Genomics Viewer）：Genome Viewer

Perl：プログラミング言語→書式変換から統計解析まで
R：統計パッケージ→統計解析、グラフ作成

17

SNPデータ解析
PLINKの特徴?用途
GWAS統合解析パッケージ
QC向け解析が豊富（HWE、PCA等）
関連解析、各種補正、QTL解析に対応

PLINK：ダウンロードページ
http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml

18

SNPデータ解析
HaploViewの特徴?用途
Javaで書かれたオープンソースの連鎖不平衡解析ソフト
操作が直感的でわかりやすい
TagSNPの算出（Taggerモジュール内蔵）
ハプロタイプブロックの算出
ハプロタイプマップの作成とエクスポート
ゲノムアノテーションのインポート
クライアントPCはWindows、Mac、Linuxに対応

19

SNPデータ解析用サーバー
注意点
Haplotypeの計算には大きなメモリが必要
マルチコアに対応したソフトウェアは少ない
HDDへのアクセスが大きい（DB、ゲノム情報とも）

構成例
OS CentOS 6 64bit
CPU Intel Core i7-3770 [3.40GHz/4Core]
メモリ 32GB
SSD 64GB（OS用）
HDD 2TB ｘ 1台（データ用）
リファレンスゲノム Human, Mouseなど

アノテーション付け snpEffや自社開発ソフト（QuickAnnotator)

Mac OS Xでも可

SNPデータ解析

SNPチップによるデータの解析フロー
SNPチップから得られた ?イルミナ社 GenomeStudio
ジェノタイピング結果 ?Affymetrix社
???

PEDファイル、MAPファイル ?GenomeStudioのプラグインや
独自スクリプト等

PLINKによる解析
?バイナリーファイル作成
（GWAS、QTL、ハプロタイプ）
?QC（MAFやHWE等）の設定
?GWAS解析の実行
?QTL解析の実行
?ハプロタイプ解析の実行 21

１．PEDファイル

書式
PEDファイル（拡張子は「.ped」）
1列目 Family ID
2列目 Individual ID
3列目 Paternal ID
4列目 Maternal ID
5列目 SEX
6列目 affection status
7列目～（SNP数）数十万列 Genotype

ポイント：サンプル間に血縁関係がない場合
?Family ID = 家族ID
?Individual ID = 個体ID
?Paternal ID = 父親の個体ID
?Maternal ID = 母親の個体ID
study1.ped
その他
?SEX=1:男性、2:女性
?affection status：Control = 1, Case = 2
（発現量や臨床情報などの連続値（QT）も可）
22

２．MAPファイル

書式
MAPファイル（拡張子は「.map」）
1列目 Chrmosome
2列目 SNP identifier
3列目 Genetic distance
4列目 Base-Pair position

ポイント：MAPとPEDの拡張子以前は同じ名前にします

study1.map

23

３．バイナリーファイル作成
PEDファイル、MAPファイルからバイナリーファイルを作成しておくと、
その後の解析が高速になる
plink --noweb --file study1 --make-bed --out study1

以下の2ファイルを準備
? study1.map
? study1.ped

以下の3ファイルが作成される
? study1.bed
? study1.bim
? study1.fam

24

４．GWASの実行
plink --noweb --bfile study1 --assoc --out study1

以下のファイルが作成
? study1.assoc

study1.assoc
1列目 CHR Chromosome
2列目 SNP SNP identifier
3列目 BP Code for allele 1 (the minor, rare allele based on the entire sample
4列目 A1 frequencies)
5列目 F_A The frequency of this variant in cases
6列目 F_U The frequency of this variant in controls
7列目 A2 Code for the other allele
8列目 CHISQ The chi-squared statistic for this test (1 df)
9列目 P The asymptotic significance value for this test
10列目 OR The odds ratio for this test

４．GWASの実行（ボンフェローニを含む各種補正を行う）

plink --noweb --bfile study1 --assoc --adjust --out study1

? study1.assoc
? study1.assoc.adjusted

26

６．GWAS時のQC（フィルタリング）
１） MAFとHWEの設定および、95% CIの設定
plink --noweb --bfile study1 --assoc --maf 0.05
--hwe 0.000001 --ci 0.95 --out study1
※ 実際には一行です。

27

６．GWASの小ネタ
２）結果ファイルの加工
１．解析対象外のSNPを除外

grep -v NA study1.assoc > study1.nona.assoc

２．結果をソートして保存
awk -v OFS='?t' '{print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10}'
study1.nona.assoc | sort --key=9 -g > study1.assoc.txt

３．有意差（p-value≦1.0e-04）のあるSNPのみ保存
awk -v OFS='?t' ' '$9 <= 1.0e-04 {print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10}'
study1.nona.assoc | sort --key=9 -g > study1.sig.assoc.txt 28

６．QTL解析
Phenotypeファイルの準備
phenotypeファイル（拡張子は「.phe」）
1列目 Family ID
2列目 Individual ID
3列目 Quantitative Trait

29

６．QTL解析
QTL解析の実行
plink --noweb --bfile study1 --assoc --pheno param.phe --out study1_qtl

? study1_qtl.qassoc

QTL解析の結果の書式
study1_qtl.qassoc
1列目 Chr Chromosome number
2列目 SNP SNP identifier
3列目 BP Physical position (base-pair)
4列目 NMISS Number of non-missing genotypes
5列目 BETA Regression coefficient
6列目 SE Standard error
7列目 R2 Regression r-squared
8列目 T Wald test (based on t-distribtion)
9列目 P Wald test asymptotic p-value 30

７．ハプロタイプ解析
ブロックファイル（study1_hap.blocks）を作成

１．エディタ等で作成

２．PLINKで作成
あるSNPの周辺±20kb内のSNPsについて、blocksファイル作成
plink --noweb --bfile study1 --blocks
--snp rs652423 --window 20 --out study1_hap

? study1_hap.blocks
31

PLINKでのハプロタイプ解析を実行
plink --noweb --bfile study1 --hap ./study1_hap.blocks
--hap-assoc --out study1_hap

? study1_hap. assoc.hap

study1_hap.assoc.hap
1列目 LOCUS 染色体番号
2列目 HAPLOTYPE Haplotypeの塩基
3列目 F_A ケース群におけるハプロタイプ頻度
4列目 F_U コントロール群におけるハプロタイプ頻度
5列目 CHISQ カイ2乗値
6列目 DF 自由度
32
7列目 P カイ2乗検定におけるp値
8列目 SNPS ハプロタイプの各SNP ID（rs ID）

２．Haploviewでの解析

haploviewを起動し、「PLINK Format」タブを選んで、PLINKの結果を選択。
※ 「Integrated Map Info」にチェックを入れる。
※ 染色体番号11番のみ選択（全ては大きすぎるため）

33


SNPを１つ選択し
「Go to Selected Region」を
クリック

検索範囲とHapMapを選択
（CHB+JPT、±50kb）
「Go to Region」をクリック

34

「LD Plot」

35

QuickGWAS Pro.

GWAS実行画面プロット実行画面

36

公共データベース

NCBI（RefSeq、dbSNP、OMIM）
http://www.ncbi.nlm.nih.gov/

HapMap
http:// www.hapmap.org/

UCSC Genome Browser
http://genome.ucsc.edu/

38

リンク

?GWAS解析パッケージ「PLINK」
http://pngu.mgh.harvard.edu/~purcell/plink/
?ハプロタイプ解析ツール「HaploView」
http://www.broadinstitute.org/mpg/haploview
?連鎖解析ツール「MERLIN」
http://www.sph.umich.edu/csg/abecasis/Merlin/
?統計解析パッケージ「R」
http://www.r-project.org/

39

参考文献

オンリーワン?ゲノム
鎌谷直之著、星の環会

人類遺伝学ノート
徳永勝士編、南山堂

ヒトの分子遺伝学
村松正實?木南凌監修、メディカル?サイエンス?インターナショナル

バイオサイエンスの統計学
市原清志著、南江堂

弊社のご紹介

41

アメリエフは、
「ITのチカラで研究を支援」をコンセプトに
バイオインフォマティクス事業および
研究支援事業に取り組んでいます。

42

NGSデータ解析サーバー
【解析サーバー構成例： Standard版】
データ解析パイプラインおよびリファレンスゲノム情報がプリインストールされています。解析パイプラインは、
一般的に用いられている公開ソフトから構成されており、弊社開発のソフトウェアを組み合わせることで、
論文に近い形での解析が可能になります。
OS CentOS 6 64bit
CPU Intel Core i7-3770 [3.40GHz/4Core]
メモリ 32GB
SSD 64GB（OS用）
HDD 2TB ｘ 1台（データ用）
オープンソースソフトウェア（BWA, SAMtools,
解析パイプライン
Picard,snpEff,GATK他）および自社開発ソフト

機器の設置、ネットワーク設定、データ解析手順の解説（約2時間）を行います。
価格：90万円（税別）
※研究目的に合わせてメモリ、HDD、CPUをカスタマイズ可能です。お気軽にお問い合わせください。
お問い合わせ

43

NGSデータ解析サーバー
【解析サーバー構成例： Enterprise版】
データ解析パイプラインおよびリファレンスゲノム情報がプリインストールされています。解析パイプラインは、
一般的に用いられている公開ソフトから構成されており、弊社開発のソフトウェアを組み合わせることで、
論文に近い形での解析が可能になります。
OS CentOS 6 64bit
CPU Intel Core i7-3930K [3.20GHz/6Core]
メモリ 64GB
SSD 64GB（OS用）
HDD 2TB ｘ 4台（RAID）（データ用）
オープンソースソフトウェア（BWA, SAMtools,
解析パイプライン
Picard,snpEff,GATK他）および自社開発ソフト

機器の設置、ネットワーク設定、データ解析手順の解説（約2時間）を行います。
価格：120万円（税別）
※研究目的に合わせてメモリ、HDD、CPUをカスタマイズ可能です。お気軽にお問い合わせください。
お問い合わせ

44

次世代シーケンサーデータ解析支援サービス
データ解析パイプラインおよびリファレンスゲノム情報がプリインストールされています。
NGSデータ解析サーバー解析パイプラインは、一般的に用いられている公開ソフトをメインに構成されており、
弊社開発のソフトウェアを組み合わせることで、論文に近い形での解析が可能になります。

トレーニングデータ解析の基本手順とノウハウを、実践的に学ぶことができます。
ExomeやRNA-Seq、ChIP-Seqなどのデータ解析手法を、短期間で習得します。

お客様のサンプルや実験条件、研究目的に合わせて、解析パイプラインの構築を行います。
解析パイプラインカスタマイズ大量のサンプルを自動的に処理したい、既存のソフトでは対応していない解析を行いたい
等のご要望にお応えします。

解析パイプラインの強化やスクリプトの作成を行います。
出張サポートまた、ソフトウェアのブラッシュアップや新しいツールの構築も承ります。

45

出張データ解析トレーニング
データ解析の基本手順とノウハウを、実践的に学ぶことができます。ExomeやRNA-Seq、ChIP-Seqなどのデータ解析手法を、短期間で習得します。

? 実施例訪問 1日目（3時間） 2日目（6時間） 3日目（3時間）

Exome解析 RNA-Seq解析
Day2 Day2

Exome解析 RNA-Seq解析
Day1 Day1

? 内容
– 次世代シーケンスデータ解析入門
? 次世代シーケンスデータを始める方を対象に、基本的な流れと、解析の注意点などをご紹介します。

– Exome解析
? シーケンスデータのクリーニングから、マッピング、SNP/Indel検出までの解析方法を、実践的に学びます。
? カバレージの計算などの解析結果の検討、アノテーション付け、サンプル間比較までを実践します。

– RNA-Seq解析
? シーケンスデータのクリーニングから、転写物同定と発現レベル定量までの解析方法を、実践的に学びます。
? 解析結果の検討、Rによる可視化およびサンプル間比較までを実践します。

46

バイオインフォマティクス?スクール
データ解析の基本手順とノウハウを、実践的に学ぶことができます。ExomeやRNA-Seq、ChIP-Seqなどのデータ解析手法を、短期間で習得します。

? 内容
– Linux基礎対象：生命科学の研究に携わっているが、Linuxを扱った経験がない方
? Linuxを扱った経験がない方や初心者の方を対象に、Linuxの基本的な操作、ファイルの加工、ツールの活用
方法を実践的に学びます。
? トレーニングの後半では、次世代シーケンスデータを用いて、解析方法を実践的に習得します。

? 第1回 Linuxとは
– Linuxの成り立ちや他のOSとの違い、基本的な使用方法と構成を学びます。
? 第2回 Linuxのコマンドを用いたファイルの加工方法
– 大量の情報を処理するために、awkなどのコマンドを用いたファイルの加工方法を学びます。
? 第3回ソフトウェアのダウンロード方法と使用方法
– 生命科学でお馴染みのソフトウェアのダウンロード方法と、使用方法を学びます。
? 第4回次世代シーケンスの公開データおよび解析ツールの活用
– 次世代シーケンスデータの取得方法と扱い方、解析ツールのダウンロードと使用方法を学びます。
? 第5回次世代シーケンスのデータ解析
– 次世代シーケンスデータの解析結果の集計と解釈をする方法を学びます。

47

バイオインフォマティシャン?養成プログラム

? 概要
ライフサイエンスを学ぶ学生に、実践的な解析の機会を提供することで、
バイオインフォマティクス?リテラシーの向上を支援する

? 対象
バイオインフォマティクスを活用した研究や仕事をしたい学生

? カリキュラム
4月 5月 6月 7月 8月 9月 10月 11月 12月 1月 2月
Step 1 Step 2 Step 3

４月期
プログラミング次世代シーケンサ
Linux基礎
基礎 SNP遺伝統計
Step 1 Step 2 Step 3
7月期

48

? 開講時間
月に1度、土曜日に開催する。90分×2回。
10:00-11:30, 11:45-13:15

? 価格
受講科目分類回数価格（税込）／回価格（税込）

Step 1 Linux基礎必修 3 1,000 3,000

Step 2 プログラミング基礎必修 2 1,500 3,000

Step 3-A 次世代シーケンサ選択 2 1,500 3,000

Step 3-B SNP遺伝統計選択 2 1,500 3,000

合計 12,000

? バイオインフォマティシャン認定
各Stepの最終日に出題される課題にクリアした場合に認定される。
49

解析パイプラインカスタマイズ／出張サポート
お客様のサンプルや実験条件、研究目的に合わせて、解析パイプラインの構築および実行、強化を行います。
大量のサンプルを自動的に処理したい、既存のソフトでは対応していない解析を行いたい等のご要望にお応えします。

ヒアリング／現地作業（3時間）
? 実施例訪問調査／開発（3日分程度の作業量）

? 内容
– 解析オペレーション
? 解析パイプラインを実行や、解析結果の集計を行います。

– 公開ツール導入
? ヒアリングさせていただいたご要望に適したツールのご提案から、導入、解析パイプラインの構築まで幅広く
サポートします。

– ソフトウェア作成
? 研究目的に沿った解析や出力形式の変換、絞り込みなど、独自の解析を行うソフトウェアを作成します。

50

NGSデータ解析実績

? 出張バイオインフォマティクス?サポート（毎月4回～1回、不定期）
– 大阪大学、がん研究会がん研究所、京都大学、慶應大学、
– 国立循環器病研究センター、成育医療研究センター、精神?神経医療研究センター、
– 名古屋大学、理化学研究所、大手製薬企業研究所（敬称略、五十音順）

? 出張セミナー

? データ解析パイプライン構築（Exome、RNA-seq、ChIP-seq、メチル化）
– イルミナHiSeq、ライフテック SOLiD、ロシュ 454 FLX
– 自社開発ソフト、解析用スクリプトの作成を含む

? データ解析受託（Exome、RNA-seq、ChIP-seq、De Novo 、メチル化）
– イルミナGAIIxおよびHiSeq 、ライフテック SOLiD、ロシュ 454 FLX

? バイオインフォマティクス?スクール
– 2012年10月期（開講中）、2013年2月期（募集中）、2013年3月期＠神戸（募集中）

51

人材募集

? 求める人物像
1. バイオインフォマティクスにチャレンジしたい人
2. 休日や余暇の時間に自己研鑽に取り組むことができる人
3. ビジネスを通して自己成長と社会貢献をしたい人
4. ベンチャー企業でいろいろな分野にチャレンジしたい人
5. 喫煙しない人

詳細は会社HPの「人材募集」欄や

12/5付けの社員ブログにて
52

狠狠撸

厂狈笔データ解析入门

Recommended

More Related Content

What's hot (20)

Similar to 厂狈笔データ解析入门 (20)

More from Amelieff (8)

厂狈笔データ解析入门