狠狠撸

狠狠撸Share a Scribd company logo
DDBJ へのデータ登録
初めての All-in-one 合同講習会
真島 淳
DDBJセンター チーフアノテータ
INSDC; International Nucleotide Sequence Database Collaboration
http://www.ddbj.nig.ac.jp/insdc/insdc-j.html
1986 年~
DDBJ, EMBL-Bank, GenBank
2009 年~
Sequence Read Archive
Trace Archive
2011 年~ BioProject
2014 年~ BioSample
国際塩基配列データベースとして
ENA/EBI, NCBI と公開データを
交換し共有しています。
対象データベースも時代とともに
増えてきました。
INSDC 以外のデータベース
Japanese Genotype-phenotype Archive (JGA) 日本版の dbGaP, EGA
個人に由来する遺伝学的なデータと匿名化された表現型情報を登録するデータベース
登録データ種別
http://www.ddbj.nig.ac.jp/sub/data_categories-j.html
塩基配列を下記のデータ種別に区分して受け付けます。 # さらに細かく区分しています。
参照データとして、以下も受け付けています。
ヒトに由来するデータを別枠で受け付けています。
DDBJ トップページ
http://www.ddbj.nig.ac.jp/
塩基配列の登録
旧来の登録
Web版塩基配列登録システム
http://www.ddbj.nig.ac.jp/sub/websub-j.html
以前、慣れ親しんでいただいた SAKURA の後継システム
比較的小規模な対話入力方式の簡便な塩基配列登録に対応
塩基配列: multi-fasta format で一括入力に対応
# SAKURA では何件の場合も1配列ずつ入力
1024 配列 セットを一括登録可能
#システム側の設定上限であり、端末スペック、環境にも依存
アノテーション: 典型的な登録はテンプレートを準備
入力項目のカスタマイズ可
Feature と Qualifier の表形式の一括入力に対応
ファイル upload によるアノテーション入力も可
管理面: 開始時の メール認証により、メールアドレス間違いを排除
エラーチェックに用いるツールを MSS と共通化
Feature / Qualifier の仕様変化を容易に
登録の大規模化への対応 (1)
Mass Submission System
http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html
配列ファイルとアノテーションファイルの直接送付
DDBJ のデータ公開形式
(flat file) の説明
http://www.ddbj.nig.ac.jp/sub/ref10-j.html
塩基配列
生物学的情報
Feature
Location
Qualifier
論文情報
登録者情報
由来生物情報
Definition
Accession number
登録の大規模化への対応 (2)
次世代シーケンサーからの出力
GSFLX (454) SOLiDHiseq
PacBio RS II Ion PGM Ion Proton
DRA へ登録
DRA; DDBJ Sequence Read Archive:
http://trace.ddbj.nig.ac.jp/dra/index.html
Submission
登録方法の紹介
実際の登録は
BioProject
BioSample
登録後
Search
公開データの検索
FTP
登録データの取得
DRAデータ構造
Experiment:
シークエンサ、ライブラリー
作成、その他の実験条件
Run:
配列データファイルと その
experiment との関係性
BioProject:
研究?プロジェクトの詳細
BioSample:
サンプルとした生物の情報
http://trace.ddbj.nig.ac.jp/dra/submission.html
配列データのとりまとめへの対応
Genome Project のデータ登録
http://www.ddbj.nig.ac.jp/sub/genome-j.html
Transcriptome Project のデータ登録
http://www.ddbj.nig.ac.jp/sub/transcriptome-j.html
BioProject/BioSample/DRA 登録窓口
BioProject, BioSample, DRA を順に登録可能
将来は Mass Submission System も統合したい
BioProject
http://trace.ddbj.nig.ac.jp/bioproject/index.html
BioProject Databaseにおけるプロジェクト
大規模プロジェクトで、階層化してプロジェクト間を繋ぐ
複数のデータベースを横断的に配列データを繋ぐ
配列の由来に関する記述の多様化?
複雑化への対応?一元化
BioSample
http://trace.ddbj.nig.ac.jp/biosample/index.html
BioSample の構成は、
MIxS などの各コミュニティで標準化された書式の定義 と
その書式で記載されたサンプル情報 のセット
个人に由来するデータへの対応
JGA; Japanese Genotype-phenotype Archive
http://trace.ddbj.nig.ac.jp/jga/index.html
アクセス制限が必要な
特定個人に由来する配列、
発現解析データを受付、
保持、提供
匿名化されたデータを受付
科学技術振興機構 (JST)
National Bioscience
Database Center (NBDC) と
共同で運営
データの登録と维持管理の难しさ
DDBJ の運営するデータベースの大半
は primary database である。
Primary Database
研究者から実験的に得られたデータを
登録してもらうことにより、構成される
Secondary Database
primary database のデータを解析処理して
得られたデータで構成される
primary database であることの難しさ
? 利点:データは幅広く集まる
– 「論文に記載するために accession number を」というロールモデ
ルの普及
– 一部には funding レベルで登録の義務付け
? 難点: 分子生物学分野は間口が広く、多数?多様な背景の研
究者、生物学についても、IT についても literacy が低い人物
(登録者全体の1割未満)を含む不特定多数、を登録者として
相手にしなければならない。
– 生物の学名
– 塩基配列からタンパク質のアミノ酸配列への翻訳の仕組
– 塩基配列の位置?向き
– 「テキストファイル」、文字コード
– 「英語」が通じない
– 質問に答えてくれない
登録者に問い合わせて、話し合いながら、修正する
データベース管理上の諸事情
? 登録者 submitter
– いろいろな背景の方々
– 登録する自体の incentive 問題
? 利用者 user/customer
– その意見(怒り?)は登録者へ?データベースへ?
– Primary database と secondary database の差
? 団体 community (標準化などを推進する)
– データ記載方法、配列の保持法
? 協力者 collaborator (ここでは NCBI, EBI)
– さまざまな知識?実践の共有?吸収
– 共通規則の initiative
– ルール変化
– NCBI or EBI のシステム的制約に縛られる
? 開発者 developer
解決策
? 長期的な解決策 (政策レベル)
– 大学、大学院における研究者 の教育、全体的な IT リテ
ラシー向上
– 研究データ解析補助 (欧米における technician, curator)
のため人材の育成?キャリアパスの確立
? DDBJ 側で考えるべきこと
– インターフェイスの工夫、ナビゲーションによる入力補助
– 開発人員の増強
– 登録受け付け人員の増強
登録受付の人員、12名
一般登録ユニット MSSユニット 更新ユニット DRA/DTA/DORユニット
(小菅 武英) 大城戸 利久 坂井 勝呂 児玉 悠一
筒井 波留 李 慶範 杉田 里江 福田 亜沙美
江嶋 真由美 三村 公子
(青野 英雄) (江嶋 真由美)
(真島 淳)
BioProject/Biosample
(児玉 悠一)
(福田 亜沙美)
(大城戸 利久)
(李 慶範)
(坂井 勝呂)
JPO/KIPO
青野 英雄
開発
小菅 武英
JGA
(児玉 悠一)
(真島 淳)
INSDC 対策、各種管理、総括、その他の雑用
真島 淳

More Related Content

[All-in-one2015] DDBJ へのデータ登録