GTPS(Gene Trek in Prokaryote Space)は原核生物でゲノム配列が決定されたものを対象にさまざまな
解析を行い再アノテーションを行ったデータベースです。利用している解析プログラムや参照データ
ベースなどの手順をご紹介いたします。本データベースに関する論文は
こちら
をご参照ください。
GTPSの目的
さまざまな細菌および古細菌の完全ゲノムがDDBJ/EMBL/GenBankの国際塩基配列データベース(INSD)に
登録されています。そのアノテーション情報やDNA配列は
Genome Information Broker(GIB)から
利用可能です。しかし、アノテーションを行う際に実施しているBLAST検索の閾値や参照データ
セットのバージョンなどが異なっているためにアノテーション情報の質がまちまちで比較ゲノムの
ようなゲノムワイドな解析を行う際に不都合な場合があります。そこで共通のプロトコルで
INSDに登録されている細菌および古細菌のゲノム配列を解析しORF(Open Reading Frame)などの
ゲノムアノテーション情報を再付与しました。
GTPSデータベース構築手順の詳細
GTPSデータベースの構築手順の詳細をご紹介します。


| アクティビティ名 | 概要 |
|---|---|
| 1. RNA領域とリピート領域のマスキング | tRNAscan-SEやRfamなどのデータベースを 利用してノンコーディングRNA領域の予測を行うとともにリピート領域のLTR(Long Terminal Repeat)とあわせてORF予測の対象と しないマスク領域を作成する。 |
| 2. ORF領域の予測 | Glimmerを用いてゲノム配列上のORF領域の予測を行う。 |
| 3. 予測ORFの解析 | BLASTやInterProScanを用いて予測したORFの解析を行う。 |
| 4. 予測されたORFとINSDのアノテーションとの比較 | 予測されたORFとINSDのCDS(Coding sequence)を比較し、「INSDのCDSと完全に一致」や「INSDのCDSと終了位置だけ一致」、 「INSDのCDSと終了位置が一致する(フレームが一致する)ものが無い」などのフラグ付けを行う。また、全ての予測ORFに おいてINSDにアノテーションされている偽遺伝子とフレームが一致するか調べる。さらに、Glimmerでは予測できない INSDのCDS領域の抽出を行い、予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。 |
| 5. 予測ORFの開始位置修正 | ORFの開始位置をORFの長さが短くなるように修正し、ORF同士の重なりを回避する。長さが変わったORFについて予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。 |
| 6. ORFのグレード分け | GTPSの全てのORFについて、BLASTやInterProScanの結果を参照して、ORFの確からしさの観点で分類する。 |
| 7. 遺伝子産物名などのアノテーション付与 | GTPSの全てのORFについてそのORFの遺伝子産物名をBLASTの結果を参照して付与する。また、InterProScanの結果からモチーフ名やGOによる説明文も付与する。 |
| 8. IS領域の予測とIS名の付与 | GIB-ISで構築されているIS配列をゲノムにマップして領域の予測とIS名の付与を行う。 |
1. RNA領域とリピート領域のマスキング
tRNAscan-SEやRfamなどのデータベースを利用してノンコーディングRNA領域の予測を行うとともにリピート領域の
LTR領域とあわせてORF予測の対象としないマスク領域を作成する。
呼び出し元アクティビティ:GTPSデータベース構築手順

トップに戻る
呼び出し元アクティビティ:GTPSデータベース構築手順

| アクティビティ名 | 概要 |
|---|---|
| INSDのアノテーションからノンコーディングRNA領域のアノテーション抽出 | フィーチャ名が rRNA(ribosomal RNA), ncRNA(non-protein-coding RNA), misc_RNA, tmRNA(transfer messenger RNA)の領域をINSDのアノテーションから抽出する。 |
| INSDのアノテーションからリピート領域のアノテーション抽出 | フィーチャ名が LTR(Long Terminal Repeat)の領域をINSDのアノテーションから抽出する。 |
| tRNAscan-SEを用いたtRNAの領域の予測 | tRNAscan-SEを用いたtRNAの領域の予測し、そのtRNAのプロダクト名を付与する。tRNAscan-SEプログラムに
Archaea (-A) またはProkaryote (-P) のディビジョンを指定する。 tRNAscan-SE <division (-A or -P)> <FASTA file> ディビジョン情報は WABIのGIBサービスを使うことで取得する。 tRNAscan-SEの結果からゲノム上の座標やプロダクト名を取得し、以下のようなアノテーション情報として 整理する。 ![]() |
| Rfamを用いたノンコーディングRNA領域の予測 | Rfamデータベースから原核生物の配列のみを抽出しておきその配列をクエリ配列とし、ゲノム配列をBLASTの参照配列と
して、BLASTを以下のように実行する。 blastall -p blastn -d <ゲノム配列のデータベース> -i <Rfamの配列> -e 1.0e-10 -m 8 -F F BLASTの実行結果からIdentity 100%かつRfamの配列の全長がアライメントされている領域をノンコーディングRNA 領域として抽出するとともに、Rfamの名前、ID、プロダクト名を付与する。 以下のようなアノテーション情報として整理する。 ![]() |
| 全てのマスク領域の統合 | INSDのRNA領域、INSDのリピート領域、tRNA-scanSEの結果、 Rfamの結果を統合する。この統合した結果は次のORF領域の予測の際にORF予測の対象としないマスクする 領域として用いる。 |
2. ORF領域の予測
Glimmerを用いてORF領域の予測を行う。
呼び出し元アクティビティ:GTPSデータベース構築手順

トップに戻る
呼び出し元アクティビティ:GTPSデータベース構築手順

| アクティビティ名 | 概要 |
|---|---|
| Glimmerを最短ORF長 180 bp の条件で実行 | GlimmerをORFの最短長 180 bp の条件で実行する。 |
| Glimmerを最短ORFの長 45 bp の条件で実行 | 短いORFの予測漏れを防ぐためにGlimmerをORFの最短長 45 bp の条件でも実行する。 |
| Glimmerの結果統合 | 2回のGlimmerの結果を比較して開始位置と終了位置が一致している領域を統合する。
また、以下の図のように終了位置が同じで開始位置が違う場合、長いORFのほうを採用し次の解析に用いる。終了位置が異なる
場合は、両方採用し次の解析に用いる。
|
3. 予測ORFの解析
BLASTやInterProScanを用いて予測したORFの解析を行う。
呼び出し元アクティビティ:GTPSデータベース構築手順

呼び出し元アクティビティ:GTPSデータベース構築手順

| アクティビティ名 | 概要 | ||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| BLASTを用いた解析 | 予測されたORFをクエリ、DDBJのBCTディビジョンのアミノ酸配列を
参照データベースとして以下のようにBLASTを実行する。 blastall -p blastp -e 0.001 -F F -d <データベース> -i <予測ORFのアミノ酸> -o <結果ファイル> | ||||||||||||||
| BLASTの結果からフラグの付与 | BLASTの実行結果から各予測ORFにBLASTのフラグを付与する。BLASTのフラグは以下のいずれかの条件満たした場合ヒットしたとみなす。
BLASTのフラグ
*アノテーションが機能未知
プロダクト名にunknown, hypothetical protein, probable ORF, predicted proteinなどの記載が あるもの。詳細はこちらで公開している。 | ||||||||||||||
| InterProScanを用いた解析 | 予測されたORFを対象に以下のようにInterProScanを実行する。 iprscan -cli -altjobs -iprlookup -goterms -seqtype p -format raw -i <ORFのアミノ酸配列> | ||||||||||||||
| InterProScanの結果からフラグの付与 | InterProScanの実行結果から各予測ORFに
InterProScanのフラグを付与する。
InterProScanのフラグ
無効なモチーフのリストに含まれるもの。
|
4. 予測されたORFとINSDのアノテーションとの比較
予測されたORFとINSDのアノテーション(CDS)を比較し、「INSDのCDSと完全に一致」や「INSDのCDSと終了位置だけ一致」、「INSDのCDSと終了位置が一致する(フレームが一致する)ものが無い」などのフラグ付けを行う。また、全ての予測ORFにおいてINSDにアノテーションされている偽遺伝子とフレームが一致するか調べる。さらに、Glimmerでは予測できないINSDのCDS領域の抽出を行い、予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。
呼び出し元アクティビティ:GTPSデータベース構築手順

呼び出し元アクティビティ:GTPSデータベース構築手順

| アクティビティ名 | 概要 | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 全ての予測ORFについてINSDのCDSとの比較 | 全ての予測ORFについてINSDのCDSと比較を行い、以下のフラグ付けを行う。
予測ORFに付与するINSDのCDSとの比較フラグ
| ||||||||||||
| 全てのINSDのCDSについて予測ORFとの比較 | 全てのINSDのCDSについて予測ORFと比較を行い、以下のフラグ付けを行う。
INSDのCDSに付与するフラグ
*機能未知
プロダクト名にunknown, hypothetical protein, probable ORF, predicted proteinなどの記載があるもの。詳細はこちらで公開している。 | ||||||||||||
| Glimmerで予測できないORFの解析 | Glimmerで予測できないINSDのCDSを抽出する。INSDのCDSに付与されているフラグが '7-1', '7-2', 'J' のものを抽出する。抽出したORFについて予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。 |
5. 予測ORFの開始位置修正
ORFの開始位置をORFの長さが短くなるように修正し、ORF同士の重なりを回避する。長さが変わったORFについて予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。
呼び出し元アクティビティ:GTPSデータベース構築手順

呼び出し元アクティビティ:GTPSデータベース構築手順

| アクティビティ名 | 概要 |
|---|---|
| 予測ORFから妥当性の高いORFの抽出 | 全ての予測ORFからBLASTまたはInterProScanでヒットがあった妥当性の高いORFを抽出する。BLASTのフラグが 1, 3, 4または InterProScanのフラグが 1 のもので、なおかつ予測ORFに付与するINSDのCDSとの比較フラグがP, Jでないものを抽出する。 |
| ORF同士で重なるORFペアの抽出 | 以下の図のように 30 bp 以上重なるORFのペアを抽出する。![]() |
| ORFの開始位置修正 | ORF同士の重なりが解消されるようにORFの開始位置をORFの長さが短くなるように修正する。そのORFにあるモチーフ領域が削られないように修正する。![]() |
| 開始位置を修正したORFの解析 | 予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。 |
6. ORFのグレード分け
GTPSの全てのORFについて、BLASTやInterProScanの結果を参照して、ORFの確からしさの観点で分類する。GTPSの全てのORFは、
Glimmerで予測されたORF, Glimmerで予測できなかったINSD由来のORF, Glimmerで予測されたORFのうちORF同士の重なりを
解消するために開始位置を修正したORFが含まれる。
呼び出し元アクティビティ:GTPSデータベース構築手順

呼び出し元アクティビティ:GTPSデータベース構築手順

| アクティビティ名 | 概要 | ||||||||
|---|---|---|---|---|---|---|---|---|---|
| BLASTのアライメント長によるグレード分け | GTPSの全てのORFを対象にDDBJ BCTディビジョンの
全アミノ酸配列を参照データベースとしたBLASTの結果を用いて以下のようなグレード分けを行う。 BLASTのアライメント長によるグレード分け
| ||||||||
| BLASTのSubjectのアノテーションによるグレード分け | GTPSの全てのORFを対象にDDBJ BCTディビジョンの
全アミノ酸配列を参照データベースとしたBLASTの結果を用いて以下のようなグレード分けを行う。
BLASTのSubjectのアノテーションによるグレード分け
*機能未知
プロダクト名にunknown, hypothetical protein, probable ORF, predicted proteinなどの記載があるもの。詳細はこちらで公開している。
*膜タンパクのアノテーション
プロダクト名にinner-membrane protein, outer membrane protein, integral-membrane proteinなどの記載があるもの。 膜タンパクと機械的に判断するための一覧表はこちらで公開している。 | ||||||||
| INSDのCDSとの比較によるグレード分け | GTPSの全てのORFを対象にINSDのCDSとの比較の観点で
グレード分けを行う。
INSDのCDSとの比較よるグレード分け
| ||||||||
| InterProScanによるグレード分け | GTPSの全てのORFを対象にInterProScanの結果を用いて
グレード分けを行う。
InterProScanによるグレード分け
| ||||||||
| グレード情報の統合 | BLASTの2つのグレード分け、InterProScanによるグレード分けを統合して、
GTPSの全てのORFに以下のようなAAAAからXまでのグレード情報を付与する。![]() もっとも確からしいORFのグレードはAAAAであり、 BLASTのアライメント長によるグレードがA、 BLASTのSubjectのアノテーションによるグレードが1、 InterProScanによるグレードも1である。このグレード情報に INSDのCDSとの比較によるグレード情報を後ろにつけて、 AAAA1やBBB2のようなグレード情報がGTPSの全てのORFに付与される。 |
7. 遺伝子の産物名などのアノテーション付与
GTPSの全てのORFについてそのORFの遺伝子産物名をINSDのアノテーションやBLASTの結果を参照して付与する。
また、InterProScanの結果からモチーフ名やGOによる説明文も付与する。
呼び出し元アクティビティ:GTPSデータベース構築手順

呼び出し元アクティビティ:GTPSデータベース構築手順

| アクティビティ名 | 概要 | ||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| INSDのアノテーションから遺伝子産物名の付与 | ORFがINSDのCDSと終了位置が一致している場合、そのCDSのプロダクト名を参照しORFのプロダクト名と
して付与する。![]() ただし、記載内容をそのまま引用するのではなく、以下の処理を実施する。
| ||||||||||||||
| BLASTの結果からアノテーションの付与 | DDBJ BCTディビジョンの全アミノ酸配列を参照データベースと
したBLASTの結果を用いて、サブジェクトのカバー率が 70%以上かつクエリのカバー率が 70%以上かつ
Identityが 70%以上の場合、そのサブジェクトのアノテーションからORFのアノテーションを付与できるか試みる。 複数のサブジェクトのアノテーションをINSDのアノテーションから付与する場合と同じように処理を行い、 1件でもhypothetical proteinでないプロダクト名があった場合には、そのプロダクト名をORFに付与する。 同じように処理を行って、hypothetical proteinのプロダクト名しか無かった場合は、そのORFのプロダクト名を hypothetical proteinとする。すべてのアノテーションが"B1306.01 protein"や"Tgh005"のような無効なプロダクト名 である場合や、条件に合致するBLASTのヒットが無い場合は、predicted in CGMというプロダクト名を付与する。 | ||||||||||||||
| InterProScanの結果からアノテーションの付与 | InterProScanの結果からモチーフ名やInterProIDの
アノテーションを付与する。また、interpro2go や GOデータベースを参照し、InterProIDからGene OntologyのDescriptionやGOのIDを取得しアノテーションとして
付与する。 | ||||||||||||||
| アノテーションの統合 | BLASTやInterProScanによるフラグ情報やアノテーション情報を統合する。
フラグ情報はこれまでの解析結果フラグを以下のようにまとめられる。 ORFに付与するフラグ情報
![]()
フラグ情報を含めた全ての情報は以下のようなフラットファイル形式でまとめられる。
|
8. IS領域の予測とIS名の付与
GIB-ISで構築されているIS配列をゲノムにマップして領域の予測とIS名の付与を行う。
呼び出し元アクティビティ:GTPSデータベース構築手順

呼び出し元アクティビティ:GTPSデータベース構築手順

| アクティビティ名 | 概要 |
|---|---|
| IS配列とゲノムを用いたBLAST | ゲノム配列を参照配列、IS配列をクエリとしてBLASTを実施する。
IS配列は、GIB-ISデータベースの全エントリを使用する。
blastall -p blastn -e 0.001 -F F -d <ゲノム配列のデータベース> -i <IS配列> -o <結果ファイル> |
| ゲノムへIS配列のマッピング | IS配列のゲノムへのマッピング結果を用いてゲノム上のIS領域を決定する。
ISの領域は相補鎖にアライメントされている場合でもゲノム上の領域は直鎖とする。
マッピングの条件は、クエリーの全長に対するアライメント長(カバー率)が90%以上かつアライメント領域のIdentityが
90%以上とする。
|
| 重なるIS領域の統合 | IS配列は以下の図のように重なってマッピングされることがある。このような
領域を統合して1つのIS領域とする。
|
| IS名の付与 |
IS配列に付与されているIS名をゲノムのアノテーションとしてrepeat_regionフィーチャーを用いて付与する。
フラットファイル形式で以下のように付与される。
|
9. Glimmerの実行
Glimmer 3.02を用いて学習モデルを作成しORF領域の予測を行う。
以下の手順はGlimmerパッケージに含まれるスクリプトファイル g3-iterated.csh とほぼ同じである。異なる点は、学習モデル
用のORF抽出の際の long-orf コマンドの -t オプションの数値やORFの最短長である。また、解析対象の生物種に応じて翻訳
テーブル番号や分子形態(環状または直鎖状)のパラメータも変更して実施する。
論文 を投稿したときにはGlimmer 2とRBSfinderを組み合わせて実施していたが、2006年度以降は、RBSの学習モデルを使用する ことができるGlimmer 3を使用している。
呼び出し元アクティビティ:2. ORF領域の予測

トップに戻る
論文 を投稿したときにはGlimmer 2とRBSfinderを組み合わせて実施していたが、2006年度以降は、RBSの学習モデルを使用する ことができるGlimmer 3を使用している。
呼び出し元アクティビティ:2. ORF領域の予測

| アクティビティ名 | 概要 |
|---|---|
| 学習モデル用配列の作成 | ORF領域予測の学習モデルを作成するためのORF同士で重ならない長い
(妥当性の高い)ORF群のゲノム上の位置を抽出する。 long-orfs -t 1.08 --no_header <ゲノムのFASTAファイル> <タグ名>.longorfs |
| 学習モデル用配列の抽出 | ゲノムファイルと前のアクティビティで抽出したゲノム上の位置を用いて
学習モデルを作成するのに使用する配列を抽出する。 extract -t <ゲノムのFASTAファイル> <タグ名>.longorfs --nostop > <タグ名>.train |
| 学習モデルの作成 | 前のアクティビティで抽出した学習モデル用配列を用いて学習モデル:
ICM(Interpolated Context Model)を作成する。 build-icm -r <モデルファイル> < <タグ名>.icm |
| 1回目のGlimmerを実行 | 前のアクティビティで作成した学習モデルを用いて1回目のORF領域予測を行う。
ORF同士の重なりの長さ(-o)は、50bp, 閾値(-t)は30を指定する。翻訳テーブル番号は WABIのTxSearchサービスを使うことで取得する。 glimmer3 -o 50 -t 30 -g <ORFの最短長(180または45)> -l (分子形態が直鎖状:linearの場合 -l をつける。分子形態が環状:circularの場合不要) -z <翻訳テーブル番号(11または4) > <ゲノムのFASTAファイル> <学習モデルのファイル> <タグ名> |
| 1回目のGlimmerの結果から予測ORFの位置抽出 | 1回目のGlimmerの結果から予測ORFのゲノム上の
位置を抽出する。 tail -n +2 <1回目のGlimmerの結果> > <ゲノム上のORF位置情報のファイル> |
| RBSの学習モデル作成 | 1回目のGlimmerの予測ORF群を用いて、各ORFの上流 25 bp を抽出し、
その配列群を用いて、6残基のRBS(Ribosome Binding Site)の学習モデル:ポジションウェイトマトリクスを作成する。 upstream-coords.awk 25 0 <ゲノム上のORF位置情報のファイル> | extract <ゲノムのFASTAファイル> - > <タグ名>.upstream; elph <タグ名>.upstream LEN=6 | get-motif-counts.awk > <RBSの学習モデルのファイル> RBSの学習モデル(ポジションウェイトマトリクス)は以下のようなマトリクスで生成される。
|
| 開始コドンの分布調査 | 1回目のGlimmerの予測ORF群を用いて開始コドンの分布を調べる。
開始コドン atg, gtg, ttgの順番で各コドンの頻度を 0.810,0.139,0.051のように取得する。 start-codon-distrib -3 <ゲノムのFASTAファイル> <1回目のGlimmerの結果から 抽出したゲノム上のORF位置情報のファイル> |
| 2回目のGlimmer実行 | 前のアクティビティで作成した学習モデル(ICM)やRBSの学習モデル
(ポジションウェイトマトリックス)、開始コドンの分布情報などを用いて2回目のGlimmerを実行する。 glimmer3 -o 50 -t 30 -g <ORFの最短長(180または45)> -l (分子形態が直鎖状:linearの場合 -l をつける。分子形態が環状:circularの場合不要) -i <マスクファイル> -z <翻訳テーブル番号(11または4) -b <RBSの学習モデルファイル> -P <開始コドンの分布> <ゲノムのFASTAファイル> <学習モデルファイル> <結果ファイル> |








