ddbj bird Gene Trek in Prokaryote Space (GTPS)
Contact us /English
>>more

GTPSデータベースの構築手順
GTPS(Gene Trek in Prokaryote Space)は原核生物でゲノム配列が決定されたものを対象にさまざまな 解析を行い再アノテーションを行ったデータベースです。利用している解析プログラムや参照データ ベースなどの手順をご紹介いたします。本データベースに関する論文は こちら をご参照ください。
GTPSの目的
さまざまな細菌および古細菌の完全ゲノムがDDBJ/EMBL/GenBankの国際塩基配列データベース(INSD)に 登録されています。そのアノテーション情報やDNA配列は Genome Information Broker(GIB)から 利用可能です。しかし、アノテーションを行う際に実施しているBLAST検索の閾値や参照データ セットのバージョンなどが異なっているためにアノテーション情報の質がまちまちで比較ゲノムの ようなゲノムワイドな解析を行う際に不都合な場合があります。そこで共通のプロトコルで INSDに登録されている細菌および古細菌のゲノム配列を解析しORF(Open Reading Frame)などの ゲノムアノテーション情報を再付与しました。
GTPSデータベース構築手順の詳細
GTPSデータベースの構築手順の詳細をご紹介します。

アクティビティ名概要
1. RNA領域とリピート領域のマスキングtRNAscan-SERfamなどのデータベースを 利用してノンコーディングRNA領域の予測を行うとともにリピート領域のLTR(Long Terminal Repeat)とあわせてORF予測の対象と しないマスク領域を作成する。
2. ORF領域の予測Glimmerを用いてゲノム配列上のORF領域の予測を行う。
3. 予測ORFの解析BLASTやInterProScanを用いて予測したORFの解析を行う。
4. 予測されたORFとINSDのアノテーションとの比較 予測されたORFとINSDのCDS(Coding sequence)を比較し、「INSDのCDSと完全に一致」や「INSDのCDSと終了位置だけ一致」、 「INSDのCDSと終了位置が一致する(フレームが一致する)ものが無い」などのフラグ付けを行う。また、全ての予測ORFに おいてINSDにアノテーションされている偽遺伝子とフレームが一致するか調べる。さらに、Glimmerでは予測できない INSDのCDS領域の抽出を行い、予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。
5. 予測ORFの開始位置修正ORFの開始位置をORFの長さが短くなるように修正し、ORF同士の重なりを回避する。長さが変わったORFについて予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。
6. ORFのグレード分けGTPSの全てのORFについて、BLASTやInterProScanの結果を参照して、ORFの確からしさの観点で分類する。
7. 遺伝子産物名などのアノテーション付与GTPSの全てのORFについてそのORFの遺伝子産物名をBLASTの結果を参照して付与する。また、InterProScanの結果からモチーフ名やGOによる説明文も付与する。
8. IS領域の予測とIS名の付与GIB-ISで構築されているIS配列をゲノムにマップして領域の予測とIS名の付与を行う。
1. RNA領域とリピート領域のマスキング
tRNAscan-SERfamなどのデータベースを利用してノンコーディングRNA領域の予測を行うとともにリピート領域の LTR領域とあわせてORF予測の対象としないマスク領域を作成する。
呼び出し元アクティビティ:GTPSデータベース構築手順

アクティビティ名概要
INSDのアノテーションからノンコーディングRNA領域のアノテーション抽出フィーチャ名が rRNA(ribosomal RNA), ncRNA(non-protein-coding RNA), misc_RNA, tmRNA(transfer messenger RNA)の領域をINSDのアノテーションから抽出する。
INSDのアノテーションからリピート領域のアノテーション抽出フィーチャ名が LTR(Long Terminal Repeat)の領域をINSDのアノテーションから抽出する。
tRNAscan-SEを用いたtRNAの領域の予測 tRNAscan-SEを用いたtRNAの領域の予測し、そのtRNAのプロダクト名を付与する。tRNAscan-SEプログラムに Archaea (-A) またはProkaryote (-P) のディビジョンを指定する。
   tRNAscan-SE <division (-A or -P)> <FASTA file>
ディビジョン情報は WABIGIBサービスを使うことで取得する。 tRNAscan-SEの結果からゲノム上の座標やプロダクト名を取得し、以下のようなアノテーション情報として 整理する。
Rfamを用いたノンコーディングRNA領域の予測 Rfamデータベースから原核生物の配列のみを抽出しておきその配列をクエリ配列とし、ゲノム配列をBLASTの参照配列と して、BLASTを以下のように実行する。
   blastall -p blastn -d <ゲノム配列のデータベース> -i <Rfamの配列> -e 1.0e-10 -m 8 -F F
BLASTの実行結果からIdentity 100%かつRfamの配列の全長がアライメントされている領域をノンコーディングRNA 領域として抽出するとともに、Rfamの名前、ID、プロダクト名を付与する。

以下のようなアノテーション情報として整理する。
全てのマスク領域の統合INSDのRNA領域、INSDのリピート領域、tRNA-scanSEの結果、 Rfamの結果を統合する。この統合した結果は次のORF領域の予測の際にORF予測の対象としないマスクする 領域として用いる。
トップに戻る
2. ORF領域の予測
Glimmerを用いてORF領域の予測を行う。
呼び出し元アクティビティ:GTPSデータベース構築手順

アクティビティ名概要
Glimmerを最短ORF長 180 bp の条件で実行GlimmerをORFの最短長 180 bp の条件で実行する。
Glimmerを最短ORFの長 45 bp の条件で実行短いORFの予測漏れを防ぐためにGlimmerをORFの最短長 45 bp の条件でも実行する。
Glimmerの結果統合2回のGlimmerの結果を比較して開始位置と終了位置が一致している領域を統合する。 また、以下の図のように終了位置が同じで開始位置が違う場合、長いORFのほうを採用し次の解析に用いる。終了位置が異なる 場合は、両方採用し次の解析に用いる。
トップに戻る
3. 予測ORFの解析
BLASTやInterProScanを用いて予測したORFの解析を行う。
呼び出し元アクティビティ:GTPSデータベース構築手順

アクティビティ名概要
BLASTを用いた解析予測されたORFをクエリ、DDBJのBCTディビジョンのアミノ酸配列を 参照データベースとして以下のようにBLASTを実行する。
   blastall -p blastp -e 0.001 -F F -d <データベース> -i <予測ORFのアミノ酸> -o <結果ファイル>
BLASTの結果からフラグの付与BLASTの実行結果から各予測ORFにBLASTのフラグを付与する。BLASTのフラグは以下のいずれかの条件満たした場合ヒットしたとみなす。
  • E-valueが1e-40以下、かつIdentity 30%以上、かつクエリ配列またはサブジェクト配列全長に対するアライメント領域のカバー率が70%以上
  • E-valueが0.0001以下、かつIdentity 80%以上、かつクエリ配列またはサブジェクト配列全長に対するアライメント領域のカバー率が80%以上
  • Identity 90%以上、かつクエリ配列またはサブジェクト配列全長に対するアライメント領域のカバー率が90%以上
BLASTのフラグ
1INSDの同じ領域のアノテーションにのみヒットし、そのORFのアノテーションが機能未知*でない。
2INSDの同じ領域のアノテーションにのみヒットし、そのORFのアノテーションが機能未知*である。
3INSDの同じ領域のアノテーション以外にもヒットし、ヒットしたサブジェクトのアノテーションが機能未知*でないものがある。
4INSDには予測されたORFの領域にアノテーションがなく、ヒットしたサブジェクトのアノテーションが機能未知*でないものがある。
5INSDの同じ領域のアノテーション以外にもヒットし、ヒットしたサブジェクトのアノテーションが全て機能未知*である。
6INSDには予測されたORFの領域にアノテーションがなく、ヒットしたサブジェクトのアノテーションが全て機能未知*である。
7BLASTの結果にヒットが無い。
*アノテーションが機能未知
プロダクト名にunknown, hypothetical protein, probable ORF, predicted proteinなどの記載が あるもの。詳細はこちらで公開している。
InterProScanを用いた解析予測されたORFを対象に以下のようにInterProScanを実行する。
   iprscan -cli -altjobs -iprlookup -goterms -seqtype p -format raw -i <ORFのアミノ酸配列>
InterProScanの結果からフラグの付与InterProScanの実行結果から各予測ORFに InterProScanのフラグを付与する。
InterProScanのフラグ
1モチーフの領域がORF全長の30%以上で、無効なモチーフ*でない。
2モチーフの領域がORF全長の30%未満で、無効なモチーフ*でない。
3見つかったモチーフがすべて無効なモチーフ*である。
4モチーフの領域が見つからない。
*無効なモチーフ
無効なモチーフのリストに含まれるもの。
4. 予測されたORFとINSDのアノテーションとの比較
予測されたORFとINSDのアノテーション(CDS)を比較し、「INSDのCDSと完全に一致」や「INSDのCDSと終了位置だけ一致」、「INSDのCDSと終了位置が一致する(フレームが一致する)ものが無い」などのフラグ付けを行う。また、全ての予測ORFにおいてINSDにアノテーションされている偽遺伝子とフレームが一致するか調べる。さらに、Glimmerでは予測できないINSDのCDS領域の抽出を行い、予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。
呼び出し元アクティビティ:GTPSデータベース構築手順

アクティビティ名概要
全ての予測ORFについてINSDのCDSとの比較全ての予測ORFについてINSDのCDSと比較を行い、以下のフラグ付けを行う。
予測ORFに付与するINSDのCDSとの比較フラグ
1予測ORFの座標がINSDのCDSと開始位置、終了位置ともに一致する。
2予測ORFの座標がINSDのCDSと終了位置が一致し、予測ORFのほうが長い。
3予測ORFの座標がINSDのCDSと終了位置が一致し、予測ORFのほうが短い。
4予測ORFの終了位置がINSDのCDSの終了位置と一致するものが無い。
P予測ORFの開始位置もしくは終了位置がINSDの偽遺伝子の開始位置もしくは終了位置と一致する。
J予測ORFの座標がINSDのJOINロケーションのCDSと開始位置もしくは終了位置が一致する。または、予測ORFの座標がINSDのJOINロケーションのCDSと重なり、アミノ酸配列のフレームが一致する。

全てのINSDのCDSについて予測ORFとの比較全てのINSDのCDSについて予測ORFと比較を行い、以下のフラグ付けを行う。
INSDのCDSに付与するフラグ
JJOINロケーションのCDS
7-1予測ORFとフレームが一致せず、プロダクト名が機能未知*である。
7-2予測ORFとフレームが一致せず、プロダクト名が機能未知*でない。
PpseudoのCDSフィーチャである。
*機能未知
プロダクト名にunknown, hypothetical protein, probable ORF, predicted proteinなどの記載があるもの。詳細はこちらで公開している。
Glimmerで予測できないORFの解析Glimmerで予測できないINSDのCDSを抽出する。INSDのCDSに付与されているフラグが '7-1', '7-2', 'J' のものを抽出する。抽出したORFについて予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。
5. 予測ORFの開始位置修正
ORFの開始位置をORFの長さが短くなるように修正し、ORF同士の重なりを回避する。長さが変わったORFについて予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。
呼び出し元アクティビティ:GTPSデータベース構築手順

アクティビティ名概要
予測ORFから妥当性の高いORFの抽出全ての予測ORFからBLASTまたはInterProScanでヒットがあった妥当性の高いORFを抽出する。BLASTのフラグが 1, 3, 4または InterProScanのフラグが 1 のもので、なおかつ予測ORFに付与するINSDのCDSとの比較フラグがP, Jでないものを抽出する。
ORF同士で重なるORFペアの抽出以下の図のように 30 bp 以上重なるORFのペアを抽出する。
ORFの開始位置修正ORF同士の重なりが解消されるようにORFの開始位置をORFの長さが短くなるように修正する。そのORFにあるモチーフ領域が削られないように修正する。
開始位置を修正したORFの解析予測ORFと同じようにBLASTやInterProScanを用いた解析を行う。
6. ORFのグレード分け
GTPSの全てのORFについて、BLASTやInterProScanの結果を参照して、ORFの確からしさの観点で分類する。GTPSの全てのORFは、 Glimmerで予測されたORF, Glimmerで予測できなかったINSD由来のORF, Glimmerで予測されたORFのうちORF同士の重なりを 解消するために開始位置を修正したORFが含まれる。
呼び出し元アクティビティ:GTPSデータベース構築手順

アクティビティ名概要
BLASTのアライメント長によるグレード分けGTPSの全てのORFを対象にDDBJ BCTディビジョンの 全アミノ酸配列を参照データベースとしたBLASTの結果を用いて以下のようなグレード分けを行う。
BLASTのアライメント長によるグレード分け
Aクエリおよびサブジェクトの両方のカバー率が70%以上
Bクエリおよびサブジェクトのどちらかのカバー率が70%以上
CA, B以外
BLASTのSubjectのアノテーションによるグレード分けGTPSの全てのORFを対象にDDBJ BCTディビジョンの 全アミノ酸配列を参照データベースとしたBLASTの結果を用いて以下のようなグレード分けを行う。
BLASTのSubjectのアノテーションによるグレード分け
1サブジェクトのアノテーションが機能未知*でなく、膜タンパクのアノテーション*でもない。
2サブジェクトのアノテーションが機能未知*ではないが、膜タンパクのアノテーション*である。
3サブジェクトのアノテーションが全て機能未知である。
4BLASTのヒットが無い。
*機能未知
プロダクト名にunknown, hypothetical protein, probable ORF, predicted proteinなどの記載があるもの。詳細はこちらで公開している。
*膜タンパクのアノテーション
プロダクト名にinner-membrane protein, outer membrane protein, integral-membrane proteinなどの記載があるもの。 膜タンパクと機械的に判断するための一覧表はこちらで公開している。
INSDのCDSとの比較によるグレード分けGTPSの全てのORFを対象にINSDのCDSとの比較の観点で グレード分けを行う。
INSDのCDSとの比較よるグレード分け
1予測ORFもしくは開始位置を修正した予測ORFで、INSDにも開始位置と終了位置が完全に一致するCDSがある。
2予測ORFもしくは開始位置を修正した予測ORFで、INSDに終了位置だけ一致するCDSがある。
3予測ORFもしくは開始位置を修正した予測ORFで、INSDに終了位置が一致するCDSが無い。
4Glimmerで予測できないINSD由来のORF
InterProScanによるグレード分けGTPSの全てのORFを対象にInterProScanの結果を用いて グレード分けを行う。
InterProScanによるグレード分け
1モチーフ領域がORF全長の30%以上長く、InterProScanのdescriptionに "unknown" の記載が無い。
2モチーフ領域がORF全長の30%以上長く、InterProScanのdescriptionに "unknown" の記載がある。
3モチーフ領域が見つからない。
グレード情報の統合BLASTの2つのグレード分け、InterProScanによるグレード分けを統合して、 GTPSの全てのORFに以下のようなAAAAからXまでのグレード情報を付与する。

もっとも確からしいORFのグレードはAAAAであり、 BLASTのアライメント長によるグレードがA、 BLASTのSubjectのアノテーションによるグレードが1、 InterProScanによるグレードも1である。このグレード情報に INSDのCDSとの比較によるグレード情報を後ろにつけて、 AAAA1やBBB2のようなグレード情報がGTPSの全てのORFに付与される。
7. 遺伝子の産物名などのアノテーション付与
GTPSの全てのORFについてそのORFの遺伝子産物名をINSDのアノテーションやBLASTの結果を参照して付与する。 また、InterProScanの結果からモチーフ名やGOによる説明文も付与する。
呼び出し元アクティビティ:GTPSデータベース構築手順

アクティビティ名概要
INSDのアノテーションから遺伝子産物名の付与 ORFがINSDのCDSと終了位置が一致している場合、そのCDSのプロダクト名を参照しORFのプロダクト名と して付与する。

ただし、記載内容をそのまま引用するのではなく、以下の処理を実施する。
  • 標準的な表現への修正やスペルミスなどの修正。例えば、"50s ribosomal protein L10" は、"50S ribosomal protein" と50Sの部分を標準的な大文字へ修正し、"16S ribobsomal RNA"は、"16S ribosomal RNA"とribobsomalのスペルミスを 修正する。この修正をするための一覧表はこちらで公開している。 ファイルフォーマットは「修正前の表現」<タブ>「修正後の表現」である。
  • 余計な記載を削除する。例えば、"<数字> aa long" は遺伝子産物名には余計なので削除する。 "254aa long hypothetical enoyl-CoA hydratase" は、"hypothetical enoyl-CoA hydratase"へ修正される。 削除する余計な記載の一覧は正規表現を使って定義しており、こちらで公開している。
  • 最初や最後の ','や'.'を削除する。例えば、"haemolysin expression-modulating protein."のように記載されて いる場合、最後のピリオドを削除して、"haemolysin expression-modulating protein"とする。 また、最初と最後にある '['と']'や'('と')'、シングルクォーテーション ' も削除する。さらに、複数の空白を1つの空白へ修正し、 バックスラッシュ` をシングルクォーテーション' へ変更する。
  • "B1306.01 protein"や"Tgh005"のようなプロダクト名として無効な場合、次のアクティビティでアノテーションを付与する。 無効なプロダクト名は正規表現を使って定義しており、一覧はこちらで公開している。
  • 機能未知なプロダクト名の一覧表と比較し、合致する場合"hypothetical protein"とする。例えば、 "possible orf"や"putative orf"、"probable orf"などは全て "hypothetical protein"とする。合致しない 場合はそのままその内容をプロダクト名とする。機能未知なプロダクト名は正規表現を使って定義しており、 こちらで公開している。
BLASTの結果からアノテーションの付与DDBJ BCTディビジョンの全アミノ酸配列を参照データベースと したBLASTの結果を用いて、サブジェクトのカバー率が 70%以上かつクエリのカバー率が 70%以上かつ Identityが 70%以上の場合、そのサブジェクトのアノテーションからORFのアノテーションを付与できるか試みる。
複数のサブジェクトのアノテーションをINSDのアノテーションから付与する場合と同じように処理を行い、 1件でもhypothetical proteinでないプロダクト名があった場合には、そのプロダクト名をORFに付与する。 同じように処理を行って、hypothetical proteinのプロダクト名しか無かった場合は、そのORFのプロダクト名を hypothetical proteinとする。すべてのアノテーションが"B1306.01 protein"や"Tgh005"のような無効なプロダクト名 である場合や、条件に合致するBLASTのヒットが無い場合は、predicted in CGMというプロダクト名を付与する。
InterProScanの結果からアノテーションの付与InterProScanの結果からモチーフ名やInterProIDの アノテーションを付与する。また、interpro2goGOデータベースを参照し、InterProIDからGene OntologyのDescriptionやGOのIDを取得しアノテーションとして 付与する。
アノテーションの統合BLASTやInterProScanによるフラグ情報やアノテーション情報を統合する。 フラグ情報はこれまでの解析結果フラグを以下のようにまとめられる。
ORFに付与するフラグ情報

a
  • N: INSDのJOINロケーションのCDSや偽遺伝子とフレームが異なる通常の予測ORF
  • P: INSDの偽遺伝子と終了位置が同じ予測ORF
  • J: INSDのJOINロケーションのCDSと終了位置が同じ予測ORF
予測ORFに付与するINSDのCDSとの比較フラグを元に 付与する。
b
  • 1: Glimmerの最短ORF長の条件 180 bp の結果
  • 2: Glimmerの最短ORF長の条件 45 bp の結果
c
  • 1: 2回のGlimmerの結果が一致。
  • 2: 最短ORF長の条件が異なるGlimmerの結果と終了位置のみ一致しそのORFのほうが長い。
  • 3: 最短ORF長の条件が異なるGlimmerの結果と終了位置のみ一致しそのORFのほうが短い。
  • 4: 2回のGlimmerの結果で終了位置が一致しない。
このフラグは、Glimmerの結果統合の結果を元に付与する。
d (現在未使用)
  • 1: RBSあり
  • 2: RBSなし
  • 3: 該当なし
e
  • 1. INSDのCDSと完全一致
  • 2. INSDのCDSと終了位置のみ一致
  • 3. INSDで終了位置が一致するCDSなし
fBLASTのフラグに対応
gInterProScanのフラグに対応

フラグ情報を含めた全ての情報は以下のようなフラットファイル形式でまとめられる。
8. IS領域の予測とIS名の付与
GIB-ISで構築されているIS配列をゲノムにマップして領域の予測とIS名の付与を行う。
呼び出し元アクティビティ:GTPSデータベース構築手順

アクティビティ名概要
IS配列とゲノムを用いたBLASTゲノム配列を参照配列、IS配列をクエリとしてBLASTを実施する。 IS配列は、GIB-ISデータベースの全エントリを使用する。
   blastall -p blastn -e 0.001 -F F -d <ゲノム配列のデータベース> -i <IS配列> -o <結果ファイル>
ゲノムへIS配列のマッピングIS配列のゲノムへのマッピング結果を用いてゲノム上のIS領域を決定する。 ISの領域は相補鎖にアライメントされている場合でもゲノム上の領域は直鎖とする。 マッピングの条件は、クエリーの全長に対するアライメント長(カバー率)が90%以上かつアライメント領域のIdentityが 90%以上とする。
重なるIS領域の統合IS配列は以下の図のように重なってマッピングされることがある。このような 領域を統合して1つのIS領域とする。
IS名の付与 IS配列に付与されているIS名をゲノムのアノテーションとしてrepeat_regionフィーチャーを用いて付与する。 フラットファイル形式で以下のように付与される。
9. Glimmerの実行
Glimmer 3.02を用いて学習モデルを作成しORF領域の予測を行う。 以下の手順はGlimmerパッケージに含まれるスクリプトファイル g3-iterated.csh とほぼ同じである。異なる点は、学習モデル 用のORF抽出の際の long-orf コマンドの -t オプションの数値やORFの最短長である。また、解析対象の生物種に応じて翻訳 テーブル番号や分子形態(環状または直鎖状)のパラメータも変更して実施する。
論文 を投稿したときにはGlimmer 2とRBSfinderを組み合わせて実施していたが、2006年度以降は、RBSの学習モデルを使用する ことができるGlimmer 3を使用している。
呼び出し元アクティビティ:2. ORF領域の予測

アクティビティ名概要
学習モデル用配列の作成ORF領域予測の学習モデルを作成するためのORF同士で重ならない長い (妥当性の高い)ORF群のゲノム上の位置を抽出する。
   long-orfs -t 1.08 --no_header <ゲノムのFASTAファイル> <タグ名>.longorfs
学習モデル用配列の抽出ゲノムファイルと前のアクティビティで抽出したゲノム上の位置を用いて 学習モデルを作成するのに使用する配列を抽出する。
   extract -t <ゲノムのFASTAファイル> <タグ名>.longorfs --nostop > <タグ名>.train
学習モデルの作成前のアクティビティで抽出した学習モデル用配列を用いて学習モデル: ICM(Interpolated Context Model)を作成する。
   build-icm -r <モデルファイル> < <タグ名>.icm
1回目のGlimmerを実行前のアクティビティで作成した学習モデルを用いて1回目のORF領域予測を行う。 ORF同士の重なりの長さ(-o)は、50bp, 閾値(-t)は30を指定する。翻訳テーブル番号は WABITxSearchサービスを使うことで取得する。
   glimmer3 -o 50 -t 30 -g <ORFの最短長(180または45)> -l (分子形態が直鎖状:linearの場合 -l をつける。分子形態が環状:circularの場合不要) -z <翻訳テーブル番号(11または4) > <ゲノムのFASTAファイル> <学習モデルのファイル> <タグ名>
1回目のGlimmerの結果から予測ORFの位置抽出1回目のGlimmerの結果から予測ORFのゲノム上の 位置を抽出する。
   tail -n +2 <1回目のGlimmerの結果> > <ゲノム上のORF位置情報のファイル>
RBSの学習モデル作成1回目のGlimmerの予測ORF群を用いて、各ORFの上流 25 bp を抽出し、 その配列群を用いて、6残基のRBS(Ribosome Binding Site)の学習モデル:ポジションウェイトマトリクスを作成する。
   upstream-coords.awk 25 0 <ゲノム上のORF位置情報のファイル> | extract <ゲノムのFASTAファイル> - > <タグ名>.upstream; elph <タグ名>.upstream LEN=6 | get-motif-counts.awk > <RBSの学習モデルのファイル>
RBSの学習モデル(ポジションウェイトマトリクス)は以下のようなマトリクスで生成される。
開始コドンの分布調査1回目のGlimmerの予測ORF群を用いて開始コドンの分布を調べる。 開始コドン atg, gtg, ttgの順番で各コドンの頻度を 0.810,0.139,0.051のように取得する。
   start-codon-distrib -3 <ゲノムのFASTAファイル> <1回目のGlimmerの結果から 抽出したゲノム上のORF位置情報のファイル>
2回目のGlimmer実行前のアクティビティで作成した学習モデル(ICM)やRBSの学習モデル (ポジションウェイトマトリックス)、開始コドンの分布情報などを用いて2回目のGlimmerを実行する。
   glimmer3 -o 50 -t 30 -g <ORFの最短長(180または45)> -l (分子形態が直鎖状:linearの場合 -l をつける。分子形態が環状:circularの場合不要) -i <マスクファイル> -z <翻訳テーブル番号(11または4) -b <RBSの学習モデルファイル> -P <開始コドンの分布> <ゲノムのFASTAファイル> <学習モデルファイル> <結果ファイル>
トップに戻る