home
MENUPREVNEXT

MacOSXでBioinfomatics入門その3

大量のシークエンスのBLAST解析

  ■複数のシークエンスのBLAST解析

さて、ここからがUNIXの本領です。

解析したいシークエンスファイル(私の場合test001.Seqという感じの名前が付いています)を/bio/testというフォルダに集めます。

% cd /bio/test
% foreach file (*.Seq)
foreach? blastall -p blastn -d nt -i $file >>result.out
foreach? end

とすることで、/bio/testフォルダに入っている、すべての.SeqファイルがBLASTにかけられ、結果がresult.outというファイルに書き出されます。自動化を考えるのなら、このコマンドもシェルスクリプトの形で保存しておけます。以下のスクリプトをテキストファイルで作って、batchBLAST.tcshと名付けて、/bio/scriptsの中に保存しておきます。

batchBLAST.tcsh

#!/bin/tcsh
set seqdir=$1
cd $seqdir
foreach file (*.Seq)
blastall -p blastn -d /bio/blast/db/nt -i $file > ${file:r}.bls
end

ちなみに、このスクリプトでは、結果をresult.outという形で一つのファイルにまとめるのでなく、test???.txtの結果はtest???.blsという形で個別のファイルになっています。batchBLAST.tcshの実行は、以下のようなコマンドをたたきます。

% tcsh /bio/scripts/batchBLAST.tcsh /bio/test

これで、理論上は何個のシークエンスでも上記のコマンドを1行書くだけでBLAST解析ができるようになりました。

 

■Apple/Genentech BLAST

実は、AppleはG4のVelocity engineに最適化した、Apple/Genentech BLASTというのを作っています。http://developer.apple.com/hardware/ve/acgresearch.htmlからダウンロード可能です。ダウンロードし、解凍すると、blastallというファイルが出てきますので、NCBI-blastと差し替えます。

私のコンピュータはPowerbook G4/1GHz (15-inch)ですが、このコンピュータ上で、500bpくらいのシークエンスをntに対してblastを行うと、NCBI-blastだと2分30秒から3分弱。Apple/Genentech BLASTだと1分半ほどで終わるようになりました。約2倍弱のスピードといった具合です。

 
 
 
     
更新記録

●2004年4月1日:新規掲載

home
MENUPREVNEXT