formatdb - 得到formatdb 所有的参数显示(见附录二)和介绍,它可以根据我们的想法把源数据库格式化. 主要参数的说明:
-i 输入需要格式化的源数据库名称 Optional
-p 文件类型,是核苷酸序列数据库,还是蛋白质序列数据库
T – protein F - nucleotide [T/F] Optional default = T
-a 输入数据库的格式是ASN.1(否则是FASTA)
T - True, F - False. [T/F] Optional default = F -o 解析选项
T - True: 解析序列标识并且建立目录 F - False: 与上相反
[T/F] Optional default = F 命令示例:
formatdb -i ecoli.nt -p F -o T
运行此命令就会在当前目录下产生用于BLAST搜索的7个文件,一旦如上的formatdb命令执行完毕,就不再需要ecoli.nt,可以移除。此时,blastall可以直接使用。
Blastall常用参数简析
BLAST (Basic Local Alignment Search Tool) 基本局部比对搜索工具,是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具,它是基于Altschul等人在J.Mol.Biol上发表的方 法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。BLAST程序 能迅速与公开数据库进行相似性序列比较,利用比较结果中的得分对序列相似性进行说明。 BLAST可以 对一条或多条序列(可以是 任何形式的序列)在一个 或多个核酸或蛋白序列库中进行比对,并且从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺口 的比对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核酸序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。所查询的序 列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 由于Blast功能强大,检索速度快, Blast工具流行于世界上几乎所有的生物信息中心。
BLAST 提供的检索功能:
BLASTn: 核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 BLASTp: 蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
BLASTx: 核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的6条蛋白),再对每一条作一对一的蛋白序列比对。
TBLASTn: 蛋白序列到核酸库中的一种查询。与BLASTx相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
TBLASTx : 核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
在使用blastall对测试序列在序列数据库中进行查询之前 ,用户需要对blastall命令涉及的主要常用参数有充分的理解。下面简要介绍一下blastall命令涉及的主要常用参数: 用户可以在命令行方式下运行:blastall –
将会列出blastall 命令的所 有参数设置(见附录三),下面对blastall 主要常用 参数进行说明: blastall -p blastn –d db.fasta -i input.fasta -o output.blast -e 1e-30 -b 2 -v 2 -m 8 -I T -a 2
-p Program Name [String]
所用程序名称[String],用 户可以根据需要从blastn,blastp,blastx,tblastn,tblastx中任选一程序。 -d Database [String] default = nr
所用序列数据库的名称 [String],默认为:nr,本文例为:ecoli.nt -i Query File [File In] default = stdin
所用查询序列文件[File In], 默认为:stdin,本文例为 test.txt -e Expectation value (E) [Real] default = 10.0 期望值[Real] 默认为10.0 描述搜索某一特定数据 库时,随机出现的匹配序列数目。 -m alignment view options:
比对显 示选项,其具体的说明可以用以下的比对实例说明 0 = pairwise, 显示具体匹配信息(缺省)
-o BLAST report Output File [File Out] Optional default = stdout
BLAST报告的输出文件[File Out] 默认为:stdout
-F Filter query sequence (DUST with blastn, SEG with others) [String] default = T
查询序列过滤,将那些 给出影响比对结果的低复杂度区域过滤掉。用blastn进行查询的序列用DUST程序过滤,其他的用SEG过滤 。对DUST和SEG的详细情况,用户可以自己查询资料。 -G Cost to open a gap (zero invokes default behavior) [Integer] default = 0
空位开放罚分[Integer] (设为0则调用默认行为) 默认为0分 -E Cost to extend a gap (zero invokes default behavior) [Integer] default = 0
空位扩展罚分[Integer] (设为0则调用默认行为) 默认为0分
-X X dropoff value for gapped alignment (in bits) (zero invokes default behavior) blastn 30, megablast 20, tblastx 0, all others 15 [Integer],default = 0 -I Show GI's in deflines [T/F] default = F
提示行显示GI number 默认不显示
-q Penalty for a nucleotide mismatch (blastn only) [Integer] default = -3
核酸序列基对不匹配所罚分数(blastn only) [Integer] 默认罚3分 -r Reward for a nucleotide match (blastn only) [Integer] default = 1
核苷酸序列基对匹配所加分数(blastn only) [Integer] 默认加1分 -g Perfom gapped alignment (not available with tblastx) [T/F] default = T
是否执行带缺口的比对(not available with tblastx) 默认为是 & nbsp;
-a Number of processors to use [Integer] default = 1
使用处理器的数目[Integer] 默认为单机
-B Number of concatenated queries, for blastn and tblastn [Integer] Optional default = 0
需要联配查询的序列数目 for blastn and tblastn [Integer] 默认为单序列
以上所列只是blastall命令部分参 数的说明(全部参数的说明见附录三),用户在对自己的序列进行BLAST时可根据自己的需要选择参数, 以便得到自己需要的查询报告。同时,参数选择的正确与否也是blastall程序能否顺利执行的关键。
Blastall 2.2.14 arguments:
-p Program Name [String] -d Database [String] default = nr -i Query File [File In] default = stdin
-e Expectation value (E) [Real] default = 10.0
-m alignment view options: 0 = pairwise,
1 = query-anchored showing identities, 2 = query-anchored no identities, 3 = flat query-anchored, show identities, 4 = flat query-anchored, no identities,
5 = query-anchored no identities and blunt ends, 6 = flat query-anchored, no identities and blunt ends, 7 = XML Blast output, 8 = tabular,
9 tabular with comment lines 10 ASN, text
11 ASN, binary [Integer] default = 0 range from 0 to 11
-o BLAST report Output File [File Out] Optional default = stdout
-F Filter query sequence (DUST with blastn, SEG with others) [String] default = T
-G Cost to open a gap (-1 invokes default behavior) [Integer] default = -1
-E Cost to extend a gap (-1 invokes default behavior) [Integer] default = -1
-X X dropoff value for gapped alignment (in bits) (zero invokes default behavior) blastn 30, megablast 20, tblastx 0, all others 15 [Integer] default = 0
-I Show GI's in deflines [T/F] default = F
-q Penalty for a nucleotide mismatch (blastn only) [Integer] default = -3
-r Reward for a nucleotide match (blastn only) [Integer] default = 1
-v Number of database sequences to show one-line descriptions for (V) [Integer] default = 500
-b Number of database sequence to show alignments for (B) [Integer] default = 250
-f Threshold for extending hits, default if zero blastp 11, blastn 0, blastx 12, tblastn 13 tblastx 13, megablast 0 [Integer]
default = 0
-g Perform gapped alignment (not available with tblastx) [T/F] default = T
-Q Query Genetic code to use [Integer] default = 1
-D DB Genetic code (for tblast[nx] only) [Integer] default = 1
-a Number of processors to use [Integer] default = 1
-O SeqAlign file [File Out] Optional -J Believe the query defline [T/F] default = F -M Matrix [String] default = BLOSUM62
-W Word size, default if zero (blastn 11, megablast 28, all others 3) [Integer] default = 0
-z Effective length of the database (use zero for the real size) [Real] default = 0
-K Number of best hits from a region to keep (off by default, if used a value of 100 is recommended) [Integer] default = 0
-P 0 for multiple hit, 1 for single hit (does not apply to blastn) [Integer] default = 0
-Y Effective length of the search space (use zero for the real size) [Real] default = 0
-S Query strands to search against database (for blast[nx], and tblastx) 3 is both, 1 is top, 2 is bottom [Integer] default = 3
-T Produce HTML output [T/F] default = F
-l Restrict search of database to list of GI's [String] Optional -U Use lower case filtering of FASTA sequence [T/F] Optional
-y X dropoff value for ungapped extensions in bits (0.0 invokes default behavior) blastn 20, megablast 10, all others 7 [Real] default = 0.0
-Z X dropoff value for final gapped alignment in bits (0.0 invokes default behavior) blastn/megablast 50, tblastx 0, all others 25 [Integer] default = 0
-R PSI-TBLASTN checkpoint file [File In] Optional -n MegaBlast search [T/F] default = F
-L Location on query sequence [String] Optional
-A Multiple Hits window size, default if zero (blastn/megablast 0, all others 40 [Integer] default = 0
-w Frame shift penalty (OOF algorithm for blastx) [Integer] default = 0
-t Length of the largest intron allowed in a translated nucleotide sequence when linking multiple distinct alignments. (0
invokes default behavior; a negative value disables linking.) [Integer] default = 0
-B Number of concatenated queries, for blastn and tblastn [Integer] Optional default = 0
-V Force use of the legacy BLAST engine [T/F] Optional default = F
-C Use composition-based statistics for tblastn: D or d: default (equivalent to F)
0 or F or f: no composition-based statistics
1 or T or t: Composition-based statistics as in NAR 29:2994-3005, 2001 2: Composition-based score adjustment as in Bioinformatics 21:902-911, 2005, conditioned on sequence properties
3: Composition-based score adjustment as in Bioinformatics 21:902-911, 2005, unconditionally
For programs other than tblastn, must either be absent or be D, F or 0. [String] default = D
-s Compute locally optimal Smith-Waterman alignments (This option is only available for gapped tblastn.) [T/F] default = F
因篇幅问题不能全部显示,请点此查看更多更全内容