文件格式——fasta格式

阅读原文时间：2023年07月15日阅读：1

fasta格式

在生物信息学中，FASTA格式（又称为Pearson格式），是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。

格式

序列文件的第一行是由大于号">"或分号";"打头的任意文字说明（习惯常用">"作为起始），用于序列标记。从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号（参见下表）。通常核苷酸符号大小写均可，而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。

下面是FASTA格式的氨基酸序列实例：

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*

FASTA格式支持的核苷酸代码如下：

核苷酸代码

意义

Adenosine

Cytosine

Guanine

Thymidine

Uracil

G A (puRine)

T C (pYrimidine)

G T (Ketone)

A C (aMino group)

G C (Strong interaction)

A T (Weak interaction)

G T C (not A) (B comes after A)

G A T (not C) (D comes after C)

A C T (not G) (H comes after G)

G C A (not T, not U) (V comes after U)

A G C T (aNy)

masked

gap of indeterminate length

FASTA格式支持的氨基酸代码如下：

氨基酸代码

意义

Alanine

Aspartic acid or Asparagine

Cysteine

Aspartic acid

Glutamic acid

Phenylalanine

Glycine

Histidine

Isoleucine

Lysine

Leucine

Methionine

Asparagine

Pyrrolysine

Proline

Glutamine

Arginine

Serine

Threonine

Selenocysteine

Valine

Tryptophan

Tyrosine

Glutamic acid or Glutamine

any

translation stop

gap of indeterminate length

最常见的FASTA格式

Fasta格式首先以大于号“>”开头，接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”，然后是序列的描述信息。换行后是序列信息，序列中允许空格，换行，空行，直到下一个大于号，表示该序列的结束？？？。

所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”，gi号类似与数据库中的流水号，由数字组成，具有绝对唯一性。一条核酸或者蛋白质改变了，将赋予一个新的gi号（这时序列的接收号可能不变）。

gi号后面是序列的标识符，下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识（如接收号、名称等）等几部分组成，他们之间用“|”隔开，如果某项缺失，可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”，表示序列来源于NCBI的参考序列库，接收号为“NM_001043364.2”。

文件中和每一行都不要超过80个字符（通常60个字符）。

对于核酸序列，除了为大家所熟知的A、C、G、T、U外，R代表G或A（嘌呤）；Y代表T或C（嘧啶）；K代表G或T（带酮基）；M代表A或C（带氨基）；S代表G 或C（强）；W代表A或T（弱）；B代表G、T或C；D代表G、A或T；H代表A、C或T；V代表G、C或A；N代表A、G、C、T中任意一种。

Database Name数据库名称

Identifier Syntax 标识符

GenBank

gb|accession|locus

EMBL Data Library

emb|accession|locus

DDBJ, DNA Database of Japan

dbj|accession|locus

NBRF PIR

pir||entry