Genbank序列格式Locus行的详细定义

NCBI Genbank序列格式,Locus行的详细定义,供解释与生成genbank格式参考。

The detailed format for the LOCUS line format is as follows:

Positions  Contents
---------  --------
01-05      'LOCUS'
06-12      spaces
13-28      Locus name
29-29      space
30-40      Length of sequence, right-justified
41-41      space
42-43      bp
44-44      space
45-47      spaces, ss- (single-stranded), ds- (double-stranded), or
           ms- (mixed-stranded)
48-53      NA, DNA, RNA, tRNA (transfer RNA), rRNA (ribosomal RNA),
           mRNA (messenger RNA), uRNA (small nuclear RNA), snRNA,
           snoRNA. Left justified.
54-55      space
56-63      'linear' followed by two spaces, or 'circular'
64-64      space
65-67      The division code (see Section 3.3)
68-68      space
69-79      Date, in the form dd-MMM-yyyy (e.g., 15-MAR-1991)

NCBI表示序列位置关系的location语法

无论是对于序列的注释还是对于序列的拼接等,都要表示序列的“空间属性”,比如序列的方向、是否是全长、有哪些片段组成等。

location

location

单个数字表示单个碱基

: : 用于连接序列标识符与位置的连接,比如AB121212:34..67

^ :表示在连个碱基之间,比如10^11

. : 表是区域中的某一个,比如10.20,表示10到20之间的一个碱基

.. : 表示区域、一段序列,例如10..20,表示从第10个碱基到20个碱基

<>: 表示是否包含,有>或者<表示序列不是全长,仅仅是部分

complement (location): 反向
The feature is complementary to the location indicated. Complementary strands are read 5′ to 3′.
比如:complement(AADK01062527.1:1..745)

join (location, location, .. location): 链接
The indicated elements should be placed end to end to form one contiguous sequence.
比如:join(AAGK01005580.1:1..16089,complement(AADK01062527.1:1..745))

order (location, location, .. location): 排列,知道前后关系,但是中间可能还有gap
The elements are found in the specified order in the 5 to 3 direction, but nothing is implied about the rationality of joining them.

表示序列的例子,不断的添加中。

CAS编号

CAS编号(CAS Registry Number或称CAS Number, CAS Rn, CAS #),又称CAS登录号或CAS登记号码,是某种物质(化合物、高分子材料、生物序列(Biological sequences)、混合物或合金)的唯一的数字识别号码。

美国化学会的下设组织化学文摘社(Chemical Abstracts Service,简称CAS)负责为每一种出现在文献中的物质分配一个CAS编号,其目的是为了避免化学物质有多种名称的麻烦,使数据库的检索更为方便。如今几乎所有的化学数据库都允许用CAS编号检索。

到2008年4月22日,CAS已经登记了34,967,326种物质最新数据,并且还以每天4,000余种的速度增加。 继续阅读

SMILES,简化分子线性输入规范

SMILES(Simplified molecular input line entry specification),简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。SMILES由Arthur Weininger和David Weininger于20世纪80年代晚期开发,并由其他人,尤其是日光化学信息系统有限公司(Daylight Chemical Information Systems Inc.),修改和扩展。

由于SMILES用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,此系统采用纵向优先遍历树算法。转化时,先要去掉氢,还要把环打开。表示时,被拆掉的键端的原子要用数字标记,支链写在小括号里。
SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。转换成二维图形可以使用Helson的“结构图生成算法”(Structure Diagram Generation algorithms)。 继续阅读

Gene Transfer Format(GTF)格式说明

Gene Transfer Format(GTF)

GTF (gene transfer format) is a simple, precise format for annotating protein coding genes which has been used for a number of multi-group annotation efforts. It is a specialized subset of GFF (general feature format). The specification for GTF can be found here. If a GTF file contains errors, programs that parse it can yield false conclusions. Validate GTF is a flexible Perl script that checks a GTF file for correctness. It can detect most common syntactic errors, such as including the stop codon within the CDS annotation. It can also detect semantic errors, such as annotated coding sequence that contains stop codons spanning splice sites.