RNA-seq拼接结果数据提交NCBI

RNA-seq的拼接结果也可以向NCBI提交,第一次提交,还是费了不少事,这里简单总结一下。RNA-seq的拼接结果应该提交到TSA库,TSA全称Transcriptome Shotgun Assembly Sequence Database,TSA is an archive of computationally assembled sequences from primary data such as ESTs, traces and Next Generation Sequencing Technologies.

对于注释信息的要求

TSA数据提交前,首先需要将原始的序列提交到SRA数据库,与提交普通核酸、EST类似,TSA还需要提供DBlink关于BioProject、SRA接收号、BioSample;提供拼接信息以及对于拼接过程的描述。

对于序列的要求

  • 必须是原始的测序结果的拼接数据
  • 需要去除载体或者测序引物
  • 序列长度不能少于200bp
  • 序列不能包括太多的N,少于10%或者小于14个N 继续阅读

最新NCBI BLAST结果报告解读

写在解读报告之前的,首先就使用Blast最终的目的是什么达成一致,Blast是通过两两比对,找到数据库中与输入序列最相似的序列,或者说是最相似的序列片段。那么我们看比对结果就是看Blast从数据库中找到哪些相似的序列,然后就是如何相似,这些相似又可以告诉我们哪些信息等。当然Blast可以衍生出许多的用途,但都是建立在找到相似性序列(片段)的基础上的。

最新的BLAST结果报告解读,本文以BLASTP为例子,说明如何来解读BLAST结果。 继续阅读

Blast结果的详细解析

要使用程序对blast结果进行解析、分析,就必须对BLAST的结果形式有深入的了解,本篇文章将向你详细说明Blast结果的数据结构,供参考。这里的指的是blast默认的结果,也是我们应用最多的结果。

3.14.1. 结果文件的结构

一个BLAST的结果文件,大致结构如下:
每个blast结果文件都以固定的header开头,里面包含了BLAST程序名称,版本与Reference信息。接下来包含一个或多个Query,每个query包含以下内容:
Query information
Sequences producing significant alignments
Subjects
Query information是对一个query 序列的基本信息描述,Sequences producing significant alignments是对所有subjects的简要list。每个subjects是query序列在数据库中比对上的一条序列。 继续阅读

Genbank序列格式Locus行的详细定义

NCBI Genbank序列格式,Locus行的详细定义,供解释与生成genbank格式参考。

The detailed format for the LOCUS line format is as follows:

Positions  Contents
---------  --------
01-05      'LOCUS'
06-12      spaces
13-28      Locus name
29-29      space
30-40      Length of sequence, right-justified
41-41      space
42-43      bp
44-44      space
45-47      spaces, ss- (single-stranded), ds- (double-stranded), or
           ms- (mixed-stranded)
48-53      NA, DNA, RNA, tRNA (transfer RNA), rRNA (ribosomal RNA),
           mRNA (messenger RNA), uRNA (small nuclear RNA), snRNA,
           snoRNA. Left justified.
54-55      space
56-63      'linear' followed by two spaces, or 'circular'
64-64      space
65-67      The division code (see Section 3.3)
68-68      space
69-79      Date, in the form dd-MMM-yyyy (e.g., 15-MAR-1991)