多语言展示
当前在线:1945今日阅读:19今日分享:20

如何从NCBI导出GBFF和FASTA格式序列

NCBI是生物信息常用的网站之一,下面就以大肠杆菌甘油醛-3-磷酸脱氢酶基因为例,简单介绍一下如何从NCBI导出GBFF和FASTA格式序列。
工具/原料

NCBI网站

方法/步骤
1

打开NCBI网站,可以通过搜索引擎搜索NCBI或者直接输入网址打开。NCBI网址为:http://www.ncbi.nlm.nih.gov/

2

进入NCBI主页,选择Nucleotide数据库

3

在Nucleotide数据库的检索框中输入甘油醛-3-磷酸脱氢酶基因的基因名(GAPDH)或者基因的GenBank号:X02662.1。点击搜索。在右边Top Organisms中选择物种来源,点More可以显示更多隐藏选项

4

选择所需要的物种信息

5

GenBank会根据设定的检索条件得出相应结果,选择所需要的序列

6

点击相应序列打开详序列的细信息,默认为GBFF(GenBank Flat File)格式文件。主要包括以下三部分组成:第一部分:描述符,其中包含了关于整个记录的信息;第二部分:特征表,包含了注释这一记录的特性;第三部分:核酸序列本身;在最后一行以“// ”结尾

7

在这里也可以选择FASTA格式。FASTA格式又称Pearson 格式特点:最常用、最简单的序列注释格式 命名规则:    1、以大于号“>'起始     2、 标题行(a single-line description) 位于文件的第一行    3、 序列行随后,序列行中不允许有空间,每行文字不超 过80个字符    4、组成序列信息字符串的符号应为IUB/IUPAC(International Union Of Pure And Applied Chemistry)核苷酸或氨基酸的符号    5、核苷酸字符大小写均可,氨基酸字符应大写    6、'-'单个连字符表示一个空位 “gap”    7、序列中不允许有数字、不明确的核苷酸用N表示,氨基酸用X表示    8、 氨基酸序列中“*”表示终止

8

导出序列时点击Send to

9

在弹出的窗口选择文件单选按钮

10

在下拉框中选择你需要的文件格式

11

点击创建文件即可开始下载,下载后的文件可以通过任意文本编辑软件打开。由于NCBI上的文件采用的是Unix/Linux文本格式,而Unix系统里,每行结尾只有“<换行>”,即“\n”;但Windows系统里面,每行结尾是“<换行><回车>”,即“\n\r”,在用记事本等软件打开时每行结尾有一个黑方框,这里只需用兼容Unix/Linux文本格式的编辑器打开即可

注意事项
1

导出文件时只要文件不是太大,最好不要用迅雷等下载工具下载

2

由于GenBank号对每个基因是唯一的,检索基因时如果知道GenBank号,通过GenBank号检索是最快捷有效的方法

推荐信息