多语言展示
当前在线:358今日阅读:145今日分享:43

如何下载geo原始数据

首先我们需要了解高通量数据上传数据库GEO(gene expression omnibus,基因表达综合数据库),其是由NCBI建立的公共数据库。该数据库具有很强的灵活性和开放性,用户可提交、存储和检索多种形式的数据:包括基于单通道和多通道的微阵列技术实验测量得到的基因表达谱数据、基因组DNA和蛋白质分子数据、以及基于非阵列技术的基因表达序列分析(serialanalysis of gene expression,SAGE)得到的数据。我们以查询转录组数据为例,为您提供两种从GEO数据库中下载数据的途径。 第一种是仅知道研究物种和大概方向,但是没有相关数据的任何信息,需要在数据库中查找获得相关数据,具体方法为:首先,打开NCBI数据库链接http://www.ncbi.nlm.nih.gov,在搜索栏的左侧选择GEO Datasets,在搜索框中填入需要搜索的内容,例如搜索与水稻抗病相关的数据,输入rice disease,点击search, 搜索结果包含所有相关信息列表,其中大部分是利用表达谱芯片完成实验的数据,
方法/步骤
1

如果只搜索利用转录组测序完成实验的数据,也可在搜索词后面加上RNA-seq字样(rice disease RNA-seq)。如果搜索结果只有一条记录,会直接显示该条记录信息,若有很多条记录,会显示相应列表,每条记录都会直接显示文章的相应信息:1)Expression profilingby high throughput sequencing,2)9 samples。

3

点击(htp),获得文件夹,继续点击,直到看到如下页面,即可下载数据(转录组测序原始数据扩展名为.sra), 下载数据后,请牢记每个样本编号对应的文章中样本名字以及分组信息(例如GSM1229035对应的原始数据SRR976336,分组为EC1组),便于后期分析。

4

第二种方法是通过查看相关文章后,发现与自己研究相关,想要下载文章中涉及的转录组数据,具体方法如下:1)文章中一般给出数据相关链接,直接点击链接即可,可直接进入以下页面,搜索自己需要信息即可。

5

如果文章没有给数据链接,那么会给出数据提交的accession ID,例如本文的GSE50777,在GEO Datasets栏中搜索即可,会出现以下信息,

6

其中第一条记录就是前面我们搜索到的数据,从第三条记录开始就是我们文章每个样本的具体信息,可以直接点击下载。 请注意:由于测序方法不同,后期对数据提取(二进制提取碱基序列)所用程序有一定差异,所以需对相应文章进行查询(点击最早搜索记录中的pubmed即可),获取转录组测序的方式(是单端SE测序还是双端PE测序)。

推荐信息