多语言展示
当前在线:970今日阅读:183今日分享:45

GEO数据库中某一疾病的差异基因分析(二)

教你利用基因云馆分析平台,针对数据中只有两组分组的情况在该平台上三步就完成差异分析,方便而又快捷。本节以GSE75037为例,示例如何做差异基因分析。
工具/原料
1

platform:在GEO数据库中搜索看看是否在芯片数据预处理中有一致的

2

分组信息:pData.csv文件中找到分组信息

3

差异基因分析:上传RData文件

方法/步骤
1

1 GEO数据检索

2

1.1搜索基因云馆分析平台 ,登录系统(或注册后登录),见PIC.1

3

1.2进入操作页面,检索数据GSE75037,见PIC.2

4

GSE75037检索结果是这样的,见PIC.3

5

2 芯片数据预处理

6

2.1进入数据预处理界面,做好准备工作,比如在GEO官网里查找GSE75037的数据信息:Platforms (1): GPL6884 Illumina HumanWG-6 v3.0 expression beadchip;在基因云馆平台上的芯片数据预处理中的Platform下拉框里面有对应的平台号,说明该数据可以在这个平台上自主分析,详情见PIC.4。

7

2.2找分组信息 找对分组信息是关键,打开第一步GEO数据检索结果里面的GSE75037_GPL6884pData.csv文件,见图PIC.5。很明显I列信息就是要找的分组信息,列名称source_name_ch1就是芯片数据预处理的groupName,另外,可以看出该数据只有两个分组,即Non-malignant lung和Lung cancer。

8

2.3芯片数据预处理,具体操作步骤见PIC.6。只要检索数据在平台上有对应的Platform,芯片数据预处理时Platform不用再单独选择(不用做任何处理)。

9

芯片数据预处理后,结果是这样的,见 PIC.7

10

3差异基因分析差异基因分析,上传上部结果里面的GSE75037_GPL6884RData文件,具体操作见PIC.8,colselect栏自动默认“groups”,control栏选好对照组,genenamesets栏有目的基因就填上,logFC和pvalue可以适当的调节。

11

结果是这样的,见PIC.9和PIC.10

注意事项
1

分组信息:这是关键,经常出错在找这里,填不对Groupname

2

platform:一定要在基因云馆平台上有,才可以分析数据

3

差异分析:上传的是RData文件,不是PDAta.csv

推荐信息