platform:在GEO数据库中搜索看看是否在芯片数据预处理中有一致的
分组信息:pData.csv文件中找到分组信息
差异基因分析:上传RData文件
1 GEO数据检索
1.1搜索基因云馆分析平台 ,登录系统(或注册后登录),见PIC.1
1.2进入操作页面,检索数据GSE75037,见PIC.2
GSE75037检索结果是这样的,见PIC.3
2 芯片数据预处理
2.1进入数据预处理界面,做好准备工作,比如在GEO官网里查找GSE75037的数据信息:Platforms (1): GPL6884 Illumina HumanWG-6 v3.0 expression beadchip;在基因云馆平台上的芯片数据预处理中的Platform下拉框里面有对应的平台号,说明该数据可以在这个平台上自主分析,详情见PIC.4。
2.2找分组信息 找对分组信息是关键,打开第一步GEO数据检索结果里面的GSE75037_GPL6884pData.csv文件,见图PIC.5。很明显I列信息就是要找的分组信息,列名称source_name_ch1就是芯片数据预处理的groupName,另外,可以看出该数据只有两个分组,即Non-malignant lung和Lung cancer。
2.3芯片数据预处理,具体操作步骤见PIC.6。只要检索数据在平台上有对应的Platform,芯片数据预处理时Platform不用再单独选择(不用做任何处理)。
芯片数据预处理后,结果是这样的,见 PIC.7
3差异基因分析差异基因分析,上传上部结果里面的GSE75037_GPL6884RData文件,具体操作见PIC.8,colselect栏自动默认“groups”,control栏选好对照组,genenamesets栏有目的基因就填上,logFC和pvalue可以适当的调节。
结果是这样的,见PIC.9和PIC.10
分组信息:这是关键,经常出错在找这里,填不对Groupname
platform:一定要在基因云馆平台上有,才可以分析数据
差异分析:上传的是RData文件,不是PDAta.csv