GSEA
基因富集分析是在一组基因中找到具有一定基因功能特征和生物过程的基因集,在研究差异表达基因、筛选基因的后续分析中经常使用。常规富集分析必须先做差异筛选,用筛选的基因(无论多少)进行功能富集,这种方式可能由于筛选参数的不合理导致漏掉一些关键信息。
而GSEA无需做差异分析,直接拿所有基因的表达量即可找到实验组和对照组有一致性差异的感兴趣的通路。好处就是,不经筛差异可以保留了这些关键信息,进而找到那些差异不很明显但是基因差异趋势很一致的功能基因集。
一、MSigDB与GSEA简介
GSEA与传统GO、KEGG富集分析的区别在于以下3点
1.输入文件:GSEA是表达矩阵,传统的富集分析是基因名列表;
2.差异分析:GSEA不需要进行差异分;
3.目的:传统的富集分析主要关注的差异显著基因的功能,GSEA关注的是某个生物状态下功能基因集的变化。
而MSigDB数据库作为专门为GSEA分析收集整理的功能基因集,全部储存在gmt格式的文件中,它可以直接用于GSEA分析。
二、GSEA输入文件的制作
GSEA软件需通过其官网进行下载安装,这里不再赘述。
GSEA官网:
我们来看看GSEA输入文件是如何制作的,GSEA分析需要输入预定义基因集文件(.gmt)、表达矩阵文件(.gct)、表型信息文件(.cls)。
预定义基因文件可以在官网下载,我们也可以制作自定义的gmt格式基因集,按照格式在Excel中按要求制作好后,将后缀改成.gmt即可。
表达矩阵文件制作,我们可以按照要求在excel制作后,保存文制表符分隔文件,再将后缀改为.gct。
表型信息文件的制作,cls格式文件定义了表型标签(分类、分组等信息),为gmt文件中的每一个样本设定了一个标签,使用空格或tab分隔。
可使用excel制作该文件,保存为制表符分隔的文本文件,然后修改后缀名为.cls即可。
cls内容的主要区别在于分类和连续型标签定义的不同。
三、GSEA分析结果解读
在制作好文件后,下一步需要将数据导入到GSEA进行分析,具体操作按照课程流程进行,我们将注意力集中在GSEA分析结果解读上。
在GSEA分析完成后,结果会保存在先前设置到的文件夹中,打开index.html就可以查看网页版结果。
通过网页展示的结果,我们就可以具体分析数据,而且可以看到详细的富集分析结果,包括网页形式以及Excel形式。
更多具体分析结果解读请在资源内查看。
四、领取方式
后台私信回复“GSEA”免费领取资源课程