pathview是一个通路可视化友好的R包,最主要的是它支持多组学数据映射(基因/蛋白-代谢)。自己用过它的R包,后来发现有网页版的,果断介绍给学员。因为不常用,记录要点,以后温习备用。
目前web版本和R包访问和应用次数如下,显然R群体用户占主导。Web界面是在PHP上使用Laravel Framework和R构建的。地址:https://pathview.uncc.edu/
使用时可以游客快速访问,不过注册的话会保留一段时间分析的结果。
工具使用的帮助文档详见:https://pathview.uncc.edu/tutorial#input,包括了示例说明,输入输出参数,结果说明。
New Analysis是我们要导入分析的数据,并设置的一些参数。怎么使用呢?或者说有哪些功能呢?它提供了example1-example4的4个案例,了解了这四种分析,后续我们只要依葫芦画瓢设置一下就OK了。下面我们先看下示例1.
多样本KEGG可视化。第一个选项,输入输出在这个demo数据中,基因有3个样本,代谢组有2个样本:
然后是物种、ID类型选择,支持的物种和ID类型很多。Pathway如果没有指定的,就选择自动。
第二个选项Graphics,即图形参数。没有特殊需求的话默认就好,不懂点击图中小图标。
第三个选项是颜色的选择。这个也是按需更改。
最后点击submit,出现运行输入配置参数和进度。完成后点击Analysis Results and logs。
结果如下。内容包括了关联上的通路图,pathway富集的结果文件,以及运行的日志文件。
随便点一个图查看下:
映射上的分子都标颜色了,基因三个样本,不同颜色不同丰度(经过归一化);代谢2个样本,即2种颜色,顺序应该是按tab中样本先后顺序来的。
combo.res.sig.tsv是个什么文件,帮助文档里好像没有解释。我的理解是两个组学combine做的富集分析结果,重点看p值和q值。
gaga.res.sig.gene.tsv也没有解释,对于文件中的每一列不是很懂。但知道GAGA是FCS的一种富集分析方法,重点看p值和q值。
只是不明白,结果中图只有6个,为何两个富集分析结果中有这么多通路。
示例2是多个样本的Graphviz视图。和示例1的分析几乎是一样的,只是图形不同。Graphviz图是通过使用Graphviz引擎对pathway图进行布局,可以更好地控制节点或边缘属性和pathway拓扑,更重要的是可以保存为PDF格式的矢量图像(KEGG pathway视图只有png,不清晰)。
打开其中一个图,可以看到Graphviz简化了很多。
示例3是ID映射,这是最常用的功能吧。
demo数据中是单个样本的丰度,基因ID变成了Ensemble,化合物ID来自CAS。
基因数据:
代谢组数据:
得到的结果就只有映射的图片了,没有富集的结果。
查看下图片:
整合Pathway分析,要花费更长的时间。分析方法和上三个示例是一样的,只是默认的参数Pahtway Selection为“Auto”(其他三例为Manual)。
另外,和示例1相比就是demo数据的样本数增加了。
基因示例数据如下:
代谢组数据如下:
结果如下:
图形如下:
帮助文档中没说明以上数据是否重复。我查了下这6个图,基因都是1-3色,化合物都是1-2色,所以我推测基因是三个样,每个2重复,代谢两个样,每个2重复。
关于结果数据,和示例1比,除了combo.res.sig.tsv和gage.res.sig.gene.tsv外,还多了一个gage.res.sig.cpd.tsv文件,格式和gene的是一样的,如下:
所以,除了我上面讲的,示例1和示例4到底有什么区别???谁来告诉我。
文档解释:Since both gene and compound data (inputs) are included, this example goes beyond in that in integrates the two separate regular pathway analysis for gene and compound (intermediate results) into a more powerful meta-analysis (final results)。可是大哥,你的示例1也是整合了两个组学啊
经检查,示例2和示例4是可以设置重复的。点击下面这个铅笔:
我们自己数据导入时,也会弹出窗口提醒我们是否进行分组,设置的方式参考示例2和示例4(指明列数)。
对于New Analysis来说没啥区别,只是说明了两种不同的输入方式作为参考,如不同数据和分组信息,在Pathway Selection选择了Auto。自己输一次就知道了。
输入时,可以选择单组学或多组学:
手机扫一扫
移动阅读更方便
你可能感兴趣的文章