【Pathview web】通路映射可视化
阅读原文时间:2023年07月11日阅读:1

pathview是一个通路可视化友好的R包,最主要的是它支持多组学数据映射(基因/蛋白-代谢)。自己用过它的R包,后来发现有网页版的,果断介绍给学员。因为不常用,记录要点,以后温习备用。

目前web版本和R包访问和应用次数如下,显然R群体用户占主导。Web界面是在PHP上使用Laravel Framework和R构建的。地址:https://pathview.uncc.edu/

使用时可以游客快速访问,不过注册的话会保留一段时间分析的结果。

工具使用的帮助文档详见:https://pathview.uncc.edu/tutorial#input,包括了示例说明,输入输出参数,结果说明。

New Analysis是我们要导入分析的数据,并设置的一些参数。怎么使用呢?或者说有哪些功能呢?它提供了example1-example4的4个案例,了解了这四种分析,后续我们只要依葫芦画瓢设置一下就OK了。下面我们先看下示例1.

多样本KEGG可视化。第一个选项,输入输出在这个demo数据中,基因有3个样本,代谢组有2个样本:

然后是物种、ID类型选择,支持的物种和ID类型很多。Pathway如果没有指定的,就选择自动。

第二个选项Graphics,即图形参数。没有特殊需求的话默认就好,不懂点击图中小图标。

第三个选项是颜色的选择。这个也是按需更改。

最后点击submit,出现运行输入配置参数和进度。完成后点击Analysis Results and logs。

结果如下。内容包括了关联上的通路图,pathway富集的结果文件,以及运行的日志文件。

随便点一个图查看下:

映射上的分子都标颜色了,基因三个样本,不同颜色不同丰度(经过归一化);代谢2个样本,即2种颜色,顺序应该是按tab中样本先后顺序来的。

combo.res.sig.tsv是个什么文件,帮助文档里好像没有解释。我的理解是两个组学combine做的富集分析结果,重点看p值和q值。

gaga.res.sig.gene.tsv也没有解释,对于文件中的每一列不是很懂。但知道GAGA是FCS的一种富集分析方法,重点看p值和q值。

只是不明白,结果中图只有6个,为何两个富集分析结果中有这么多通路。

示例2是多个样本的Graphviz视图。和示例1的分析几乎是一样的,只是图形不同。Graphviz图是通过使用Graphviz引擎对pathway图进行布局,可以更好地控制节点或边缘属性和pathway拓扑,更重要的是可以保存为PDF格式的矢量图像(KEGG pathway视图只有png,不清晰)。

打开其中一个图,可以看到Graphviz简化了很多。

示例3是ID映射,这是最常用的功能吧。

demo数据中是单个样本的丰度,基因ID变成了Ensemble,化合物ID来自CAS。

基因数据:

代谢组数据:

得到的结果就只有映射的图片了,没有富集的结果。

查看下图片:

整合Pathway分析,要花费更长的时间。分析方法和上三个示例是一样的,只是默认的参数Pahtway Selection为“Auto”(其他三例为Manual)。

另外,和示例1相比就是demo数据的样本数增加了。

基因示例数据如下:

代谢组数据如下:

结果如下:

图形如下:

帮助文档中没说明以上数据是否重复。我查了下这6个图,基因都是1-3色,化合物都是1-2色,所以我推测基因是三个样,每个2重复,代谢两个样,每个2重复。

关于结果数据,和示例1比,除了combo.res.sig.tsv和gage.res.sig.gene.tsv外,还多了一个gage.res.sig.cpd.tsv文件,格式和gene的是一样的,如下:

所以,除了我上面讲的,示例1和示例4到底有什么区别???谁来告诉我。

文档解释:Since both gene and compound data (inputs) are included, this example goes beyond in that in integrates the two separate regular pathway analysis for gene and compound (intermediate results) into a more powerful meta-analysis (final results)。可是大哥,你的示例1也是整合了两个组学啊


1.样本重复问题

经检查,示例2和示例4是可以设置重复的。点击下面这个铅笔:

我们自己数据导入时,也会弹出窗口提醒我们是否进行分组,设置的方式参考示例2和示例4(指明列数)。

2.示例1和4的区别

对于New Analysis来说没啥区别,只是说明了两种不同的输入方式作为参考,如不同数据和分组信息,在Pathway Selection选择了Auto。自己输一次就知道了。

3.组学选择

输入时,可以选择单组学或多组学: