百科狗-知识改变命运!
--

统计分析中的各种A

是丫丫呀1年前 (2023-12-21)阅读数 6#综合百科
文章标签多维距离

在microbiome analysis中,有着大量的A,诸如PCA,PCoA,RDA,CCA,ICA之类的,网上介绍每一种的文章都十分的多,但是将它们放在一起比较并且讲得比较明白的文章却比较少,而且其中哪一些区别有一些比较显著性的差异,甚至有一些在了解的人看来比较愚蠢的回答,例如MDS的解释成分是多少之类的?

那么在这里着重和大家一起来介绍一下。先是各个的介绍,然后才是进行比较,以及提及一些重点,在每个的介绍中也会提到这些差异点。

大部分的A都围绕着一个点,也就是 降维

PCA大概是其中最为常见的一种,由于其较为简单的原理以及与降维前的数据关联性比较好,所以应用的范围也是十分的广泛,但是由于其过于简单的假设,也导致了在许多实际应用中的 降维效果 受到了限制。

从大的原则上我们已经把PCA讲完,细节上的数学实现,我们这里不加赘述,可以查看一下参考中的文章 PCA的数学原理 ,大体上都是线性代数里的各种矩阵的运算。

最好能够理解数学中的原理,才能够与其他的A进行比较。以下挑出一些比较重要的特点的本质描述(与数学较为密切)。

PCoA也是一个十分有趣的东西,由于其名字与PCA的类似性,导致也有很多人混淆。而且它还有一个别名即, CMDS(Classical multidimensional scaling) ,注意,不是MDS(MDS分两种,Metric和Non-Metric,PCoA算是Metric里面的一个子类)。这里简单的介绍一下,希望不再混淆。

在CMDS中,大多数时候使用欧几里得距离,并且由于欧几里得距离进行推导出下列过程。

大致上和PCoA的一个原则是一样的,但是由于是应用于非欧式距离矩阵的,所以不满足Classical MDS中的假设,所以只能通过解决一个 最优化问题 去求解。

即通过求解一个叫Strees的偏离度来求解投影后的点的坐标。

一般来说,Metric MDS会要求使用者输入降维后所需要的维度,例如 sklearn 中的MDS。

为了最优化这个Stress要比较多而且繁复的高数内容,这里不加讲解。有兴趣的可以看

MDS的数值优化方法

也叫RA(reciprocal averaging)由于CA、PCA、PCoA都属于利用eigenvalues的ordination方法,所以也就放在一起讲,像MDS的另外一种NMDS,也就放在后面再来加以描述。

CA是一种类似于PCA的方法,但是其更多的用于 类型变量的数据 而不是连续变量的数据,本质上是为了从整体上探索两组变量之间的关系。即在两组变量中,寻找若干个具有代表性的变量的线性组合,用这些线性组合的相关关系来表示两组变量间的相关关系。

直白的说,就是将 行的编号以及列的编号 在一个二维坐标轴中做出相应的点,可以看到行编号以及列编号对应的距离关系来看行之间,列之间,行与列之间的关系,距离越近,关系越密切,同时根据特征值,来判断某个点对整个数据的贡献情况。

基本步骤:

其中各样本的排序值即在投影上的坐标,各特征也有一个排序值,所以在投影上也有坐标。

统计分析中的各种A

缺点:

就是CA/RA的第二排序轴在许多情况下是第一轴的二次变形,即所谓的“弓形效应”(Arch effect)或者“马蹄形效应”(horse—shoe effect)

由于是为了去除CA第二轴产生的弓形效应的影响,所以其大体和CA是一致的。

仅仅在求第二轴的坐标值时,采用一个将第一轴分成一系列区间,在每个区间内将平均数定为零,从而消除了弓形效应。

弓形效应如下图的X的点的形状。

即在求第二轴时,不需要进行正交化,取而代之的是除趋势。即将第一轴分成数个区间,在每一区间内对 第二轴的排序值分别进行中心化 。用经过除趋势处理的样本的排序值,再进行加权平均求新的特征排序值。后跟第一轴的求法一样,不断的 迭代

Canonical也是一个十分常见的修饰词,也存在CPCA,CCA。其中CPCA即PCA与多元回归的一个结合,即在PCA分析中的每一步都与环境变量进行多元回归,再将回归得到的系数结合到下一步的计算中。( 这句话也是十分奇怪。。。但是由于CPCA的内容十分少,无法考证。

而CCA则是把CA/RA和多元回归结合起来,每一步计算结果都与环境因子进行回归。即在 每次得到样本的排序值时 ,将其余样本对应的解释变量的表格进行多元线性回归。

基本步骤为:

得到的图大概就是类似于CA的结果。

类似于envfit(vegan)

RDA在现在的生信分析中也不是十分的多见。也许是由于其可以算的上是一种特别的PCA(constrained Version),所以其原理上也十分的类似。这里也简单的介绍一下。

RDA主要做的事情是在响应变量中提取出一些能 被解释变量解释 的变量,(can be explained == linear relationships with)

RDA之所以被认为是constrained version of PCA,是因为投影的坐标轴,一方面是由响应变量线性组合而成,但又必须是解释变量的线性组合(通过多重线性回归来拟合)。

RDA的基本步骤

由于RDA的原理讲解也是比较少,那么直接从结果解读来揭示更多的信息。

以上的图就是一个典型的RDA的结果,其中红色的箭头是解释变量(例如说PH、BMI之类的)的一个特征,其长度表示该特征与样本分布间相关程度的大小,连线越长,相关性越大,反之越小。箭头连线和排序轴的夹角以及箭头连线之间的夹角表示相关性,锐角表示成正相关关系。蓝色的点为原始数据降维后的投影(这个投影与PCA的结果是相近的)。

RDA 或者CCA是基于对应分析发展而来的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与 环境因子 进行回归,又称多元直接梯度分析(Multivariate direct gradient analysis )。此分析是主要用来反映菌群与环境因子之间关系。RDA是基于线性模型,CCA 是基于单峰模型。

RDA 或CCA 模型的选择原则:先用species-sample 数据(97%相似性的样品OTU 表)做DCA 分析,看分析结果中 Lengths of gradient 的第一轴的大小 ,如果大于4.0,就应该选CCA,如果3.0-4.0 之间,选RDA 和CCA均可,如果小于3.0,RDA 的结果要好于CCA。参考自: 非文献,慎用。

对于metric MDS而言,一般是使cost function最小化,也就是叫Stress的(residual sum of squares)。简单地说就是距离矩阵的距离减去投影后的欧式距离的平方和的开平方。但是对于很多的距离矩阵来说,你使用一个欧氏距离的公式(即使是 应用在投影后的距离 上),是十分难以衡量原来距离矩阵的差异的。

而非度量的MDS就是使用了一个不一样的Stress,先对 距离矩阵进行一个变换 (这个变换多种多样),然后再与投影后的欧氏距离进行差值的平方和再开平方。这个变换仅仅保持距离矩阵中的大小关系,而忽略其数值大小的差异,即为单调函数。所以在不同的尺度上会有不同的大小。

基本的步骤为

属于RDA的拓展,也就是当响应变量属于距离矩阵的时候,那么就应该先用PCoA的来进行一次投影,从而得到一个新的坐标数据。后面的过程即将这个坐标数据当做RDA中接受的响应变量,进行一次RDA的分析,得到一个新的坐标轴以及箭头之类的。

其实讲到上面那里应该就已经把大部分的A都讲完了,当然还有一些拓展的例如dbRDA、ICA、DCA这些其实都还算是上面的一部分,但如果硬要这么说的话,其实上述的A们都应该用一个共同的名字去描述,即Ordination analysis,中文大概叫排序分析(我个人是不喜欢这个名字的...)。所以一般用Ordination称呼就好。

而且还有一些A是不属于Ordination,例如LDA,属于机器学习的范畴。剩下的那些也就不加赘述。

大致就这样的。

至于上面各种A之间的比较用图进行阐释。

其中MDS与环境因子的关联同样的可以用多元线性回归进行解决(虽然也是感觉十分的奇怪,仅仅为了通过投影后的坐标关联出的环境因子的结果。)R包:Vegan:envfit。

PCA的数学原理

Multidimensional scaling

http://www.stat.pitt.edu/sungkyu/course/2221Fall13/lec8_mds_combined.pdf

https://stats.stackexchange.com/questions/68680/how-to-interpret-variation-explained-by-principal-coordinates

MDS的数值优化方法

RDA

GUide to STatistical Analysis in Microbial Ecology (GUSTA ME)

CCA

多维标度分析的古典解法是主成分分析的扩展

多维标度法是一类多元统计分析方法的总称,它包含各种各样的模型和手段,其目的是通过多种途径把多维的研究对象转化成低维情形进行研究。具体地说多维标度法它是以多维研究对象之间某种亲近关系为依据(如距离、相似系数、亲疏程度等),从它们所给出的信息出发合理地将几个多维研究对象在近似的定义下。

从多维约简到一个较低维的空间内,并寻求一个最佳的空间维数和空间位置(如二维和三维),从而尽可能的揭示原始研究对象的真实结构关系。

适用情况

多维标度法解决的问题是:当N个对象(Object)中各对对象之间的相似性(或距离)给定时,确定这些对象在低维空间中的表示(感知图,Perceptual Mapping),并使其尽可能与原先的相似性(或距离)“大体匹配”,使得由降维

引起的任何变形达到最小。多维空间中排列的每一个点代表一个对象,因此点间的距离与对象间的相似性高度相关。也就是说,两个相似的对象由多维空间中两个距离相近的点表示,而两个不相似的对象则由多维空间中两个距离较远的点表示。多维空间通常为二维或三维的欧几里得空间,但也可以是非欧几里得三维以上空间。

多维标度法内容丰富、方法较多。按相似性(距离)数据测量尺度的不同,MDS可分为:度量MDS和非度量MDS。当原始相似性(距离)的实际数值为间隔尺度和比率尺度时称为度量MDS(Metric MDS);当原始相似性(距离)

为等级顺序(即有序尺度)而非实际数值时称为非度量MDS(Nonmetric,MDS)。按相似性(距离)矩阵的个数和MDS模型的性质,MDS可分为:古典多维标度(CMDS)(一个矩阵,无权重模型)、重复多维标度(Replicated MDS)

(几个矩阵,无权重模型)、权重多维标度(WMDS)(几个矩阵,权重模型)。

鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com

免责声明:我们致力于保护作者版权,注重分享,当前被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱:344225443@qq.com)

图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)