神经网络和深度神经网络的区别
网络结构。深度学习中的深度神经网络(如卷积神经网络,CNN)和传统神经网络相比,一个重要的区别是前者具有更深的网络结构。传统神经网络通常只有输入层、隐藏层和输出层,而深度神经网络在此基础上增加了更多的隐藏层,从而可以以任意精度逼近任意连续函数及平方可积函数,并精确实现任意有限训练样本集。
dnn 的泛化能力如何理解
聚类是数据分析的一项基本任务。近年来,从深度学习方法中获得灵感的深度聚类获得了最先进的性能,并引起了广泛的关注。目前的深度聚类方法通常利用深度学习强大的表示能力来提高聚类结果,例如autoencoder,这表明学习一种有效的聚类表示是一个至关重要的要求。深度聚类方法的优点是从数据本身中提取有用的表示,而不是从数据的结构中提取有用的表示,这在表示学习中很少受到关注。基于图卷积网络(GCN)在图结构编码方面取得的巨大成功,我们提出了一种结构化深度聚类网络(SDCN),将 结构信息 整合到深度聚类中。具体来说,我们设计了一个 传递算子 ,将自动编码器学习到的表示转换到相应的GCN层,并设计了一个 双自监督机制 来统一这两种不同的深层神经结构,引导整个模型的更新。通过这种方式, 从低阶到高阶的多种数据结构自然地与自动编码器学习到的多种表示相结合 。此外,我们从理论上分析了传递算子,即通过传递算子,GCN将自编码器特有的表示改进为高阶图正则化约束,而自编码器有助于缓解GCN中的过平滑问题。通过全面的实验,我们证明我们所提出的模型可以始终比最先进的技术表现得更好。
论文关注点:在DEC的单视图深度聚类的模型中扩展了关于结构信息的捕获,并使用GCN结构来捕获。在相比于GAE的结构,关于GCN的部分并没有采用临接矩阵的重建来进行监督,而是在此基础上利用聚类的目标分布信息 构造了另外的 结构分布 ,以量化结构信息的监督。
图注: 和 分别是输入数据和重建数据。 和 分别是DNN和GCN模块第 层的输出。不同的颜色代表从DNN中学习到的不同的表征 。蓝色实线表示目标分布 是由分布 计算出来的,两条红色虚线表示双重自我监督机制。目标分布 同时指导DNN模块和GCN模块的更新。
总述:首先根据原始数据构造一个KNN图。然后将原始数据 和KNN图 分别 输入到AE和GCN中。作者将AE的每一层与相应的GCN层连接起来,这样就可以通过 传递操作符 将特定于AE的表示集成到结构感知的表示中。同时,提出了一种双重自我监督机制来监督AE和GCN的训练过程。
b:一般情况下在介绍AE结构时所说的层数,指的是出去输入层和重建层之外的,第一个隐藏层到Code层的层数
DNN模块采用的是具有 层的基础AE结构,这里将不进行赘述。
step-:获得第 层的卷积操作输出结果
对于每一层的结果的卷积操作是与图神经一致的,但是在输出的构造上,作者连接了DNN模块对应层的表示形式(will be propagated through the normailized adjacency matrix),如图中选择了平衡因子来组合来自DNN和GCN的信息。
step-:但对于第一层的输出只保留了来自原始 。
step-:在关于结构信息分布的构造上,则是采用了多分类的softmax层获取。
结果 表示概率样本 属于聚类中心 ,我们可以将 视为概率分布。
目标函数优点:
(1)与传统的多分类损失函数相比,KL散度以一种更加“温和”的方式更新整个模型(soft labels),防止数据表示受到严重干扰;
(2) GCN和DNN模块统一在同一个优化目标上,使其在训练过程中结果趋于一致。
因为DNN模块和GCN模块的目标是近似目标分布 ,而这两个模块之间有很强的联系,所以称其为双重自我监督机制。
论文中使用GCN+不同层AE的表达以添加结构,实验结果验证了模型的有效性,并且给出了理论支持。整体实验很完整。对于样本间关系的构造上,给出了新的思路,并且开启了关于总体样本结构的进一步探索。
关于理论支持这一块没有看,待续。。
DNN 的泛化能力较强,但是为什么强呢,其实目前也较难说清楚。只能说多看看别人怎么说,加深理解。
深度网络的本质在于找到了问题的有效描述,比如图像的生成网络,可看作其所表述的图像子空间的投影操作,这个表述能力由网络结构和网络参数来确定,其中网络结构决定了数据的复杂度和整体统计分布,网络参数决定图像局部特征。
可以理解为,训练帮助网络提取了数据子空间的有效描述,从而导致了泛化能力。
如果是考察迁移能力,则大致可以归结为不同数据或问题,其子空间的复杂度和结构有统计相似性,所以从一类数据上获得的描述也可以通过简单映射来描述另一组数据。
说一下个人对于泛化的浅薄见解。所有的问题都可以是X空间到Y空间的映射。这两个空间可以是无限的。但用来描述映射的规则是有限的。这个规则就学习的目标。对于无限的XY空间来说,无论我们有多少样本都是有限的。但假使我们碰巧得出了真实分布的规则。那么模型对于所有新的X都是有效的。得出真实的概率分布,问题越复杂,难度越大,而模型所谓的学习就是让自身表示的概率分布尽可能的逼近真实的概率分布。这就是我理解的泛化能力,用有限的规则解释无限的实体关系。至于如何去逼近真实概率分布,前面的大佬已经说的很明白了,就不赘述了。
更深层次理解: https://mp.weixin.qq.com/s/h9fX_vvyajsbKQMsJjWMEg
鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com
图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!