机器学习和数据挖掘有什么联系?二者有什么区别?
机器学习和数据挖掘的联系和区别如下:
联系:
机器学习为数据挖掘提供解决实际问题的方法,数据挖掘中算法的成功应用,说明了机器学习对算法的研究具有实际运用价值。
区别:
绝大多数数据挖掘技术都来自机器学习领域,但机器学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行改造,使得算法性能和空间占用达到实用的地步。同时,数据挖掘还有自身独特的内容,即关联分析。
数据挖掘是指从大量数据中挖掘出有价值的潜藏规律和知识。数据挖掘渴望完整而真实的原始数据,去噪和样本平衡很重要。实施过程涉及机器学习、模式识别、统计学、分布式存储、分布式计算、可视化等,还需要掌握领域专业知识。
机器学习是从数据中获取经验进而改善系统性能的一类重要方法,“学习”的意义就是求解最逼近真相的经验,理论基础主要是统计学。
机器学习的历史发展:
机器学习实际上已经存在了几十年或者也可以认为存在了几个世纪。追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成了机器学习广泛使用的工具和基础。1950年到2000年初,机器学习有了很大的进展。
20世纪50年代中叶到60年代中叶,主要通过对机器的环境及其相应性能参数的改变来检测系统所反馈的数据,就好比给系统一个程序,通过改变它们的自由空间作用,系统将会受到程序的影响而改变自身的组织,最后这个系统将会选择一个最优的环境生存。
20世纪70年代中叶到80年代中叶,称为复兴时期。在此期间,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和学习方法,且在本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功。
深度学习和机器学习的区别
为了搞清三者关系,我们来看一张图:
如图所示:人工智能最大,此概念也最先问世;然后是机器学习,出现的稍晚;最后才是深度学习。
从低潮到繁荣
自从 1956 年计算机科学家们在达特茅斯会议(Dartmouth Conferences)上确认人工智能这个术语以来,人们就不乏关于人工智能奇思妙想,研究人员也在不遗余力地研究。在此后的几十年间,人工智能先是被捧为人类文明光明未来的钥匙,后又被当作过于自大的异想天开而抛弃。
但是在过去几年中,人工智能出现了爆炸式的发展,尤其是 2015 年之后。大部分原因,要归功于图形处理器(GPU)的广泛应用,使得并行处理更快、更便宜、更强大。另外,人工智能的发展还得益于几乎无限的存储空间和海量数据的出现(大数据运动):图像、文本、交易数据、地图数据,应有尽有。
下面我们从发展的历程中来一一展开对人工智能、机器学习和深度学习的深度学习。
人工智能人工智能先驱们在达特茅斯开会时,心中的梦想是希望通过当时新兴的计算机,打造拥有相当于人类智能的复杂机器。这就是我们所说的“通用人工智能”(General AI)概念,拥有人类五感(甚至更多)、推理能力以及人类思维方式的神奇机器。在**中我们已经看过无数这样的机器人,对人类友好的 C-3PO,以及人类的敌人终结者。通用人工智能机器至今只存在 于**和科幻小说里,理由很简单:我们还实现不了,至少目前为止。
我们力所能及的,算是“弱人工智能”(Narrow AI):执行特定任务的水平与人类相当,甚至超越人类的技术。现实中有很多弱人工智能的例子。这些技术有人类智能的一面。但是它们是如何做到的?智能来自哪里?这就涉及到下一个同心圆:机器学习。
机器学习
机器学习是实现人工智能的一种方法。机器学习的概念来自早期的人工智能研究者,已经研究出的算法包括决策树学习、归纳逻辑编程、增强学习和贝叶斯网络等。简单来说,机器学习就是使用算法分析数据,从中学习并做出推断或预测。与传统的使用特定指令集手写软件不同,我们使用大量数据和算法来“训练”机器,由此带来机器学习如何完成任务。
许多年来,计算机视觉一直是机器学习最佳的领用领域之一,尽管还需要大量的手动编码才能完成任务。研究者会手动编写一些分类器(classifier),如边缘检测筛选器,帮助程序辨别物体的边界;图形检测分类器,判断物体是否有八个面;以及识别“S-T-O-P”的分类器。在这些手动编写的分类器的基础上,他们再开发用于理解图像的算法,并学习如何判断是否有停止标志。
但是由于计算机视觉和图像检测技术的滞后,经常容易出错。
深度学习
深度学习是实现机器学习的一种技术。早期机器学习研究者中还开发了一种叫人工神经网络的算法,但是发明之后数十年都默默无闻。神经网络是受人类大脑的启发而来的:神经元之间的相互连接关系。但是,人类大脑中的神经元可以与特定范围内的任意神经元连接,而人工神经网络中数据传播要经历不同的层,传播方向也不同。
举个例子,你可以将一张切分为小块,然后输入到神经网络的第一层中。在第一层中做初步计算,然后神经元将数据传至第二层。由第二层神经元执行任务,依次类推,直到最后一层,然后输出最终的结果。
每个神经元都会给其输入指定一个权重:相对于执行的任务该神经元的正确和错误程度。最终的输出由这些权重共同决定。因此,我们再来看看上面提到的停止标志示例。一张停止标志图像的属性,被一一细分,然后被神经元“检查”:形状、颜色、字符、标志大小和是否运动。神经网络的任务是判断这是否是一个停止标志。它将给出一个“概率向量”(probability vector),这其实是基于权重做出的猜测结果。在本文的示例中,系统可能会有 86% 的把握认定图像是一个停止标志,7% 的把握认为是一个限速标志,等等。网络架构然后会告知神经网络其判断是否正确。
不过,问题在于即使是最基础的神经网络也要耗费巨大的计算资源,因此当时不算是一个可行的方法。不过,以多伦多大学 Geoffrey Hinton 教授为首的一小批狂热研究者们坚持采用这种方法,最终让超级计算机能够并行执行该算法,并证明该算法的作用。如果我们回到停止标志那个例子,很有可能神经网络受训练的影响,会经常给出错误的答案。这说明还需要不断的训练。它需要成千上万张,甚至数百万张来训练,直到神经元输入的权重调整到非常精确,几乎每次都能够给出正确答案。不过值得庆幸的是Facebook 利用神经网络记住了你母亲的面孔;吴恩达 2012 年在谷歌实现了可以识别猫的神经网络。
如今,在某些情况下,通过深度学习训练过的机器在图像识别上表现优于人类,这包括找猫、识别血液中的癌症迹象等。谷歌的 AlphaGo 学会了围棋,并为比赛进行了大量的训练:不断的和自己比赛。
总结
人工智能的根本在于智能,而机器学习则是部署支持人工智能的计算方法。简单的将,人工智能是科学,机器学习是让机器变得更加智能的算法,机器学习在某种程度上成就了人工智能。
本文作者 Michael Copeland 曾是 WIRED 编辑,现在是硅谷知名投资机构 Andreessen Horowitz 的合伙人。
深度学习和机器学习的区别如下:
1、数据量
机器学习能够适应各种数据量,特别是数据量较小的场景。在另一方面,如果数据量迅速增加,那么深度学习的效果将更为突出。下图展示了不同数据量下机器学习与深度学习的效能水平。
2、硬件依赖性
与传统机器学习算法相反,深度学习算法在设计上高度依赖于高端设备。深度学习算法需要执行大量矩阵乘法运算,因此需要充足的硬件资源作为支持。
3、特征工程
特征工程是将特定领域知识放入指定特征的过程,旨在减少数据复杂性水平并生成可用于学习算法的模式。
4、问题解决方法
传统机器学习算法遵循标准程序以解决问题。它将问题拆分成数个部分,对其进行分别解决,而后再将结果结合起来以获得所需的答案。深度学习则以集中方式解决问题,而无需进行问题拆分。
5、执行时间
执行时间是指训练算法所需要的时间量。深度学习需要大量时间进行训练,因为其中包含更多参数,因此训练的时间投入也更为可观。相对而言,机器学习算法的执行时间则相对较短。
6、可解释性
可解释性是机器学习与深度学习算法间的主要区别之一——深度学习算法往往不具备可解释性。也正因为如此,业界在使用深度学习之前总会再三考量。
鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com
图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!