理论教育 机器学习发展与技术:数据、算法与未来

机器学习发展与技术:数据、算法与未来

更新时间:2025-01-03 理论教育 版权反馈
【摘要】:数据决定了机器学习的上限。随着计算机技术的不断发展,大数据和云计算等技术的日益成熟为机器学习的发展带来广阔的空间和完备的技术条件。数据挖掘与分析是机器学习技术中数据存储技术与算法的结合,通过目前高效的数据存储技术进行数据的高效读写,再通过机器学习技术提供的知识发现、数据统计分析等方式分析海量数据中的有用信息。“深度学习”一词最初在1986年被引入机器学习。

数据决定了机器学习的上限。随着计算机技术的不断发展,大数据和云计算等技术的日益成熟为机器学习的发展带来广阔的空间和完备的技术条件。如今机器学习的应用范围逐渐扩大,主要有如下几种应用:

1.“数据挖掘”与“数据分析”:在机器学习领域是相似的意思,是指从大量数据中识别出有效的、特殊的、有价值的数据信息。数据挖掘与分析是机器学习技术中数据存储技术与算法的结合,通过目前高效的数据存储技术进行数据的高效读写,再通过机器学习技术提供的知识发现、数据统计分析等方式分析海量数据中的有用信息。

2.深度学习:又称为深度神经网络(指层数超过3层的神经网络),是建立深层结构模型的学习方法。“深度学习”(DL)一词最初在1986年被引入机器学习(ML)。特点是放弃了可解释性,单纯追求学习的有效性。深度学习由多个层组成,以学习具有多个抽象层次的数据特征,允许计算机通过相对简单的概念来学习复杂的概念。

深度学习有多个深度神经网络模型,如卷积神经网络和循环神经网络。前者通常应用于计算机视觉方向,给定一系列来自真实世界的图像或视频,在CNN的利用下,AI系统学会去自动提取这些输入的特征来完成一个特定的任务,如图像分类、人脸识别、图像语义分割等;后者是在神经网络中通过加入记忆反馈连接使得训练过程中的信息会传递给上层神经元,常被应用于时间性分布数据。由于其具有处理输入长度不固定的数据优势,RNN已经被广泛应用于自然语言处理。

机器学习算法可以分为三大类:监督学习、无监督学习和强化学习。

1.监督学习:可用于一个特定的数据集(训练集)具有某一属性(标签),但是其他数据没有标签或者需要预测标签的情况。

2.无监督学习:可用于给定的没有标签的数据集(数据不是预分配好的),目的就是要找出数据间的潜在关系。

3.强化学习:位于这两者之间,每次预测都有一定形式的反馈,但是没有精确的标签或者错误信息。

机器学习的十算法如下:

1.决策树:决策树是一个决策支持工具,它使用树形图或者决策模型以及可能性序列,包括偶然事件的结果、资源成本和效用。下图是其基本原理:从业务决策的角度来看,决策树是人们必须了解的最少的是/否问题,这样才能评估大多数时候做出正确决策的概率。作为一种方法,它允许你以结构化和系统化的方式来解决问题,从而得出合乎逻辑的结论。

2.朴素贝叶斯分类:朴素贝叶斯分类器是一类简单的概率分类器,它基于贝叶斯定理和特征间的强大的(朴素的)独立假设,如图3-1所示。图中是贝叶斯公式,其中P(A/B)是后验概率,P(B/A)是似然,P(A)是类先验概率,P(B)是预测先验概率。一些应用例子:判断垃圾邮件,对新闻的类别进行分类,比如科技、政治、运动,判断文本表达的感情是积极的还是消极的,人脸识别。(www.daowen.com)

图3-1 贝叶斯公式

3.最小二乘法:如果你懂统计学的话,你可能以前听说过线性回归。最小二乘法是一种计算线性回归的方法。你可以将线性回归看作通过一组点来拟合一条直线。实现这个有很多种方法,“最小二乘法”就像这样:你可以画一条直线,对应每一个数据点,计算每个点到直线的垂直距离,然后把它们加起来,那么最后得到的拟合直线就是距离尽可能小的直线。线性指的是用来拟合数据的模型,而最小二乘法指的是最小化的误差度量。

4.逻辑回归:逻辑回归是一个强大的统计学方法,它可以用一个或多个解释变量来表示一个二项式结果。它通过使用逻辑函数来估计概率,从而衡量类别依赖变量和一个或多个独立变量之间的关系,后者服从累计逻辑分布。总的来说,逻辑回归可以用于以下几个真实应用场景:信用评分,计算营销活动的成功率,预测某个产品的收入,特定的某一天是否会发生地震

5.支持向量机:SVM是二进制分类算法。给定N维坐标下两种类型的点,SVM生成N-1维的超平面来将这些点分成两组。假设在平面上有两种类型的可以线性分离的点,SVM将找到一条直线,将这些点分成两种类型,并且这条直线尽可能远离所有这些点。从规模上看,使用SVM(经过适当的修改)解决的一些最大的问题包括显示广告、人类剪切位点识别(human splice site recognition)、基于图像的性别检测,大规模图像分类。

6.集成方法:集成方法是学习算法,它通过构建一组分类器,然后通过它们的预测结果进行加权投票来对新的数据点进行分类。原始的集成方法是贝叶斯平均,但是最近的算法包括纠错输出编码、Bagging和Boosting。那么集成方法如何工作?并且为什么它们要优于单个模型?它们平均了单个模型的偏差:如果将民主党的民意调查和共和党的民意调查在一起平均化,那么将得到一个均衡的结果,不偏向任何一方。它们减少了方差:一组模型的总体意见比其中任何一个模型的单一意见更加统一。在金融领域,这就是所谓的多元化,有许多股票的组合比一个单独的股票的不确定性更少,这也是为什么模型在数据多的情况下会更好的原因。它们不太可能过拟合:如果单个的模型没有过拟合,那么把这些模型的预测简单结合起来(平均、加权平均、逻辑回归),那么最后得到的模型也不会过拟合。

7.聚类算法:聚类是将一系列对象分组的任务,目标是使相同组(集群)中的对象之间比其他组的对象更相似。每一种聚类算法都不相同。

8.主成分分析:PCA是一个统计学过程,它通过使用正交变换将一组可能存在相关性的变量的观测值转换为一组线性不相关的变量的值,转换后的变量就是所谓的主分量。PCA的一些应用包括压缩、简化数据便于学习、可视化等。请注意,领域知识在选择是否继续使用PCA时非常重要。数据嘈杂的情况(PCA的所有成分具有很高的方差)并不适用。

9.奇异值分解:在线性代数中,SVD是复杂矩阵因式分解。对于给定的m*n矩阵M,存在分解使得M=UΣV,其中U和V是酉矩阵,Σ是对角矩阵。实际上,PCA是SVD的一个简单应用。在计算机视觉中,第一个人脸识别算法使用PCA和SVD来将面部表示为“特征面”的线性组合,进行降维,然后通过简单的方法将面部匹配到身份,虽然现代方法更复杂,但很多方面仍然依赖于类似的技术。

10.独立成分分析:ICA是一种统计技术,主要用于揭示随机变量、测量值或信号集中的隐藏因素。ICA对观测到的多变量数据定义了一个生成模型,这通常是作为样本的一个大的数据库。在模型中,假设数据变量由一些未知的潜在变量线性混合,混合方式也是未知的。潜在变量被假定为非高斯分布并且相互独立,它们被称为观测数据的独立分量。

随着大数据时代的来临,通过机器学习技术,人们可以对数据进行高效的获取和研究处理;云化服务降低了对设备的依赖性,使得存储更加安全便捷,人工智能技术悄无声息地改变着人们的日常生活,使人们的生活逐渐智能化、舒适化。在互联网电视领域,人工智能技术的应用广泛,较为常见的有语音助手、AI个性化推荐、智能识图、云计算、大数据等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈