环球网校是美国纳斯达克上市企业欢聚时代(NASDAQ:YY)旗下品牌 | 住房和城乡建设部 建筑人才培训合作单位
您现在的位置在: > 财会考试 > 注册会计师 > 考试动态 >

现代机器学习算法的具体实现细节|教程

2024-01-13 来源:网络 作者:佚名

在本教程中,作者对现代机器学习算法进行一次简略的实战梳理。尽管类似的总结有好多,而且它们都没有真正解释清楚每位算法在实践中的优劣,而这正是本篇梳理希望完成的。因而本文力图基于实践中的经验,讨论每位算法的异同点。而机器之心也在文末给出了这种算法的具体实现细节。

#

对机器学习算法进行分类不是一件容易的事情,总的来看,有如下几种形式:生成与判断、参数与非参数、监督与非监督等等。 #

但是,就实践经验来看,这种都不是实战过程中最有效的分类算法的方法。由于对于应用机器学习而言,开发者通常会在脑海中有一个最终目标,例如预测一个结果或是对你的观察进行分类。 #

为此,我们想介绍另一种对算法进行分类的路数,其基于机器学习任务来分类。 #

没有免费早餐定律

#

在机器学习中,有个定律被称为「没有免费的晚餐」。简而言之,就是说没有一个算法可以完美解决所有问题,但是这对于监督学习(即对预测的建模)而言尤其这么。

#

举个事例,你不能说神经网路就一定任何时侯都比决策树优秀,反过来也是。这其中存在好多影响诱因,例如你数据集的规模和结构。

#

所以,当你使用一个固定的数据测试集来评估性能,选购最适宜算法时,你应当针对你的问题尝试多种不同的算法。

#

其实,你所使用的算法必需要适宜于你企图解决的问题,这也就有了怎样选择正确的机器学习任务这一问题。做个类比,假如你须要打扫你的房屋,你可能会用吸尘器、扫帚或则是拖布,而且你绝不会拿出一把铁锹之后开始挖地。

#

机器学习任务 #

在本次梳理中,我们将囊括目前「三大」最常见机器学习任务:

#

回归方式 #

分类方式 #

降维方式

#

说明: #

1、回归方式 #

回归方式是一种对数值型连续随机变量进行预测和建模的监督学习算法。使用案例通常包括楼市预测、股票走势或测试成绩等连续变化的案例。 #

回归任务的特征是标明的数据集具有数值型的目标变量。也就是说,每一个观察样本都有一个数值型的标明真值以监督算法。 #

1.1线性回归(正则化)

#

线性回归是处理回归任务最常用的算法之一。该算法的方式非常简单,它期望使用一个超平面拟合数据集(只有两个变量的时侯就是一条直线)。假如数据集中的变量存在线性关系,这么其能够拟合地十分好。

#

在实践中,简单的线性回归一般被使用正则化的回归方式(LASSO、Ridge和-Net)所取代。正则化似乎就是一种对过多回归系数采取惩罚以减轻过拟合风险的技术。其实,我们还得确定惩罚硬度以让模型在欠拟合和过拟合之间达到平衡。 #

1.2回归树(集成方式) #

回归树(决策树的一种)通过将数据集重复分割为不同的分支而实现分层学习,分割的标准是最大化每一次分离的信息增益。这些分支结构让回归树很自然地学习到非线性关系。 #

集成方式,如随机森林(RF)或梯度提高树(GBM)则组合了许多独立训练的树。这些算法的主要思想就是组合多个弱学习算法而成为一种强学习算法,不过这儿并不会具体地展开。在实践中RF一般很容易有出众的表现赢得值法三个基本参数及计算公式最新变化,而GBM则更难调参,不过一般梯度提高树具有更高的性能上限。 #

1.3深度学习

#

深度学习是指能学习非常复杂模式的多层神经网路。该算法使用在输入层和输出层之间的隐藏层对数据的中间表征建模,这也是其他算法很难学到的部份。 #

深度学习还有其他几个重要的机制,如频域和drop-out等,这种机制令该算法能有效地学习到高维数据。但是深度学习相对于其他算法须要更多的数据,由于其有更大数目级的参数须要恐怕。 #

1.4近来邻算法

#

近来邻算法是「基于实例的」,这就意味着其须要保留每一个训练样本观察值。近来邻算法通过搜救最相像的训练样本来预测新观察样本的值。

#

而这些算法是显存密集型,对高维数据的处理疗效并不是挺好,而且还须要高效的距离函数来测度和估算相像度。在实践中,基本上使用正则化的回归或树型集成方式是最好的选择。

#

2、分类方式 #

分类方式是一种对离散型随机变量建模或预测的监督学习算法。使用案例包括短信过滤、金融欺诈和预测雇员异动等输出为类别的任务。 #

许多回归算法都有与其相对应的分类算法,分类算法一般适用于预测一个类别(或类别的机率)而不是连续的数值。

#

2.1回归(正则化) #

回归是与线性回归相对应的一种分类方式,且该算法的基本概念由线性回归推论而出。回归通过函数(即函数)将预测映射到0到1中间,因而预测值就可以看成某个类别的几率。 #

该模型依然还是「线性」的,所以只有在数据是线性可分(即数据可被一个超平面完全分离)时,算法能够有优秀的表现。同样模型能惩罚模型系数而进行正则化。 #

2.2分类树(集成方式)

#

与回归树相对应的分类算法是分类树。它们一般都是指决策树,或更严谨一点地称之为「分类回归树(CART)」,这也就是十分知名的CART的算法。 #

简单的随机森林

#

2.3深度学习

#

深度学习同样很容易适应于分类问题。实际上,深度学习应用地更多的是分类任务,如图像分类等。

#

2.4支持向量机

#

支持向量机(SVM)可以使用一个称之为核函数的方法扩充到非线性分类问题,而该算法本质上就是估算两个称之为支持向量的观测数据之间的距离。SVM算法寻觅的决策边界即最大化其与样本间隔的边界,因而支持向量机又称为大宽度分类器。

#

支持向量机中的核函数采用非线性变换,将非线性问题变换为线性问题

#

比如,SVM使用线性核函数能够得到类似于回归的结果,只不过支持向量机由于最大化了间隔而更具鲁棒性。为此,在实践中,SVM最大的优点就是可以使用非线性核函数对非线性决策边界建模。

#

2.5朴实贝叶斯 #

朴实贝叶斯(NB)是一种基于贝叶斯定律和特点条件独立假定的分类方式。本质上朴实贝叶斯模型就是一个机率表,其通过训练数据更新这张表中的机率。为了预测一个新的观察值,朴实贝叶斯算法就是按照样本的特点值在机率表中找寻最大几率的那种类别。

#

之所以称之为「朴素」,是由于该算法的核心就是特点条件独立性假定(每一个特点之间互相独立),而这一假定在现实世界中基本是不现实的。 #

3、聚类 #

降维是一种无监督学习任务赢得值法三个基本参数及计算公式最新变化,该算法基于数据的内部结构找寻观察样本的自然部族(即集群)。使用案例包括细分顾客、新闻降维、文章推荐等。 #

由于降维是一种无监督学习(即数据没有标明),但是一般使用数据可视化评价结果。假如存在「正确的回答」(即在训练集中存在预标明的集群),这么分类算法可能愈发合适。

#

3.1K均值降维

#

K均值降维是一种通用目的的算法,降维的测度基于样本点之间的几何距离(即在座标平面中的距离)。集群是围绕在降维中心的部族,而集群呈现出类球形并具有相像的大小。降维算法是我们推荐给初学者的算法,由于该算法除了非常简单,但是还足够灵活以面对大多数问题都能给出合理的结果。

#

3.2降维

#

AP降维算法是一种相对较新的降维算法,该降维算法基于两个样本点之间的图形距离(graph)确定集群。采用该降维方式的集群拥有更小和不相等的大小。

#

3.3层次降维(/) #

层次降维是一系列基于以下概念的降维算法:

#

最开始由一个数据点作为一个集群 #

对于每位集群,基于相同的标准合并集群 #

重复这一过程直至只留下一个集群,因而就得到了集群的层次结构。

#

3.4

#

是一个基于密度的算法,它将样本点的密集区域组成一个集群。近来还有一项被称为的新进展,它容许改变密度集群。

#

结语

#

本文从回归问题、分类问题和降维问题三个角度下初步了解了各个算法的异同点,也基本了解了这些算法究竟是哪些。但以上每一个算法都有更多的概念和细节没有显露下来,我们不能晓得它们的损失函数是哪些、训练目标是哪些、权重更新策略是哪些等等一些列问题。为此我们希望能从机器之心历来文章中搜寻一些,为有兴趣的读者提供这种算法的具体细节。

#

线性回归: #

决策树(集成方式):

#

支持向量机:

#

深度学习:

#

降维算法:

#

最后,不论是基本概念还是具体算法,最重要的就是实践。不实践这种算法就永远不能发觉什么地方没有把握,因而希望本文能有助于诸位读者实践自己的算法。

#

责编:admin 返回顶部  打印

关于我们联系我们友情链接网站声明网站地图广告服务帮助中心