今日份知识你摄入了么?决策树中过度拟合的技术之一是剪枝

明日份知识你摄取了么?
决策树是一种容易过于拟合的机器学习算法2024决策树应用在哪些方面,可以拿来提高决策树中过于拟合的技术之一是修剪。
#
图片来自,作者DevinH #
让我们回顾一下决策树。
#
决策树是一种非监督学习方式,可适于分类和回归任务。目标是构建一个模型,通过学习从数据特性推算的简略决策规则来预测目标变量的值。 #
决策树由以下部分组成: #
根节点-决策树的最顶部,是您企图作出的最终决策。内部节点-从根节点分支下来,表示不同的选项。叶节点-那些节点连结在分支的末端,表示每位操作的或许结果。
如同任何其他机器学习算法一样,或许发生的最恼人的事情是过于拟合。决策树是机器学习算法之一,容易过于拟合。 #
过于拟合是指模型完全拟合训练数据,但是无法或难以概括检测数据。当模型记忆训练数据中的噪音时,会发生此类状况,而且难以提取就能帮助它们处理检测数据的基本机制。
可以拿来提高决策树中过于拟合的技术之一是修剪。 #
哪些是决策树修剪,为何它很重要? #
移栽是一种技术,它删掉了决策树中阻挡其生长到完全深度的部份。它从树中移除的部份是不提供对例子进行分类的功能的部份。一个被训练到其最大深度的决策树很或许会造成过于拟合训练数据,所以移栽是很重要的。 #
简略地说,决策树修剪的目的是构造一种算法,该算法在训练数据上功耗较多,但在检测数据上具备更好的泛化能力。调整决策树模型的超参数可以使模型愈发公平,并节约大量时间和金钱。 #
怎么修剪决策树?
#
有两种类别的修剪:预修剪和后移栽。我将介绍这两种方式以及他们的工作原理。 #
预修剪
决策树的预移栽技术是在训练流水线之前调整超参数。它牵涉到一种被称为“早期停止”的启发式方式2024决策树应用在哪些方面,它会阻挡决策树的生长-阻挡它达到其最大深度。 #
它停止了树的建构过程,以防止形成小样本的花茎。在树分拆的每位阶段,将监控交叉验证错误。倘若错误值不再提高,则停止决策树的增速。
#
可调整适于初期停止和避免过于拟合的超参数包括:最大深度、最小样本叶和最小样本分割。 #
某些相似的参数也可适于调整以斩获鲁棒模型。因此,你应当慎重,由于太早停止也会造成不适。
#
后移栽
#
后移栽在整个决策树生成以后,经过验证集的检测或则泛化的时侯功耗不好,还要提高决策树的功耗,并且再次生成决策树的话费用太高,不太现实,所以才会通过特定的估算方式剪断一些树叶结点因而提高整棵决策树的功耗。因此,当引进与学习数据不同的新数据点时,或许难以挺好地预测。
#
可调整适于后移栽和避免过拟合的超参数为:
ccp代表费用复杂性修剪(Cost),可以用作控制树大小的另一种选择。值越高,被修剪的节点数目就越多。
费用复杂度修剪(后移栽)的方法如下:
#
训练你的决策树模型到它的全部深度使用估算值使用不同的值训练决策树模型,并估算训练和检测功耗分数描绘值的每位值的训练和检测分数。
#
这个超参数还可以适于调优以荣获最佳拟合模型。 #
提示
以下是一些在修剪决策树时可以应用的方法: #
推论
#
在本文中,我介绍了两种类别的修剪技术及其用途。决策树很容易过于拟合,所以移栽是算法的关键方法。 #
假如你想了解有关费用复杂性剪枝的后剪枝决策树的更多信息,请复制此链接到浏览器打开查看: #