决策树从顶部以树形结构的形式工作,被称为根节点一直到叶子; 每个分支代表测试的结果,叶节点代表类。为了对任何未知样本进行分类,我们针对决策树测试样本的属性。路径从根(即树的顶部)到叶节点进行跟踪,叶节点保存该样本的类预测。决策树容易产生很多噪音,处理此问题的标准技术是修剪树。修剪涉及删除其前提中不会提高规则估计准确性的任何条件。此过程旨在提高对看不见的数据的分类准确性。
为了创建或训练决策树,我们采用我们用于训练模型的数据,并找出哪些属性最好地将火车组与目标分开。例如,决策树可用于信用卡欺诈检测。我们会发现最能预测欺诈风险的属性是购买金额(例如,持有信用卡的人已经进行了大量购买)。这可能是第一次拆分(或拆分) – 那些购买异常高的卡和不购买的卡。然后我们使用第二最佳属性(例如,经常使用信用卡)来创建下一个分割。然后我们可以继续,直到我们有足够的属性来满足我们的需求。
分类算法定义数据集中的对象属于哪个类别。因此,类别通常与类相关。通过解决分类问题,您可以解决各种问题:
・
这是垃圾邮件或没有?
・
此交易是否双重?
・
这个购物者更有可能购买哪种产品:沙发,餐桌或花园椅?
可伸缩性是决策树的一个重要问题,因为它在大型数据集上不能很好地扩展,而在数据挖掘中,典型的训练集会遇到数百万个样本。由于训练集保存在主存中,因此出现了可伸缩性问题。这种限制限制了这种算法的可扩展性,其中决策树构造由于将训练样本交换进出主存储器和高速缓冲存储器而变得低效。一种选择是将连续属性离散化并在每个节点进行采样。但这也有其自身的低效率。另一种选择是将大型决策树划分为子集,并从子集构建决策树。由于我们只处理子集,因此我们的结果的准确性不如使用所有数据集那么好。
设置回决策树是算法的贪婪性质。贪婪本质意味着该算法过早地对某些选择做出承诺,这使得他们无法在以后找到最佳的整体解决方案。决策树非常快,并且对于数据的分类精度自然很高,其中类的映射由概念空间中的长和薄区域组成。
对这种学习技术的改进可以是修改算法以处理连续值属性。决策树具有关于许多预测器类型的鲁棒属性。它使其非常适合作为其他算法的良好预处理方法。一个例子是预处理神经网络的数据; 由于它的速度,它可以方便地对数据进行第一次传递,这将创建预测器的子集,这些预测器将被馈送到神经网络或k-最近邻居。这肯定会减少神经网络必须处理的噪声含量,这肯定会提高神经网络的性能。
另一个非常精确的分类任务是异常检测。它通常被认为是一类分类,因为异常检测的目标是找到异常值,数据中的异常对象不会出现在其正态分布中。它可以解决什么样的问题:
・
我们的数据集中是否有任何具有独特品质的购物者?
・
我们能否发现保险客户的异常行为?