随机森林是几个决策树的平均值,每个决策树都使用随机的数据样本进行训练。森林中的每棵树都比完整的决策树弱,但通过将它们放在一起,我们可以通过多样性获得更好的整体性能。
随机森林是当今机器学习中非常普遍的算法。它很容易训练,而且往往表现良好。它的缺点是相对于其他算法输出预测可能会很慢,因此当您需要快速预测时,可能不会使用它。与许多情景中的回归模型相比,随机森林提供了更准确的预测。这些病例通常具有大量的预测变量和巨大的样本量。这是因为它同时捕获了几个输入变量的方差,并使大量观测值能够参与预测。
k -Means算法
k -means是一种无监督算法,可以解决聚类问题。常规分类和聚类之间的主要区别在于,该算法面临着在没有预定义类的情况下对群集中的项目进行分组的挑战。这意味着,它应该在没有人为指导的情况下决定分裂本身的原则。聚类分析通常在无监督学习风格内实现。群集可以解决以下问题:
・
我们考虑其人口统计和行为的主要客户群是什么?
・
某些银行客户的违约风险与其行为之间是否存在关联?
・
我们如何对人们用来访问我们网站的关键字进行分类?
它的过程遵循一种简单直接的方法,通过一定数量的簇(假设k 簇)对给定数据集进行分类,见图3。群集内的数据点是同构的,并且是对等群组的异构。
图3 三个集群
k -means 如何形成集群:
1.
1。
k -means 为称为质心的每个簇选择k个点。
2.
2。
每个数据点形成具有最接近的质心的簇,即k个 簇。
3.
3。
根据现有集群成员查找每个集群的质心。在这里,我们有新的质心。
4.
4。
当我们有新的质心时,重复步骤2和3.找到每个数据点与新质心的最近距离,并与新的k -clusters 相关联。重复此过程直到收敛发生,即质心不会改变。
在k
-means中,我们有集群,每个集群都有自己的质心。质心和簇内数据点之间的差的平方和构成该簇的平方值的总和。此外,当添加所有聚类的平方值的总和时,它在聚类解的平方值的总和内变为总和。
我们知道随着聚类数量的增加,这个值会继续下降,但是如果你绘制结果,你可能会看到平方距离之和急剧下降到某个k值,然后慢得多。在这里,我们可以找到最佳的簇数。
降维有助于系统删除对分析无用的数据。这组算法用于删除冗余数据,异常值和其他无用数据。在分析来自传感器和其他物联网(IoT)用例的数据时,降维可能会有所帮助。在物联网系统中,可能有数千个数据点只是告诉您传感器已打开。存储和分析“on”数据没有帮助,并将占用重要的存储空间。此外,通过删除这些冗余数据,机器学习系统的性能将得到改善。最后,降维还将帮助分析人员可视化数据。