我的研究心得

机器学习:学习算法k-最近邻


k- nearest neighbor算法是一种基于特征空间中最接近的训练样例对对象进行分类的方法。它检查特征空间,并可以自信地根据最近邻居给出预测。它的工作原理是近处的物体具有相似的预测值,一旦我们知道了物体的预测值,就很容易预测其最近的邻居。

所述ķ -nearest邻居算法是适度的已知机器学习算法之一,并因为它取决于从仅实例的特定选择最喜欢的测试集实例的预测它经常被称为懒惰学习者。训练样本由n维数字属性描述。每个样本代表一个n维空间中的一个点; 所有训练样本都存储在n维模式空间中。当我们有一个未知样本,将算法搜索模式空间的ķ训练样本最接近未知样本,将ķ训练样本的ķ未知样本的最近邻居,如图2所示。

2   k最近的邻居

k- nearest neighbor被证明是一种非常有效的噪声训练数据方法,k- nearest neighbor在自动化方面表现良好,因为许多算法都很健壮,并且当我们有数据集缺失数据时给出了良好的预测。如果我们有一个决策树版本来预处理数据集,那么可以改进k- nearest neighbor考虑到数据集的性质,可以通过多种方式对数据集应用预处理; 如果数据集由数字属性组成,则通过将数据集的元组数量减少到更少的间隔,离散化算法将非常有效。离散化后的输出将被馈入k最近的邻居
有了这个,这个过程会更快,因为考虑了更少的元组。


 


ETC注销ETC充值ETC客服ETC扣费查询


ETC发行合作