机器学习和数据挖掘 摘要


我们已经完全涵盖了已建立的监督学习领域的几种算法,包括决策树学习,贝叶斯网络和最近邻法。这些算法在各种应用中都是稳定且有效的,因此属于AI和数据挖掘的标准库。对于聚类算法也是如此,聚类算法在没有监督者的情况下工作,并且可以在例如搜索引擎应用中找到。强化学习作为机器学习的另一个领域也不使用主管。与超级学习相比,学习者在训练数据中接收正确的动作或答案作为标签,仅在强化学习中,然后从环境中接收正面或负面的反馈。在Chap10我们将展示它是如何工作的。

有监督的学习现在是一个成熟的领域,有很多成功的应用。对于带有连续标签的数据的监督学习,可以使用任何函数近似算法。因此,有许多来自数学和计算机科学领域的算法。在Sect9我们将介绍各种类型的神经网络,最小二乘算法和支持向量机,

1.  
摘要215

图片

这些都是函数逼近器。如今,高斯过程非常普遍,因为它们非常通用且易于应用,并为用户提供输出值不确定性的估计[RW06]

以下分类法概述了最重要的学习算法及其分类。

监督学习

懒惰的学习

+

§  
k最近邻法(分类近似)

§
局部加权回归(近似)

+

§   基于案例的学习(分类近似)渴望学习

§ 决策树归纳(分类)

+

§
学习贝叶斯网络(分类近似)

+

§  
神经网络(分类近似)

+

§
高斯过程(分类近似)

§  
小波,样条,径向基函数,。。。

无监督学习聚类)最近邻算法最远邻居算法k均值

神经网络

强化学习

价值迭代Q学习

TD学习

政策梯度方法神经网络

然而,当使用一组固定的已知属性时,有关监督学习的说法才是真实的。在激烈的研究中,一个有趣但仍然开放的领域是自动特征选择。在Sect8.4 ,为了学习决策树,我们提出了一种计算属性信息增益的算法,根据它们的相关性对属性进行分类,并仅使用那些提高分类质量的属性。使用这种类型的方法,可以从可能较大的基本集中自动选择相关属性。但是,必须手动选择此基本集。

仍然是开放的,也没有明确定义的是机器如何找到新属性的问题。让我们想象一个应该摘苹果的机器人。为此,他必须学会区分成熟和未成熟的苹果和其他物体。传统上,我们将确定某些属性,例如像素区域的颜色和形式,然后使用手动分类的图像训练学习算法。例如,也可以使用图像的所有像素作为输入直接训练神经网络,然而,高分辨率与严重的计算时间问题相关联。这里需要自动提出相关特征建议的方法。但这仍然是科幻小说。

聚类提供了一种特征选择方法。在训练苹果识别机之前,我们让聚类运行在数据上。对于苹果非苹果类的(监督)学习,输入不再是所有像素,而是仅在聚类期间找到的类,可能与其他属性一起。无论如何聚类都可以用于功能的自动,创造性发现。但是,不确定发现的特征是否相关。

以下问题更加困难:假设用于苹果识别的摄像机仅传输黑白图像。这个任务再也无法解决了。如果机器在自己的帐户上具有创造性,那将是很好的,例如通过建议应该用彩色相机替换相机。今天这会要求太多。

除了关于机器学习的所有子领域的专业作品外,还有优秀的教科书[Mit97Bis06Alp04DHS01HTF09]。对于当前的研究结果,请查看免费提供的机器学习研究期刊(http://jmlr.csail.mit.edu),机器学习期刊以及国际机器学习会议的会议记录(建议使用ICML)。对于每个学习算法的开发者来说,加州大学尔湾分校(UCI)的机器学习库[DNM98]很有意思,它有大量的学习算法和数据挖掘工具的训练和测试数据。MLOSS代表机器学习开源软件,是一个提供免费软件链接的绝佳目录(www.mloss.org)。

 

图片

图片


 


ETC注销ETC充值ETC客服ETC扣费查询


ETC发行合作

发表回复