机器学习:介绍


机器学习的概念最初是在20世纪50年代引入的,这是AI-pioneers时代的显着特征。1950年,艾伦图灵发表了计算机械与智能论文,提出了一项着名的人工智能评估测试,我们今天称之为图灵测试。1959年,Arthur
Lee Samuel
创造了机器学习这个术语。机器学习(ML)可以广泛地定义为使用经验来改进性能或进行准确预测的计算方法。我们将机器学习定义为对重要数据执行的一系列数学操作,以获得有价值的见解。算法的研究是从实例和经验中学习而不是硬编码规则。通常,有三种主要类型的机器学习问题:监督无人监督 强化

 

      
监督的机器学习问题是我们想要根据一组示例进行预测的问题。

      
无监督的机器学习问题是我们的数据没有一组定义的类别集合的问题,而是我们正在寻找机器学习算法来帮助我们组织数据。

这意味着,有监督的机器学习问题有一组我们想用来预测未来的历史数据点,无监督的机器学习问题有一组数据,我们正在寻找机器学习来帮助我们组织或理解。

 

      
强化包括系统必须完成的特定任务或目标。在整个过程中,它会收到反馈,以便了解所需的行为。例如,系统在执行动作时遇到错误或者为实现最有利的结果而获得奖励。因此,该程序能够通过强化信号学习最有效的方法。

虽然数据库(KDD)中的数据挖掘和知识发现似乎只能解决数据科学的主要问题,但机器学习可以提高数据科学的业务效率。ML技术可以大致分为四个不同的区域:分类,聚类,关联学习和数字预测。应用于文本的分类是文本分类的主题,其是从一组预定义的集合中自动将一组文档分类为类别(或类或主题)的任务。文档的直接分类用于信息检索系统的文档索引,文本过滤(包括防止电子邮件垃圾邮件),网页分类和许多其他应用程序。根据具体应用,分类也可用于文本的较小部分(段落,句子,单词),喜欢文档分割,主题跟踪或词义消歧。在机器学习方法中,在应用于排序看不见的文本之前,预先对先前分类的标记数据训练分类算法(分类器)。

可以在两个层面上实现具有文本的聚类技术的使用。通过识别类似的集群来分析文档集合仅需要利用与文档相似性度量相结合的已知聚类算法。在文档聚类中可能会更具挑战性,因为它需要预处理文本并将对象隔离到聚类句子,单词或某些需要派生的构造。

关联学习本质上是分类的概括,其旨在捕获数据集中的示例的任意特征(也称为属性)之间的关系。从这个意义上讲,分类仅捕获指定类的一个特征的所有特征的关系。由于文档表示的高维度,即相当多的特征(其中许多可能不是非常有用的信息),因此将关联学习直接应用于文本是不可行的。利用从文本中提取的信息的关联学习(例如,使用分类和/或聚类)是一个不同的故事,可以产生许多有用的见解。

数字预测(在更广泛的意义上也称为回归)是分类的另一种概括,其中类特征不是离散的而是连续的。这种小的定义转变导致分类和回归算法的内部存在巨大差异。然而,通过将预测的数字特征划分为有限数量的间隔,每个回归算法也可以用于分类。相反的情况通常是不可能的。同样,与关联学习一样,对文本进行回归的简单应用并不是特别有用,除了分类(特别是当需要一种信念度量时,这也可以通过大多数分类算法来实现)。

数据挖掘和非常流行的机器学习之间存在差异。然而,机器学习是关于创建算法以提取有价值的见解,它主要关注在动态变化的环境中的连续使用,并强调基于先前经验的算法的调整,再训练和更新。机器学习的目标是不断适应新数据并发现新数据或规则。有时它可以在没有人为指导和明确重新编程的情况下实现。

由于最近的一些理论和技术突破,机器学习是当今数据科学中最蓬勃发展的领域。他们通过机器进行自然语言处理,图像识别甚至生成新图像,音乐和文本。机器学习仍然是构建人工智能的主要工具

要在应用程序中使用机器学习甚至学习它,有两种方法。首先,学习如何使用充当黑盒子的库,也就是说,它们提供不同的功能。其次,要学习如何编写算法和查找系数,拟合模型,找到优化点等等,以便根据您的要求策划应用程序。但是,如果您只是想玩,那么有一些库和应用程序编程接口可以帮助您完成工作。

企业正在使用机器学习技术来分析客户的购买历史,并为下次购买提供个性化的产品推荐。这种捕获,分析和使用客户数据以提供个性化购物体验的能力是销售和营销的未来。

在交通运输领域,根据旅行历史和各种路线的旅行模式,机器学习可以帮助运输公司预测某些路线上可能出现的潜在问题,并建议客户选择不同的路线。运输公司和物流公司正在逐步使用机器学习技术进行数据分析和数据建模,以做出明智的决策,并帮助客户在旅行时做出明智的决策。


 


ETC注销ETC充值ETC客服ETC扣费查询


ETC发行合作

发表回复