机器学习和传统编程算法之间的主要区别在于能够在不明确编程的情况下处理数据。这意味着工程师无需向机器提供有关如何处理每种类型数据记录的详细说明。相反,机器本身依赖于输入数据来定义这些规则。
无论机器学习应用程序如何,核心工作流程保持不变,并且一旦结果过时或需要更高的准确性,就会反复重复。本节重点介绍构成机器学习工作流程的基本概念,如图1所示。
图1 机器学习工作流程
工作流程遵循以下步骤:
1.
1。
收集资料。使用您的IT基础架构收集尽可能多的合适记录,并将它们统一到数据集中。
2.
2。
准备数据。准备好以最佳实用方式处理的数据。数据预处理和清洗程序可以是相当复杂的,但一般地,它们的目的是填充缺失的值,并在数据校正其他缺陷,如在一列中具有相同的值的不同的表示。
3.
3。
拆分数据。单独的数据子集以训练模型并进一步评估其对新数据的执行方式。
4.
4。
训练模型。使用历史数据的子集让算法识别其中的模式。
5.
5。
测试并验证模型。使用历史数据的测试和验证子集评估模型的性能,并了解预测的准确程度。
6.
6。
利用模型。将测试模型作为分析解决方案的一部分嵌入您的决策环境中。
7.
7。
重复。使用模型后收集新数据以逐步改进它。
任何机器学习执行的基本假象都是一个数学模型,它描述了一个算法在用历史数据子集训练后如何处理新数据。培训的目标是开发一个能够制定目标值(属性)的模型,每个数据对象的某些未知值。
例如,您需要预测电子商务商店的客户是否会进行购买或离开。这些预测会购买或保留我们正在寻找的目标属性。为了训练模型进行这种类型的预测,您可以“提供”一个算法,该算法具有存储客户行为和结果的不同记录的数据集,例如客户是否离开或完成购买。通过学习这些历史数据,模型将能够对未来数据进行预测。