什么是机器学习 (ML)？

如今的企业正在被海量数据淹没，而理解这些数据可以极大地帮助企业做出更明智的决策。但是，庞大的数据量以及数据复杂度通常导致使用传统工具难以分析数据。构建、测试、迭代和部署分析模型以识别数据中的模式和洞见会耗费员工大量时间，并且在规模扩大后效果不佳。利用机器学习，组织可以随着数据规模的扩大快速从中获取洞见。

新客户最高可获享 300 美元赠金，用于体验 Gemini Enterprise Agent Platform 和其他 Google Cloud 产品。

7:07

Google Cloud 上的机器学习

机器学习的定义

机器学习是人工智能的一个分支，向系统输入大量数据后，系统会使用神经网络和深度学习进行自主学习和改进，无需对其明确编程。

机器学习可让计算机系统通过累积更多“经验”来不断调整并增强自身功能，因此，通过提供更大、更多样化的数据集进行处理，可以提高这些系统的性能。

机器学习的重要性

数据生成速度不断加快，生成的数据量空前庞大，而机器学习有助于分析这些海量数据并从中发掘价值。正如其名称所表明的那样，机器学习开辟了人类利用计算机和其他机器的全新领域。机器学习可帮助企业构建各种重要功能，例如欺诈检测、识别安全威胁、个性化与推荐、通过聊天机器人提供自动化客户服务、转写和翻译、数据分析等。机器学习技术还推动了众多激动人心的创新，例如自动驾驶汽车、无人机、飞机、增强现实、虚拟现实和虚拟现实，以及机器人。

机器学习、人工智能和深度学习有什么区别？

虽然人工智能 (AI) 和机器学习 (ML) 常常被当作同义词使用，但这两个术语并不能互换。

人工智能是计算机科学中的一个领域，旨在构建能够像人类一样推理、学习和行动的计算机和机器，或者数据规模超出人类分析能力的系统。该领域涉及许多不同的学科，包括数据分析、统计、硬件和软件工程、神经科学，甚至还有哲学。

人工智能是计算机科学的一个广泛类别，而机器学习是一种 AI 应用，涉及训练机器来执行任务，而无需专门为此编程。机器学习被更明确地用作一种通过神经网络、监督式和非监督式学习、决策树或线性回归等方法从数据中提取知识的方式。

就像机器学习是人工智能的一个分支一样，深度学习也是机器学习的一个分支。深度学习基于数据训练神经网络。神经网络是一种使用人工神经元系统的模型，人工神经元是用于对数据进行分类和分析的计算节点。数据被输入神经网络的第一层，每个节点都会做出决定，然后将该信息传递到下一层的多个节点。超过三层的训练模型称为“深度神经网络”或“深度学习”。某些现代神经网络有数百或数千层。

机器学习的运作方式是怎样的？

机器学习的工作原理是使用数据训练算法以实现预期结果，例如识别模式或识别对象。机器学习是对模型进行优化的过程，使模型能够根据训练数据样本预测正确的回答。

假设训练数据质量较高，则机器学习算法收到的训练样本越多，模型就越准确。在训练期间，算法将模型与数据进行拟合，这个过程称为“拟合过程”。在此过程中，算法会使用损失函数来衡量模型的误差，并使用梯度下降法等优化方法来调整模型的参数，从而最大限度地减少这些误差。如果结果不符合预期，算法将反复重新训练，直到输出准确的回答。从本质上讲，算法从数据中学习，并根据输入和回答是否符合线性、聚类或其他统计相关性来得出结果。

机器学习的类型

在谈论不同类型的机器学习时，我们实际上是在谈论所使用的训练模型。概括来讲，机器学习中有四种类型的模型。

监督式学习是一种使用带标签的训练数据（结构化数据）将特定特征映射到标签的机器学习模型。在监督式学习中，输出结果是已知的（例如识别苹果图片），模型是使用已知输出的数据进行训练的。简单来说，要训练算法识别苹果的图片，则向其提供标记为苹果的图片。目前最常用的监督式学习算法包括：

线性回归
多项式回归
K 近邻算法
朴素贝叶斯
决策树

非监督式学习是一种使用无标签数据（非结构化数据）来学习模式的机器学习模型。与监督式学习不同，输出的“正确性”无法提前确定。这种算法会在没有人工输入（即无人监督）的情况下从数据中学习，并根据属性将数据分类为多个组。例如，如果给算法提供了苹果图片和香蕉图片，它就会自行识别哪张图片是苹果，哪张图片是香蕉。非监督式学习擅长描述性建模和模式匹配。目前最常用的非监督式学习算法包括：

模糊均值
K-means 集群
层次聚类
偏最小二乘

还有一种混合机器学习方法称为半监督式学习，在该方法中仅有部分数据带标签。在半监督式学习中，算法必须确定如何编排和整理数据才能得出已知结果。例如，机器学习模型被告知结果是梨，但只有部分训练数据被标记为梨。

强化学习是一种机器学习模型，可以描述为通过一系列试错实验来“边做边学”。“代理”通过反馈环学习执行定义的任务，直到其性能达到预期范围。当代理出色执行任务时，它会获得正强化；当代理表现不佳时，它会获得负强化。强化学习的一个例子是，Google 研究人员教一种强化学习算法下围棋。这个模型事先并不了解围棋规则，它只是随机移动棋子并“学习”最佳落子。该算法通过正强化和负强化进行训练，最终使机器学习模型能够在"game.four"游戏中战胜人类玩家。

机器学习的优点

模式识别

机器学习算法获得的数据越多，发现数据中趋势和模式的能力就越强。例如，电子商务网站可以使用机器学习来了解用户在其网站上的购物方式，并利用这些信息更精准地为用户推荐商品，或者发现趋势数据以挖掘新的商品机会。

自动化

机器学习和人工智能可以代替人类员工完成许多单调乏味的工作。机器人流程自动化等应用程序可以使员工从枯燥的任务中解放出来，去完成更有意义的工作。计算机视觉和对象检测算法可以帮助机器人在组装线上挑选和包装产品。始终在线的欺诈检测和威胁评估机器学习可以发现安全漏洞，防患于未然。

持续改进

在获得正确的数据后，机器学习算法会不断改进，提高速度和准确率。这种改进可以通过几种关键方式实现，包括使用新数据进行保留，以及接收用户的真实反馈。

机器学习面临的潜在挑战

可能产生偏见

机器学习的质量通常取决于输入的数据。如果向机器学习算法提供有偏见的数据集，它将产生有偏见的结果。

需要获取大量数据

机器学习需要获得大量数据才能发挥作用。由于许多机器学习应用场景都是基于监督式学习的，因此获取并清理结构化数据以训练算法是重要的第一步。如果组织内的数据以孤岛形式存在，完成这项工作会非常困难。

需要一定的技术知识水平

虽然机器学习、人工智能和云供应商已经使设置和运行机器学习算法的工作变得更轻松，但组织通常还是需要程序员和数据科学家了解和利用训练算法及其结果。

需要耗费大量资源

机器学习非常耗时，需要耗费大量的计算资源和员工时间才能开始处理数据并获得结果。

利用 Google Cloud 解决业务难题

新客户可获得 $300 赠金，用于抵扣 Google Cloud 的费用。

与 Google Cloud 销售专员联系，详细讨论您面临的独特挑战。

机器学习的用途

一些常见的机器学习应用场景包括：

机器人流程自动化 (RPA)

RPA 与机器学习相结合，创建了智能自动化功能，能够自动化复杂的任务，例如处理抵押贷款申请。Google Cloud 提供多种可与 RPA 搭配使用的产品，包括用于 API 管理的 Apigee、用于低代码开发的 AppSheet，以及用于机器学习工作流的 Agent Platform。

销售优化

客户数据可以训练机器学习算法，以进行客户情感分析、销售预测分析和客户流失预测。用于数据仓储的 BigQuery、用于数据可视化的 Looker 以及用于构建和部署机器学习模型的 Agent Platform 等工具可以帮助优化销售流程。

客户服务

机器学习应用可以包括聊天机器人和自动虚拟助手，可以使日常客户服务任务自动化并加快问题解决速度。Dialogflow 可帮助为网站、移动应用和设备创建对话界面。Contact Center AI 还可用于改进客户服务运营。

安全

机器学习可帮助企业提升威胁分析能力，以及改进应对网络攻击、黑客和恶意软件的方式。Google Cloud Security Command Center (SCC) 可提供 Google Cloud 资源的安全和风险的整合视图。Google Cloud Armor 可帮助保护 Web 应用免受威胁，而 Chronicle SIEM 可帮助检测和调查威胁。

数字营销

机器学习使营销人员能够识别新客户，并在合适的时间向合适的人提供合适的营销材料。与 Google Ads 和 Google Analytics 360 集成的营销分析解决方案（如 BigQuery ML 和 Agent Platform）可用于构建自定义机器学习模型，实现个性化营销。

欺诈防范

机器学习可帮助信用卡公司和银行查看大量交易数据，以实时识别可疑活动。reCAPTCHA Enterprise 可帮助保护网站和移动应用免受欺诈活动的影响。Google Cloud 还与 Swift 合作，利用先进的 AI 和联邦学习技术开发欺诈防护技术。