什么是机器学习 (ML)?

如今的企业正在被海量数据淹没。为了制定更好的业务决策,他们必须弄清数据的含义。但是,庞大的数据量以及数据复杂度导致使用传统工具难以分析数据。构建、测试、迭代和部署分析模型以识别数据中的模式和洞见会耗费员工大量时间,并且在规模扩大后效果不佳。利用机器学习,组织可以随着数据规模的扩大快速从中获取洞见。

新客户最高可获享 $300 赠金,用于试用 Vertex AI 和其他 Google Cloud 产品。

利用 MLOps 加速模型部署

机器学习的定义

机器学习是人工智能的一个分支,向系统输入大量数据后,系统会使用神经网络和深度学习进行自主学习和改进,无需对其明确编程。

机器学习可让计算机系统通过累积更多“经验”来不断调整并增强自身功能,因此,通过提供更大、更多样化的数据集进行处理,可以提高这些系统的性能。

应用场景范围

几乎所有行业和商业活动中都能找到机器学习的身影。机器学习可帮助物流行业优化运输和配送路线,帮助零售行业打造个性化购物体验和管理库存,帮助制造商实现工厂自动化,并帮助世界各地的组织提高安全性。当用户通过语音询问智能手机或扬声器时,机器学习技术用于理解指令并帮助查找结果。机器学习的应用场景非常广泛,并且还在不断扩大。

机器学习的重要性

数据生成速度每天都在加快。全世界每天产生的数据比历史上任何时候都要多。如果没有机器学习,想要分析和利用所有这些数据几乎是不可能的。正如其名称所表明的那样,机器学习开辟了人类利用计算机和其他机器的全新领域。机器学习可帮助企业构建各种重要功能,例如欺诈检测、识别安全威胁、个性化与推荐、通过聊天机器人提供自动化客户服务、转写和翻译、数据分析等。机器学习技术还推动了众多激动人心的创新,例如自动驾驶汽车、无人机、飞机、增强现实、虚拟现实和虚拟现实,以及机器人。

机器学习、人工智能和深度学习有什么区别?

虽然人工智能 (AI) 和机器学习 (ML) 常常被当作同义词使用,但这两个术语并不能互换。

人工智能是计算机科学中的一个领域,旨在构建能够像人类一样推理、学习和行动的计算机和机器,或者数据规模超出人类分析能力的系统。该领域涉及许多不同的学科,包括数据分析、统计、硬件和软件工程、神经科学,甚至还有哲学。

人工智能是计算机科学的一个广泛类别,而机器学习是一种 AI 应用,涉及训练机器来执行任务,而无需专门为此编程。机器学习被更明确地用作一种通过神经网络、监督式和非监督式学习、决策树或线性回归等方法从数据中提取知识的方式。

就像机器学习是人工智能的一个分支一样,深度学习也是机器学习的一个分支。深度学习基于数据训练神经网络。神经网络是一种使用人工神经元系统的模型,人工神经元是用于对数据进行分类和分析的计算节点。数据被输入神经网络的第一层,每个节点都会做出决定,然后将该信息传递到下一层的多个节点。超过三层的训练模型称为“深度神经网络”或“深度学习”。某些现代神经网络有数百或数千层。

机器学习的运作方式是怎样的?

机器学习的工作原理是使用数据训练算法以实现预期结果,例如识别模式或识别对象。机器学习是对模型进行优化的过程,使模型能够根据训练数据样本预测正确的回答。

假设训练数据质量较高,则机器学习算法收到的训练样本越多,模型就越准确。在训练期间,算法将模型与数据进行拟合,这个过程称为“拟合过程”。如果结果不符合预期,算法将反复重新训练,直到输出准确的回答。从本质上讲,算法从数据中学习,并根据输入和回答是否符合线性、聚类或其他统计相关性来得出结果。

机器学习的类型

机器学习中的训练数据是什么?这取决于所使用的机器学习模型的类型。

概括来讲,机器学习中有三种类型的模型。

监督式学习是一种使用带标签的训练数据(结构化数据)将特定特征映射到标签的机器学习模型。在监督式学习中,输出结果是已知的(例如识别苹果图片),模型是使用已知输出的数据进行训练的。简单来说,要训练算法识别苹果的图片,则向其提供标记为苹果的图片。

目前最常用的监督式学习算法包括:

  • 线性回归
  • 多项式回归
  • K 近邻算法
  • 朴素贝叶斯
  • 决策树

非监督式学习是一种使用无标签数据(非结构化数据)来学习模式的机器学习模型。与监督式学习不同,输出的“正确性”无法提前确定。这种算法会在没有人工输入(即无人监督)的情况下从数据中学习,并根据属性将数据分类为多个组。例如,如果给算法提供了苹果图片和香蕉图片,它就会自行识别哪张图片是苹果,哪张图片是香蕉。非监督式学习擅长描述性建模和模式匹配。

目前最常用的非监督式学习算法包括:

  • 模糊均值
  • K-means 集群
  • 层次聚类
  • 偏最小二乘

还有一种混合机器学习方法称为半监督式学习,在该方法中仅有部分数据带标签。在半监督式学习中,算法必须确定如何编排和整理数据才能得出已知结果。例如,机器学习模型被告知结果是梨,但只有部分训练数据被标记为梨。

强化学习是一种机器学习模型,可以描述为通过一系列试错实验来“边做边学”。“代理”通过反馈环学习执行定义的任务,直到其性能达到预期范围。当代理出色执行任务时,它会获得正强化;当代理表现不佳时,它会获得负强化。强化学习的一个例子是,Google 研究人员教一种强化学习算法下围棋。这个模型事先并不了解围棋规则,它只是随机移动棋子并“学习”最佳落子。该算法通过正强化和负强化进行训练,最后的结果是机器学习模型能够击败人类围棋手。

机器学习的优点

模式识别

机器学习算法获得的数据越多,发现数据中趋势和模式的能力就越强。例如,电子商务网站可以使用机器学习来了解用户在其网站上的购物方式,并利用这些信息更精准地为用户推荐商品,或者发现趋势数据以挖掘新的商品机会。

自动化

机器学习和人工智能可以代替人类员工完成许多单调乏味的工作。机器人流程自动化等应用程序可以使员工从枯燥的任务中解放出来,去完成更有意义的工作。计算机视觉和对象检测算法可以帮助机器人在组装线上挑选和包装产品。始终在线的欺诈检测和威胁评估机器学习可以发现安全漏洞,防患于未然。

持续改进

在获得正确的数据后,机器学习算法会不断改进,提高速度和准确率。一直在不断改进文本生成方式的 GPT-3 数据集就是一个很好的例子。

机器学习的缺点

可能产生偏见

机器学习的质量通常取决于输入的数据。如果向机器学习算法提供有偏见的数据集,它将产生有偏见的结果。

需要获取大量数据

机器学习需要获得大量数据才能发挥作用。由于许多机器学习应用场景都是基于监督式学习的,因此获取并清理结构化数据以训练算法是重要的第一步。如果组织内的数据以孤岛形式存在,完成这项工作会非常困难。

需要一定的技术知识水平

虽然机器学习、人工智能和云供应商已经使设置和运行机器学习算法的工作变得更轻松,但组织通常还是需要程序员和数据科学家了解和利用训练算法及其结果。  

需要耗费大量资源

机器学习非常耗时,需要耗费大量的计算资源和员工时间才能开始处理数据并获得结果。

利用 Google Cloud 解决业务难题

新客户可获得 $300 赠金,用于抵扣 Google Cloud 的费用。
与 Google Cloud 销售专员联系,详细讨论您的独特挑战。

机器学习的用途

以下是机器学习用途的一些示例:

机器人流程自动化

RPA 与机器学习相结合,创建了智能自动化功能,能够自动化复杂的任务,例如处理抵押贷款申请。

销售优化

客户数据可以训练机器学习算法,以进行客户情感分析、销售预测分析和客户流失预测。

客户服务

机器学习应用包括聊天机器人和自动虚拟助手,可以使日常客户服务任务自动化并加快问题解决速度。

安全性

机器学习可帮助企业提升威胁分析能力,以及改进应对网络攻击、黑客和恶意软件的方式。

数字营销

机器学习使营销人员能够识别新客户,并在合适的时间向合适的人提供合适的营销材料。

欺诈防范

机器学习可帮助信用卡公司和银行查看大量交易数据,以实时识别可疑活动。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台