Apache Hadoop
Apache Hive
-
将 Kafka 主题流式传输到 Hive
使用 Dataproc 集群将 Kafka 主题流式传输到 Cloud Storage 中的 Apache Hive 表,然后查询流式传输的数据。
-
在 Dataproc 上使用 Apache Hive
了解如何在 Dataproc 上高效部署 Apache Hive 工作负载。
Apache Kafka
Apache Spark
-
使用 Dataproc 和 Apache Spark 实现蒙特卡罗方法
使用 Dataproc 和 Apache Spark 运行以 Python 和 Scala 语言编写的蒙特卡罗模拟。
-
使用 BigQuery 和 Spark ML 进行机器学习
使用 Dataproc、BigQuery 和 Apache Spark ML 进行机器学习。
-
将 BigQuery 连接器与 Apache Spark 搭配使用
参考示例代码,了解如何将适用于 Apache Hadoop 的 BigQuery 连接器与 Apache Spark 搭配使用。
-
将 Spark Spanner 连接器与 Apache Spark 搭配使用
参考示例代码,了解如何将适用于 Apache Hadoop 的 Spark Spanner 连接器与 Apache Spark 搭配使用。
-
将 Cloud Storage 连接器与 Apache Spark 搭配使用
参考示例代码,了解如何将适用于 Apache Hadoop 的 Cloud Storage 连接器与 Apache Spark 搭配使用。
-
编写及运行 Spark Scala 作业
使用 Dataproc 创建并提交 Spark Scala 作业。
连接器
-
将 BigQuery 连接器与 Apache Spark 搭配使用
参考示例代码,了解如何将适用于 Apache Hadoop 的 BigQuery 连接器与 Apache Spark 搭配使用。
-
将 Spark Spanner 连接器与 Apache Spark 搭配使用
参考示例代码,了解如何将适用于 Apache Hadoop 的 Spark Spanner 连接器与 Apache Spark 搭配使用。
-
将 Cloud Storage 连接器与 Apache Spark 搭配使用
参考示例代码,了解如何将适用于 Apache Hadoop 的 Cloud Storage 连接器与 Apache Spark 搭配使用。
-
使用 BigQuery 连接器编写 MapReduce 作业
参考示例代码,了解如何使用适用于 Apache Hadoop 的 BigQuery 连接器来编写 MapReduce 作业。
语言
-
配置 Dataproc Python 环境
配置 Python 以在 Dataproc 集群上运行 PySpark 作业。
-
使用 Python 版 Cloud 客户端库
使用 Python 版 Cloud 客户端库 API 以编程方式与 Dataproc 进行互动。
-
编写及运行 Spark Scala 作业
使用 Dataproc 创建并提交 Spark Scala 作业。
笔记本
-
Dataproc Hub 概览
了解 Dataproc Hub 基础知识。
-
配置 Dataproc 中心
配置 Dataproc 中心在单用户 Dataproc 集群上打开 JupyterLab 界面。
-
使用 Dataproc 中心
使用 Dataproc 中心实例在单用户 Dataproc 集群上打开 JupyterLab 界面。
-
安装及运行 Jupyter 笔记本
在 Dataproc 集群上安装、运行和访问 Jupyter 笔记本。
-
在 Dataproc 上通过 JupyterLab 笔记本运行基因组分析
在 Dataproc 集群上托管的 JupyterLab 笔记本上,使用 Dask、NVIDIA RAPIDS 和 GPU 运行单细胞基因组分析。