使用 Spark Spanner 连接器

本页面介绍了如何创建 Dataproc 集群，以使用 Apache Spark 通过 Spark Spanner 连接器从 Spanner 读取数据

Spanner 连接器可与 Spark 搭配使用，以使用 Spanner Java 库从 Spanner 数据库中读取数据。Spanner 连接器支持将 Spanner 表和图读入 Spark DataFrames 和 GraphFrames 中。

费用

在本文档中，您将使用 Google Cloud的以下收费组件：

Dataproc
Spanner
Cloud Storage

如需根据您的预计使用量来估算费用，请使用价格计算器。

新 Google Cloud 用户可能有资格申请免费试用。

准备工作

在本教程中使用 Spanner 连接器之前，请设置 Dataproc 集群以及 Spanner 实例和数据库。

设置 Dataproc 集群

创建 Dataproc 集群或使用具有以下设置的现有 Dataproc 集群：

虚拟机服务账号权限。必须向集群的虚拟机服务账号分配适当的 Spanner 权限。如果您使用 Data Boost（导出 Spanner 表的示例代码中已启用 Data Boost），则虚拟机服务账号还必须拥有所需的 Data Boost IAM 权限。
访问权限范围。创建集群时必须启用 cloud-platform 范围或适当 spanner 范围。对于使用映像版本 2.1 或更高版本创建的集群，cloud-platform 范围默认处于启用状态。

以下说明介绍了如何在使用 Google Cloud 控制台、gcloud CLI 或 Dataproc API 的集群创建请求中设置 cloud-platform 范围。如需查看更多集群创建说明，请参阅创建集群。
Google Cloud 控制台
1. 在 Google Cloud 控制台中，打开 Dataproc 创建集群页面。
2. 在管理安全设置面板的项目访问权限部分中，点击“为此集群启用 cloud-platform 范围”。
3. 填写或确认其他集群创建字段，然后点击创建。
gcloud CLI

您可以运行以下 gcloud dataproc clusters create 命令，以创建集群并启用 cloud-platform 范围。
```
gcloud dataproc clusters create CLUSTER_NAME --scopes https://www.googleapis.com/auth/cloud-platform
```
API

您可以在 clusters.create 请求中指定 GceClusterConfig.serviceAccountScopes。
```
    "serviceAccountScopes": "https://www.googleapis.com/auth/cloud-platform"
```

设置包含 Singers 数据库表的 Spanner 实例

使用包含 Singers 表的数据库创建 Spanner 实例。记下 Spanner 实例 ID 和数据库 ID。

将 Spanner 连接器与 Spark 搭配使用

Spanner 连接器适用于 Spark 版本 3.1+。在向 Dataproc 集群提交作业时，您可以在 Cloud Storage 连接器 JAR 文件规范中指定连接器版本。

示例：使用 Spanner 连接器提交 gcloud CLI Spark 作业。

gcloud dataproc jobs submit spark \
    --jars=gs://spark-lib/spanner/spark-3.1-spanner-CONNECTOR_VERSION.jar \
    ... [other job submission flags]

替换以下内容：

CONNECTOR_VERSION：Spanner 连接器版本。从 GitHub GoogleCloudDataproc/spark-spanner-connector 代码库中的版本列表中选择 Spanner 连接器版本。

读取 Spanner 表

您可以使用 Python 或 Scala 通过 Spark 数据源 API 将 Spanner 表数据读入 Spark Dataframe 中。

PySpark

您可以通过以下方式在集群上运行本部分中的示例 PySpark 代码：将作业提交到 Dataproc 服务，或从集群主节点上的 spark-submit REPL 运行作业。

Dataproc 作业

使用本地文本编辑器或使用预安装的 vi、vim 或 nano 文本编辑器在 Cloud Shell 中创建 singers.py 文件。

填充占位符变量后，将以下代码粘贴到 singers.py 文件中。请注意，Spanner Data Boost 功能处于启用状态，对主 Spanner 实例的影响接近于零。

#!/usr/bin/env python

"""Spanner PySpark read example."""

from pyspark.sql import SparkSession

spark = SparkSession \
  .builder \
  .master('yarn') \
  .appName('spark-spanner-demo') \
  .getOrCreate()

# Load data from Spanner.
singers = spark.read.format('cloud-spanner') \
  .option("projectId", "PROJECT_ID") \
  .option("instanceId", "INSTANCE_ID") \
  .option("databaseId", "DATABASE_ID") \
  .option("table", "TABLE_NAME") \
  .option("enableDataBoost", "true") \
  .load()
singers.createOrReplaceTempView('Singers')

# Read from Singers
result = spark.sql('SELECT * FROM Singers')
result.show()
result.printSchema()

替换以下内容：

PROJECT_ID：您的 Google Cloud 项目 ID。项目 ID 列在 Google Cloud 控制台信息中心的项目信息部分中。
INSTANCE_ID、DATABASE_ID 和 TABLE_NAME：请参阅使用 Singers 数据库表设置 Spanner 实例。

保存 singers.py 文件。

使用 Google Cloud 控制台、gcloud CLI 或 Dataproc API 向 Dataproc 服务提交作业。
示例：使用 Spanner 连接器提交 gcloud CLI 作业。
```
gcloud dataproc jobs submit pyspark singers.py \
    --cluster=CLUSTER_NAME \
    --region=REGION \
    --jars=gs://spark-lib/spanner/spark-3.1-spanner-CONNECTOR_VERSION.jar
      
```
替换以下内容：
1. CLUSTER_NAME：新集群的名称。
2. REGION：用于运行工作负载的可用 Compute Engine 区域。
3. CONNECTOR_VERSION：Spanner 连接器版本。从 GitHub GoogleCloudDataproc/spark-spanner-connector 代码库中的版本列表中选择 Spanner 连接器版本。

spark-submit 作业

使用 SSH 连接到 Dataproc 集群主节点。
1. 在 Google Cloud 控制台中前往 Dataproc 集群页面，然后点击集群的名称
2. 在集群详情页面上，选择“虚拟机实例”标签页。然后点击集群主节点名称右侧的 SSH。
  
  此时会打开一个浏览器窗口并显示主节点上的主目录。
```
    Connected, host fingerprint: ssh-rsa 2048 ...
    ...
    user@clusterName-m:~$
    
```

使用预安装的 vi、vim 或 nano 文本编辑器在主节点上创建 singers.py 文件。

将以下代码粘贴到 singers.py 文件中。请注意，Spanner Data Boost 功能处于启用状态，对主 Spanner 实例的影响接近于零。

#!/usr/bin/env python

"""Spanner PySpark read example."""

from pyspark.sql import SparkSession

spark = SparkSession \
  .builder \
  .master('yarn') \
  .appName('spark-spanner-demo') \
  .getOrCreate()

# Load data from Spanner.
singers = spark.read.format('cloud-spanner') \
  .option("projectId", "PROJECT_ID") \
  .option("instanceId", "INSTANCE_ID") \
  .option("databaseId", "DATABASE_ID") \
  .option("table", "TABLE_NAME") \
  .option("enableDataBoost", "true") \
  .load()
singers.createOrReplaceTempView('Singers')

# Read from Singers
result = spark.sql('SELECT * FROM Singers')
result.show()
result.printSchema()

替换以下内容：

PROJECT_ID：您的 Google Cloud 项目 ID。项目 ID 列在 Google Cloud 控制台信息中心的项目信息部分中。
INSTANCE_ID、DATABASE_ID 和 TABLE_NAME：请参阅使用 Singers 数据库表设置 Spanner 实例。

保存 singers.py 文件。

使用 spark-submit 运行 singers.py 以创建 Spanner Singers 表。

spark-submit --jars gs://spark-lib/spanner/spark-3.1-spanner-CONNECTOR_VERSION.jar singers.py

替换以下内容：

CONNECTOR_VERSION：Spanner 连接器版本。从 GitHub GoogleCloudDataproc/spark-spanner-connector 代码库中的版本列表中选择 Spanner 连接器版本。

输出为：

...
+--------+---------+--------+---------+-----------+
|SingerId|FirstName|LastName|BirthDate|LastUpdated|
+--------+---------+--------+---------+-----------+
|       1|     Marc|Richards|     null|       null|
|       2| Catalina|   Smith|     null|       null|
|       3|    Alice| Trentor|     null|       null|
+--------+---------+--------+---------+-----------+

root
 |-- SingerId: long (nullable = false)
 |-- FirstName: string (nullable = true)
 |-- LastName: string (nullable = true)
 |-- BirthDate: date (nullable = true)
 |-- LastUpdated: timestamp (nullable = true)
only showing top 20 rows

Scala

如需在集群上运行示例 Scala 代码，请完成以下步骤：

使用 SSH 连接到 Dataproc 集群主节点。
1. 在 Google Cloud 控制台中前往 Dataproc 集群页面，然后点击集群的名称
2. 在集群详情页面上，选择“虚拟机实例”标签页。然后，点击集群主节点名称右侧的 SSH。
  此时会打开一个浏览器窗口并显示主节点上的主目录。
```
    Connected, host fingerprint: ssh-rsa 2048 ...
    ...
    user@clusterName-m:~$
    
```

使用预安装的 vi、vim 或 nano 文本编辑器在主节点上创建 singers.scala 文件。

将以下代码粘贴到 singers.scala 文件中。请注意，Spanner Data Boost 功能处于启用状态，对主 Spanner 实例的影响接近于零。

object singers {
  def main(): Unit = {
    /*
     * Uncomment (use the following code) if you are not running in spark-shell.
     *
    import org.apache.spark.sql.SparkSession
    val spark = SparkSession.builder()
      .appName("spark-spanner-demo")
      .getOrCreate()
    */

    // Load data in from Spanner. See
    // https://github.com/GoogleCloudDataproc/spark-spanner-connector/blob/main/README.md#properties
    // for option information.
    val singersDF =
      (spark.read.format("cloud-spanner")
        .option("projectId", "PROJECT_ID")
        .option("instanceId", "INSTANCE_ID")
        .option("databaseId", "DATABASE_ID")
        .option("table", "TABLE_NAME")
        .option("enableDataBoost", true)
        .load()
        .cache())

    singersDF.createOrReplaceTempView("Singers")

    // Load the Singers table.
    val result = spark.sql("SELECT * FROM Singers")
    result.show()
    result.printSchema()
  }
}

替换以下内容：

PROJECT_ID：您的 Google Cloud 项目 ID。项目 ID 列在 Google Cloud 控制台信息中心的项目信息部分中。
INSTANCE_ID、DATABASE_ID 和 TABLE_NAME：请参阅使用 Singers 数据库表设置 Spanner 实例。

保存 singers.scala 文件。

启动 spark-shell REPL。
```
$ spark-shell --jars=gs://spark-lib/spanner/spark-3.1-spanner-CONNECTOR_VERSION.jar
```
替换以下内容：

CONNECTOR_VERSION：Spanner 连接器版本。从 GitHub GoogleCloudDataproc/spark-spanner-connector 代码库中的版本列表中选择 Spanner 连接器版本。

使用 :load singers.scala 命令运行 singers.scala 以创建 Spanner Singers 表。输出列表会显示来自 Singers 输出的示例。

> :load singers.scala
Loading singers.scala...
defined object singers
> singers.main()
...
+--------+---------+--------+---------+-----------+
|SingerId|FirstName|LastName|BirthDate|LastUpdated|
+--------+---------+--------+---------+-----------+
|       1|     Marc|Richards|     null|       null|
|       2| Catalina|   Smith|     null|       null|
|       3|    Alice| Trentor|     null|       null|
+--------+---------+--------+---------+-----------+

root
 |-- SingerId: long (nullable = false)
 |-- FirstName: string (nullable = true)
 |-- LastName: string (nullable = true)
 |-- BirthDate: date (nullable = true)
 |-- LastUpdated: timestamp (nullable = true)

读取 Spanner 图

Spanner 连接器支持将该图导出到单独的节点和边缘 DataFrames，以及直接将其导出到 GraphFrames。

以下示例将 Spanner 导出到 GraphFrame。该示例使用 Spanner 连接器 jar 中包含的 Python SpannerGraphConnector 类来读取 Spanner 图。

from pyspark.sql import SparkSession

connector_jar = "gs://spark-lib/spanner/spark-3.1-spanner-CONNECTOR_VERSION.jar"

spark = (SparkSession.builder.appName("spanner-graphframe-graphx-example")
         .config("spark.jars.packages", "graphframes:graphframes:0.8.4-spark3.5-s_2.12")
         .config("spark.jars", connector_jar)
         .getOrCreate())
spark.sparkContext.addPyFile(connector_jar)

from spannergraph import SpannerGraphConnector

connector = (SpannerGraphConnector()
             .spark(spark)
             .project("PROJECT_ID")
             .instance("INSTANCE_ID")
             .database("DATABASE_ID")
             .graph("GRAPH_ID"))

g = connector.load_graph()
g.vertices.show()
g.edges.show()

替换以下内容：

CONNECTOR_VERSION：Spanner 连接器版本。从 GitHub GoogleCloudDataproc/spark-spanner-connector 代码库中的版本列表中选择 Spanner 连接器版本。
PROJECT_ID：您的 Google Cloud 项目 ID。项目 ID 列在 Google Cloud 控制台信息中心的项目信息部分中。
INSTANCE_ID、DATABASE_ID 和 TABLE_NAME：插入实例、数据库和图表 ID。

如需导出节点和边缘 DataFrames（而不是 GraphFrame），请改用 load_dfs：

df_vertices, df_edges, df_id_map = connector.load_dfs()

清理

为避免您的 Google Cloud 账号持续产生费用，您可以停止或删除 Dataproc 集群，并删除 Spanner 实例。

后续步骤

请参阅 pyspark.sql.DataFrame 示例。
如需了解 Spark DataFrame 语言支持，请参阅以下内容：
- Scala
- Java
- R
请参阅 GitHub 上的 Spark Spanner 连接器代码库。
请参阅 Spark 作业调优提示。

使用 Spark Spanner 连接器 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

费用

准备工作

设置 Dataproc 集群

Google Cloud 控制台

gcloud CLI

API

设置包含 Singers 数据库表的 Spanner 实例

将 Spanner 连接器与 Spark 搭配使用

读取 Spanner 表

PySpark

Dataproc 作业

spark-submit 作业

Scala

读取 Spanner 图

清理

后续步骤

使用 Spark Spanner 连接器