Diese Seite wurde von der Cloud Translation API übersetzt.

Dataplex Explore zu BigQuery Studio migrieren

Die Unterstützung für Explore wird in Dataplex eingestellt. In diesem Dokument werden die Schritte zur Migration von Dataplex Explore-Ressourcen zu BigQuery Studio beschrieben. Sie können den Inhalt Ihrer Spark SQL- und JupyterLab-Notebooks zu BigQuery Studio migrieren, einer einheitlichen Plattform für die explorative Datenanalyse.

Eingestellte Funktionen

Spark SQL Workbench
Notebook-IDE
Alle Inhaltsressourcen
Alle Umgebungen
Alle Sitzungen
Task-Funktionen, mit denen die in Explore erstellten Notebooks oder Spark SQL-Scripts geplant werden können

Bei Fragen oder Unklarheiten wenden Sie sich bitte an das Explore-Team unter dataplex-explore-support@google.com.

Hinweise

Enable the BigQuery and BigQuery Studio APIs.
Enable the APIs

Notebookinhalt

Wenn Sie in Explore Notebooks haben, die serverlos in einer JupyterLab-Instanz ausgeführt werden, können Sie sie nach der Migration in BigQuery Studio auf die gleiche Weise verwenden.

BigQuery Studio bietet eine Notebook-Oberfläche, die auf Colab Enterprise basiert. Diese bietet mehrere Vorteile gegenüber JupyterLab-Notebooks. Sie können Ihre Notebooks weiterhin serverlos in BigQuery Studio schreiben, speichern und ausführen. Außerdem profitieren Sie von der integrierten Colab Enterprise-Cloud-Umgebung mit leistungsstarken GPUs und TPUs, Echtzeit-Zusammenarbeit, Freigabe- und Zugriffssteuerung über Google Drive, automatischem Speichern, vorinstallierten Bibliotheken, kostenloser Nutzung mit Quoten, integrierten Widgets und Erweiterungen sowie der Einbindung in andere Google-Dienste wie BigQuery und Cloud Storage.

Spark SQL-Inhalte

Dataplex Discovery registriert erkannte Tabellen in BigQuery und Dataproc Metastore. Je nachdem, wo die Tabellen registriert sind, können Sie eine der folgenden Migrationsoptionen verwenden.

Tabellen werden sowohl in Dataproc Metastore als auch in BigQuery registriert: Wenn das Spark SQL-Script über Dataproc Metastore mit in Dataplex erkannten Tabellen interagiert, können Sie diese Tabellen direkt über BigQuery abfragen.
Tabellen sind nur im Dataproc Metastore registriert: Wenn das Spark SQL-Script mit Tabellen interagiert, die nicht in BigQuery verfügbar sind, müssen Sie die BigQuery Studio-Integration mit dem Dataproc Metastore einrichten. Dataproc Metastore bietet zwei Arten von Endpunkten: Thrift und gRPC. Weitere Informationen zum Finden des Endpunktprotokolls finden Sie unter Wert für den Endpunkt-URI ermitteln. Richten Sie dann die BigQuery Studio-Integration mithilfe der Schritte in den folgenden Abschnitten ein.

Verbindung zu einem Thrift-basierten Dataproc Metastore herstellen

Ein Thrift-basierter Endpunkt beginnt mit thrift://. Wenn Sie eine Verbindung zu einem Thrift-basierten Dataproc Metastore herstellen möchten, geben Sie die Thrift-Endpunkt-URI in der SparkSession-Konfiguration an, wie im folgenden Beispiel:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Verbindung zu einem gRPC-basierten Endpunkt herstellen

Ein gRPC-basierter Endpunkt beginnt mit https://. Spark kann keine direkte Verbindung zu nicht Thrift-basierten Endpunkten herstellen. Stattdessen müssen Sie einen Proxydienst ausführen, der Anfragen von Thrift in gRPC konvertiert. So stellen Sie in Ihrem BigQuery Studio-Notebook eine Verbindung zu einem gRPC-basierten Dataproc Metastore-Dienst her:

Laden Sie die neueste Version der JAR-Datei des Hive Metastore-Proxys (HMS) in die Notebook-Laufzeit herunter. Führen Sie dazu den folgenden Befehl im Notebook aus:
```
# Download the latest HMS Proxy jar file.
!gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
```

Starten Sie den HMS-Proxy.

%%bash
# Metastore store URI including the port number but without "https://" prefix.
METASTORE_URI=METASTORE_URI
# HMS Proxy JAR path.
JAR_PATH=JAR_PATH
# DPMS Supported Hive Version.
HIVE_VERSION=3.1.2

# Start the HMS Proxy.
java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &

Verbinden Sie die Spark-Sitzung mit einem lokalen HMS-Proxy.

from pyspark.sql import SparkSession

spark = (
  SparkSession.builder.appName("Dataproc Metastore Connection")
  .config(
      "spark.hadoop.hive.metastore.uris",
      "thrift://localhost:9083",
  )
  .enableHiveSupport()
  .getOrCreate()
)

Sitzungsressourcen

Eine Sitzungsressource bezieht sich auf eine nutzerspezifische aktive Sitzung. Die Migration von Sitzungsressourcen wird nicht unterstützt.

Umgebungsressourcen

Eine Umgebung stellt serverlose Rechenressourcen für Ihre Spark SQL-Abfragen und ‑Notebooks bereit, die in einem Lake ausgeführt werden. Da BigQuery Studio eine serverlose Umgebung zum Ausführen von SQL-Abfragen und Notebooks bietet, wird die Migration von Umgebungsressourcen nicht unterstützt.

Aufgaben mit Inhaltsressourcen planen

Sie können Abfragen in BigQuery Studio planen.