Dataplex Explore zu BigQuery Studio migrieren

Die Unterstützung für Explore wird in Dataplex eingestellt. In diesem Dokument werden die Schritte zur Migration von Dataplex Explore-Ressourcen zu BigQuery Studio beschrieben. Sie können den Inhalt Ihrer Spark SQL- und JupyterLab-Notebooks zu BigQuery Studio migrieren, einer einheitlichen Plattform für die explorative Datenanalyse.

Eingestellte Funktionen

Bei Fragen oder Unklarheiten wenden Sie sich bitte an das Explore-Team unter dataplex-explore-support@google.com.

Hinweise

  • Enable the BigQuery and BigQuery Studio APIs.

    Enable the APIs

Notebookinhalt

Wenn Sie in Explore Notebooks haben, die serverlos in einer JupyterLab-Instanz ausgeführt werden, können Sie sie nach der Migration in BigQuery Studio auf die gleiche Weise verwenden.

BigQuery Studio bietet eine Notebook-Oberfläche, die auf Colab Enterprise basiert. Diese bietet mehrere Vorteile gegenüber JupyterLab-Notebooks. Sie können Ihre Notebooks weiterhin serverlos in BigQuery Studio schreiben, speichern und ausführen. Außerdem profitieren Sie von der integrierten Cloud-Umgebung von Colab Enterprise mit leistungsstarken GPUs und TPUs, Echtzeit-Zusammenarbeit, Freigabe- und Zugriffssteuerung über Google Drive, automatischem Speichern, vorinstallierten Bibliotheken, kostenloser Nutzung mit Quoten, integrierten Widgets und Erweiterungen sowie der Einbindung in andere Google-Dienste wie BigQuery und Cloud Storage.

Spark SQL-Inhalte

Dataplex Discovery registriert erkannte Tabellen in BigQuery und Dataproc Metastore. Je nachdem, wo die Tabellen registriert sind, können Sie eine der folgenden Migrationsoptionen verwenden.

  • Tabellen werden sowohl in Dataproc Metastore als auch in BigQuery registriert: Wenn das Spark SQL-Script über Dataproc Metastore mit in Dataplex erkannten Tabellen interagiert, können Sie diese Tabellen direkt über BigQuery abfragen.
  • Tabellen sind nur im Dataproc Metastore registriert: Wenn das Spark SQL-Script mit Tabellen interagiert, die nicht in BigQuery verfügbar sind, müssen Sie die BigQuery Studio-Integration mit dem Dataproc Metastore einrichten. Dataproc Metastore bietet zwei Arten von Endpunkten: Thrift und gRPC. Weitere Informationen zum Finden des Endpunktprotokolls finden Sie unter Wert für den Endpunkt-URI ermitteln. Richten Sie dann die BigQuery Studio-Integration mithilfe der Schritte in den folgenden Abschnitten ein.

Verbindung zu einem Thrift-basierten Dataproc Metastore herstellen

Ein Thrift-basierter Endpunkt beginnt mit thrift://. Wenn Sie eine Verbindung zu einem Thrift-basierten Dataproc Metastore herstellen möchten, geben Sie die Thrift-Endpunkt-URI in der SparkSession-Konfiguration an, wie im folgenden Beispiel:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Verbindung zu einem gRPC-basierten Endpunkt herstellen

Ein gRPC-basierter Endpunkt beginnt mit https://. Spark kann keine direkte Verbindung zu nicht Thrift-basierten Endpunkten herstellen. Stattdessen müssen Sie einen Proxydienst ausführen, der Anfragen von Thrift in gRPC konvertiert. So stellen Sie in Ihrem BigQuery Studio-Notebook eine Verbindung zu einem gRPC-basierten Dataproc Metastore-Dienst her:

  1. Laden Sie die neueste Version der JAR-Datei des HMS-Proxys (Hive Metastore) in die Notebook-Laufzeit herunter. Führen Sie dazu den folgenden Befehl im Notebook aus:

    # Download the latest HMS Proxy jar file.
    !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Starten Sie den HMS-Proxy.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Verbinden Sie die Spark-Sitzung mit einem lokalen HMS-Proxy.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Sitzungsressourcen

Eine Sitzungsressource bezieht sich auf eine nutzerspezifische aktive Sitzung. Die Migration von Sitzungsressourcen wird nicht unterstützt.

Umgebungsressourcen

Eine Umgebung stellt serverlose Rechenressourcen für Ihre Spark SQL-Abfragen und ‑Notebooks bereit, die in einem Lake ausgeführt werden. Da BigQuery Studio eine serverlose Umgebung zum Ausführen von SQL-Abfragen und Notebooks bietet, wird die Migration von Umgebungsressourcen nicht unterstützt.

Aufgaben mit Inhaltsressourcen planen

Sie können Abfragen in BigQuery Studio planen.