Dataplex-Explore zu BigQuery Studio migrieren

Dataplex unterstützt die Funktion „Erkunden“ nicht mehr. In diesem Dokument wird erläutert, die Schritte zum Migrieren von Dataplex Explore-Ressourcen zu BigQuery Studio Sie können Ihr Spark SQL- und JupyterLab-Notebook migrieren in BigQuery Studio importieren, eine einheitliche explorative Datenanalyse Plattform.

Eingestellte Funktionen

Wenn Sie Fragen haben oder etwas klären möchten, wenden Sie sich an das Explore-Team unter dataplex-explore-support@google.com.

Hinweise

  • BigQuery and BigQuery Studio APIs aktivieren.

    Aktivieren Sie die APIs

Notebook-Inhalt

Wenn Sie Notebooks in Explore haben, die in einer Jupyterlab-Instanz in einem Serverlos sein, haben Sie nach der Migration die gleiche Erfahrung BigQuery Studio

BigQuery Studio bietet eine Notebook-Oberfläche. auf Basis von Colab Enterprise, die mehrere Vorteile gegenüber JupyterLab-Notebooks. Sie können Ihre Notebooks weiterhin schreiben, speichern und ausführen serverlos in BigQuery Studio. Außerdem können Sie profitieren Sie von der integrierten Cloud-Umgebung von Colab Enterprise mit leistungsstarken GPUs und TPUs, Echtzeit-Zusammenarbeit, Freigabe und Zugriffssteuerung über Google Drive, automatisches Speichern, vorinstallierte Bibliotheken, kostenlose Nutzung mit Kontingente, integrierte Widgets und Erweiterungen sowie Integration mit anderen Google wie BigQuery und Cloud Storage.

Spark SQL-Inhalt

Dataplex Discovery registriert erkannte Tabellen in BigQuery und Dataproc Metastore. Je nachdem, wo die Tabellen registriert sind, verwenden Sie eine der folgenden Migrationsoptionen.

  • Tabellen sind sowohl in Dataproc Metastore als auch BigQuery: wenn das Spark SQL-Skript mit Von Dataplex erkannte Tabellen über Dataproc Metastore, können Sie diese Tabellen direkt BigQuery
  • Tabellen werden nur in Dataproc Metastore registriert: wenn die Spark SQL- mit Tabellen interagiert, die in BigQuery nicht verfügbar sind, müssen Sie die BigQuery Studio-Integration Dataproc Metastore Dataproc Metastore bietet zwei Arten von Endpunkten: Secondhand und gRPC. Weitere Informationen dazu, wie du das Endpunktprotokoll findest, findest du unter Ermitteln Sie den Wert des Endpunkt-URI. Richten Sie dann die BigQuery Studio-Integration ein, indem Sie die Schritte unten ausführen .

Verbindung zu einem Thrift-basierten Dataproc Metastore herstellen

Ein Thrift-basierter Endpunkt beginnt mit thrift://. So stellen Sie eine Verbindung zu einem Thrift-basierten Dataproc Metastore, übergeben Sie den URI des Thrift-Endpunkts in der SparkSession-Konfiguration wie im folgenden Beispiel:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Verbindung zu einem gRPC-basierten Endpunkt herstellen

Ein gRPC-basierter Endpunkt beginnt mit https://. Spark kann keine Verbindung zu Nicht-Thrift herstellen und Endpunkte direkt nutzen. Stattdessen müssen Sie einen Proxy-Dienst ausführen, wandelt Anfragen von Thrift in gRPC um. Verbindung zu einem gRPC-basierten Dataproc Metastore-Dienst verwenden, führen Sie diese Schritte in Ihrem BigQuery Studio-Notebook:

  1. Laden Sie die neueste Version der Hive Metastore-Proxy-JAR-Datei (HMS) herunter in der Notebook-Laufzeit durch Ausführen des folgenden Befehls im Notebook:

    # Download the latest HMS Proxy jar file.
    !gsutil cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Starten Sie den HMS-Proxy.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Verbinden Sie die Spark-Sitzung mit einem lokalen HMS-Proxy.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Sitzungsressourcen

Eine Sitzungsressource bezieht sich auf eine nutzerspezifische aktive Sitzung. Migration von Sitzungsressourcen werden nicht unterstützt.

Umgebungsressourcen

Eine Umgebung bietet serverlose Rechenressourcen für Ihre Spark SQL-Abfragen und Notebooks, die in einem Lake ausgeführt werden sollen. Da BigQuery Studio eine Serverlose Umgebung zum Ausführen von SQL-Abfragen und Notebooks, Migration von Umgebungsressourcen werden nicht unterstützt.

Aufgaben mit Inhaltsressourcen planen

Sie können Abfragen in BigQuery Studio planen.