Dataplex unterstützt die Funktion „Erkunden“ nicht mehr. In diesem Dokument wird erläutert, die Schritte zum Migrieren von Dataplex Explore-Ressourcen zu BigQuery Studio Sie können den Inhalt Ihrer Spark SQL- und JupyterLab-Notebooks zu BigQuery Studio migrieren, einer einheitlichen Plattform für die explorative Datenanalyse.
Eingestellte Funktionen
- Spark SQL Workbench
- Notebook-IDE
- Alle Inhaltsressourcen
- Alle Umgebungen
- Alle Sitzungen
- Task-Funktionen, mit denen die in Explore erstellten Notebooks oder Spark SQL-Scripts geplant werden können
Bei Fragen oder Unklarheiten wenden Sie sich bitte an das Explore-Team unter dataplex-explore-support@google.com.
Hinweis
-
Enable the BigQuery and BigQuery Studio APIs.
Notebook-Inhalt
Wenn Sie Notebooks in Explore haben, die in einer Jupyterlab-Instanz in einem Serverlos sein, haben Sie nach der Migration die gleiche Erfahrung BigQuery Studio
BigQuery Studio bietet eine Notebook-Oberfläche. auf Basis von Colab Enterprise, die mehrere Vorteile gegenüber JupyterLab-Notebooks. Sie können Ihre Notebooks weiterhin serverlos in BigQuery Studio schreiben, speichern und ausführen. Außerdem können Sie Sie profitieren von der integrierten Cloud-Umgebung von Colab Enterprise mit leistungsstarken GPUs und TPUs, Echtzeit-Zusammenarbeit, Freigabe und Zugriffssteuerung über Google Drive, automatisches Speichern, vorinstallierte Bibliotheken, kostenlose Nutzung mit Kontingente, integrierte Widgets und Erweiterungen sowie Integration mit anderen Google wie BigQuery und Cloud Storage.
Spark SQL-Inhalte
Dataplex Discovery registriert erkannte Tabellen in BigQuery und Dataproc Metastore. Je nachdem, wo die Tabellen registriert sind, verwenden Sie eine der folgenden Migrationsoptionen.
- Tabellen sind sowohl in Dataproc Metastore als auch BigQuery: wenn das Spark SQL-Skript mit Von Dataplex erkannte Tabellen über Dataproc Metastore, können Sie diese Tabellen direkt BigQuery
- Tabellen sind nur im Dataproc Metastore registriert: Wenn das Spark SQL-Script mit Tabellen interagiert, die nicht in BigQuery verfügbar sind, müssen Sie die BigQuery Studio-Integration mit dem Dataproc Metastore einrichten. Dataproc Metastore bietet zwei Arten von Endpunkten: Thrift und gRPC. Weitere Informationen zum Finden des Endpunktprotokolls finden Sie unter Wert für den Endpunkt-URI ermitteln. Richten Sie dann die BigQuery Studio-Integration mithilfe der Schritte in den folgenden Abschnitten ein.
Verbindung zu einem Thrift-basierten Dataproc Metastore herstellen
Ein Thrift-basierter Endpunkt beginnt mit thrift://
. So stellen Sie eine Verbindung zu einem Thrift-basierten
Dataproc Metastore, übergeben Sie den URI des Thrift-Endpunkts in der
SparkSession
-Konfiguration wie im folgenden Beispiel:
from pyspark.sql import SparkSession
spark = (
SparkSession.builder.appName("Dataproc Metastore Connection")
.config(
"spark.hadoop.hive.metastore.uris",
"thrift://IP_ADDRESS:9083",
)
.enableHiveSupport()
.getOrCreate()
)
Verbindung zu einem gRPC-basierten Endpunkt herstellen
Ein gRPC-basierter Endpunkt beginnt mit https://
. Spark kann keine Verbindung zu Nicht-Thrift herstellen
und Endpunkte direkt nutzen. Stattdessen müssen Sie einen Proxy-Dienst ausführen,
Konvertiert Anfragen von Thrift in gRPC. So stellen Sie in Ihrem BigQuery Studio-Notebook eine Verbindung zu einem gRPC-basierten Dataproc Metastore-Dienst her:
Laden Sie die neueste Version der Hive Metastore-Proxy-JAR-Datei (HMS) herunter in der Notebook-Laufzeit durch Ausführen des folgenden Befehls im Notebook:
# Download the latest HMS Proxy jar file. !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
Starten Sie den HMS-Proxy.
%%bash # Metastore store URI including the port number but without "https://" prefix. METASTORE_URI=METASTORE_URI # HMS Proxy JAR path. JAR_PATH=JAR_PATH # DPMS Supported Hive Version. HIVE_VERSION=3.1.2 # Start the HMS Proxy. java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
Verbinden Sie die Spark-Sitzung mit einem lokalen HMS-Proxy.
from pyspark.sql import SparkSession spark = ( SparkSession.builder.appName("Dataproc Metastore Connection") .config( "spark.hadoop.hive.metastore.uris", "thrift://localhost:9083", ) .enableHiveSupport() .getOrCreate() )
Sitzungsressourcen
Eine Sitzungsressource bezieht sich auf eine nutzerspezifische aktive Sitzung. Die Migration von Sitzungsressourcen wird nicht unterstützt.
Umgebungsressourcen
Eine Umgebung bietet serverlose Rechenressourcen für Ihre Spark SQL-Abfragen und Notebooks, die in einem Lake ausgeführt werden sollen. Da BigQuery Studio eine Serverlose Umgebung zum Ausführen von SQL-Abfragen und Notebooks, Migration von Umgebungsressourcen werden nicht unterstützt.
Aufgaben mit Inhaltsressourcen planen
Sie können Abfragen in BigQuery Studio planen.