Dataplex non supporterà più Explore. Questo documento illustra i passaggi per eseguire la migrazione delle risorse Dataplex Explore a BigQuery Studio. Puoi eseguire la migrazione dei contenuti dei notebook JupyterLab e Spark SQL a BigQuery Studio, una piattaforma unificata per l'esplorazione dei dati.
Funzionalità ritirate
- Workbench SQL di Spark
- IDE Notebook
- Tutte le risorse di contenuti
- Tutti gli ambienti
- Tutte le sessioni
- Funzionalità di attività che pianificano i notebook o gli script Spark SQL creati in Esplora
Per domande o chiarimenti, contatta il team di Explore all'indirizzo dataplex-explore-support@google.com.
Prima di iniziare
-
Enable the BigQuery and BigQuery Studio APIs.
Contenuti del notebook
Se in Esplora hai notebook eseguiti in un'istanza Jupyterlab in modo serverless, dopo la migrazione avrai la stessa esperienza in BigQuery Studio.
BigQuery Studio offre un'interfaccia di notebook basata su Colab Enterprise, che offre diversi vantaggi rispetto ai notebook JupyterLab. Puoi comunque scrivere, salvare ed eseguire i tuoi blocchi note in modo serverless in BigQuery Studio. Inoltre, puoi beneficiare dell'ambiente cloud integrato di Colab Enterprise con potenti GPU e TPU, collaborazione in tempo reale, condivisione e controllo dell'accesso tramite Google Drive, salvataggio automatico, librerie preinstallate, utilizzo gratuito con quote, widget ed estensioni integrati e integrazione con altri servizi Google come BigQuery e Cloud Storage.
Contenuti di Spark SQL
Dataplex Discovery registra le tabelle rilevate in BigQuery e Dataproc Metastore. A seconda di dove sono registrate le tabelle, utilizza una delle seguenti opzioni di migrazione.
- Le tabelle sono registrate sia in Dataproc Metastore sia in BigQuery: se lo script Spark SQL interagisce con le tabelle rilevate da Dataplex tramite Dataproc Metastore, puoi eseguire query direttamente su queste tabelle da BigQuery.
- Le tabelle sono registrate solo in Dataproc Metastore: se lo script Spark SQL interagisce con tabelle non disponibili in BigQuery, devi configurare l'integrazione di BigQuery Studio con Dataproc Metastore. Dataproc Metastore fornisce due tipi di endpoint: Thrift e gRPC. Per ulteriori informazioni su come trovare il protocollo dell'endpoint, consulta Trovare il valore dell'URI dell'endpoint. Poi, configura l'integrazione di BigQuery Studio seguendo i passaggi descritti nelle sezioni seguenti.
Connettiti a un Dataproc Metastore basato su Thrift
Un endpoint basato su Thrift inizia con thrift://
. Per connetterti a un Dataproc Metastore basato su Thrift, passa l'URI dell'endpoint Thrift nella configurazione SparkSession
, come nell'esempio seguente:
from pyspark.sql import SparkSession
spark = (
SparkSession.builder.appName("Dataproc Metastore Connection")
.config(
"spark.hadoop.hive.metastore.uris",
"thrift://IP_ADDRESS:9083",
)
.enableHiveSupport()
.getOrCreate()
)
Connettiti a un endpoint basato su gRPC
Un endpoint basato su gRPC inizia con https://
. Spark non può connettersi direttamente agli endpoint non basati su Thrift. Devi invece eseguire un servizio proxy che
converta le richieste da Thrift a gRPC. Per connetterti a un servizio Dataproc Metastore basato su gRPC, segui questi passaggi nel tuo notebook BigQuery Studio:
Scarica la versione più recente del file JAR del proxy Hive Metastore (HMS) nel runtime del notebook eseguendo il seguente comando nel notebook:
# Download the latest HMS Proxy jar file. !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
Avvia il proxy HMS.
%%bash # Metastore store URI including the port number but without "https://" prefix. METASTORE_URI=METASTORE_URI # HMS Proxy JAR path. JAR_PATH=JAR_PATH # DPMS Supported Hive Version. HIVE_VERSION=3.1.2 # Start the HMS Proxy. java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
Collega la sessione Spark a un proxy HMS locale.
from pyspark.sql import SparkSession spark = ( SparkSession.builder.appName("Dataproc Metastore Connection") .config( "spark.hadoop.hive.metastore.uris", "thrift://localhost:9083", ) .enableHiveSupport() .getOrCreate() )
Risorse sessione
Una risorsa sessione fa riferimento a una sessione attiva specifica per utente. La migrazione delle risorse della sessione non è supportata.
Risorse dell'ambiente
Un ambiente fornisce risorse di calcolo serverless per le query e i notebook Spark SQL da eseguire in un lake. Poiché BigQuery Studio fornisce un ambiente senza server per l'esecuzione di query e notebook SQL, la migrazione delle risorse dell'ambiente non è supportata.
Pianificare un'attività con le risorse di contenuti
Puoi pianificare le query in BigQuery Studio.