Dataplex sta interrompendo il supporto per Esplora. Questo documento illustra i passaggi per eseguire la migrazione delle risorse di Dataplex Explore a BigQuery Studio. Puoi eseguire la migrazione dei contenuti dei notebook JupyterLab e Spark SQL a BigQuery Studio, una piattaforma unificata per l'esplorazione dei dati.
Funzionalità ritirate
- Workbench SQL di Spark
- IDE Notebook
- Tutte le risorse di contenuti
- Tutti gli ambienti
- Tutte le sessioni
- Funzionalità delle attività che programmano Notebooks o script SQL Spark creato in Esplora
Per domande o chiarimenti, contatta il team di Explore all'indirizzo dataplex-explore-support@google.com.
Prima di iniziare
-
Enable the BigQuery and BigQuery Studio APIs.
Contenuti del blocco note
Se in Esplora hai blocchi note eseguiti in un'istanza Jupyterlab in modo serverless, dopo la migrazione avrai la stessa esperienza in BigQuery Studio.
BigQuery Studio offre un'interfaccia del blocco note basato su Colab Enterprise, che offre diversi vantaggi rispetto blocchi note JupyterLab. In BigQuery Studio puoi comunque scrivere, salvare ed eseguire i tuoi blocchi note in modo serverless. Inoltre, puoi beneficiare dell'ambiente cloud integrato di Colab Enterprise con potenti GPU e TPU, collaborazione in tempo reale, condivisione e controllo dell'accesso tramite Google Drive, salvataggio automatico, librerie preinstallate, utilizzo gratuito con quote, widget ed estensioni integrati e integrazione con altri servizi Google come BigQuery e Cloud Storage.
Contenuti di Spark SQL
Dataplex Discovery registra le tabelle rilevate in BigQuery e Dataproc Metastore. A seconda di dove si trovano sono registrate, usa una delle seguenti opzioni di migrazione.
- Le tabelle sono registrate sia in Dataproc Metastore BigQuery: se lo script Spark SQL interagisce con Tabelle rilevate da Dataplex tramite Dataproc Metastore, puoi eseguire direttamente una query sulle tabelle BigQuery.
- Le tabelle sono registrate solo in Dataproc Metastore: se lo script Spark SQL interagisce con tabelle non disponibili in BigQuery, devi configurare l'integrazione di BigQuery Studio con Dataproc Metastore. Dataproc Metastore fornisce due tipi di endpoint: Thrift e gRPC. Per ulteriori informazioni su come trovare il protocollo degli endpoint, vedi Trova il valore dell'URI dell'endpoint. Poi, configura l'integrazione di BigQuery Studio seguendo i passaggi descritti nelle sezioni seguenti.
Connettiti a Dataproc Metastore basato su Thrift
Un endpoint basato su Thrift inizia con thrift://
. Per collegarti a un negozio di articoli usati
Dataproc Metastore, passa l'URI dell'endpoint Thrift nella
Configurazione di SparkSession
, come nell'esempio seguente:
from pyspark.sql import SparkSession
spark = (
SparkSession.builder.appName("Dataproc Metastore Connection")
.config(
"spark.hadoop.hive.metastore.uris",
"thrift://IP_ADDRESS:9083",
)
.enableHiveSupport()
.getOrCreate()
)
Connettiti a un endpoint basato su gRPC
Un endpoint basato su gRPC inizia con https://
. Spark non può connettersi direttamente agli endpoint non basati su Thrift. Devi invece eseguire un servizio proxy che
converta le richieste da Thrift a gRPC. Per la connessione a un gateway
Dataproc Metastore, segui questi passaggi
Blocco note di BigQuery Studio:
Scarica la versione più recente del file JAR del proxy Hive Metastore (HMS) nel runtime del notebook eseguendo il seguente comando nel notebook:
# Download the latest HMS Proxy jar file. !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
Avvia il proxy HMS.
%%bash # Metastore store URI including the port number but without "https://" prefix. METASTORE_URI=METASTORE_URI # HMS Proxy JAR path. JAR_PATH=JAR_PATH # DPMS Supported Hive Version. HIVE_VERSION=3.1.2 # Start the HMS Proxy. java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
Connettere la sessione Spark a un proxy HMS locale.
from pyspark.sql import SparkSession spark = ( SparkSession.builder.appName("Dataproc Metastore Connection") .config( "spark.hadoop.hive.metastore.uris", "thrift://localhost:9083", ) .enableHiveSupport() .getOrCreate() )
Risorse sessione
Una risorsa sessione fa riferimento a una sessione attiva specifica per utente. La migrazione delle risorse della sessione non è supportata.
Risorse dell'ambiente
Un ambiente fornisce risorse di calcolo serverless per le query e i notebook Spark SQL da eseguire in un lake. Poiché BigQuery Studio fornisce un ambiente senza server per l'esecuzione di query e notebook SQL, la migrazione delle risorse dell'ambiente non è supportata.
Pianificare un'attività con le risorse di contenuti
Puoi pianificare le query in BigQuery Studio.