Esegui la migrazione di Dataplex Explore in BigQuery Studio

Dataplex sta interrompendo il supporto per Esplora. Questo documento illustra i passaggi per eseguire la migrazione delle risorse di Dataplex Explore a BigQuery Studio. Puoi eseguire la migrazione dei contenuti dei notebook JupyterLab e Spark SQL a BigQuery Studio, una piattaforma unificata per l'esplorazione dei dati.

Funzionalità ritirate

Per domande o chiarimenti, contatta il team di Explore all'indirizzo dataplex-explore-support@google.com.

Prima di iniziare

  • Enable the BigQuery and BigQuery Studio APIs.

    Enable the APIs

Contenuti del blocco note

Se in Esplora hai blocchi note eseguiti in un'istanza Jupyterlab in modo serverless, dopo la migrazione avrai la stessa esperienza in BigQuery Studio.

BigQuery Studio offre un'interfaccia del blocco note basato su Colab Enterprise, che offre diversi vantaggi rispetto blocchi note JupyterLab. In BigQuery Studio puoi comunque scrivere, salvare ed eseguire i tuoi blocchi note in modo serverless. Inoltre, puoi beneficiare dell'ambiente cloud integrato di Colab Enterprise con potenti GPU e TPU, collaborazione in tempo reale, condivisione e controllo dell'accesso tramite Google Drive, salvataggio automatico, librerie preinstallate, utilizzo gratuito con quote, widget ed estensioni integrati e integrazione con altri servizi Google come BigQuery e Cloud Storage.

Contenuti di Spark SQL

Dataplex Discovery registra le tabelle rilevate in BigQuery e Dataproc Metastore. A seconda di dove si trovano sono registrate, usa una delle seguenti opzioni di migrazione.

  • Le tabelle sono registrate sia in Dataproc Metastore BigQuery: se lo script Spark SQL interagisce con Tabelle rilevate da Dataplex tramite Dataproc Metastore, puoi eseguire direttamente una query sulle tabelle BigQuery.
  • Le tabelle sono registrate solo in Dataproc Metastore: se lo script Spark SQL interagisce con tabelle non disponibili in BigQuery, devi configurare l'integrazione di BigQuery Studio con Dataproc Metastore. Dataproc Metastore fornisce due tipi di endpoint: Thrift e gRPC. Per ulteriori informazioni su come trovare il protocollo degli endpoint, vedi Trova il valore dell'URI dell'endpoint. Poi, configura l'integrazione di BigQuery Studio seguendo i passaggi descritti nelle sezioni seguenti.

Connettiti a Dataproc Metastore basato su Thrift

Un endpoint basato su Thrift inizia con thrift://. Per collegarti a un negozio di articoli usati Dataproc Metastore, passa l'URI dell'endpoint Thrift nella Configurazione di SparkSession, come nell'esempio seguente:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Connettiti a un endpoint basato su gRPC

Un endpoint basato su gRPC inizia con https://. Spark non può connettersi direttamente agli endpoint non basati su Thrift. Devi invece eseguire un servizio proxy che converta le richieste da Thrift a gRPC. Per la connessione a un gateway Dataproc Metastore, segui questi passaggi Blocco note di BigQuery Studio:

  1. Scarica la versione più recente del file JAR del proxy Hive Metastore (HMS) nel runtime del notebook eseguendo il seguente comando nel notebook:

    # Download the latest HMS Proxy jar file.
    !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Avvia il proxy HMS.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Connettere la sessione Spark a un proxy HMS locale.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Risorse sessione

Una risorsa sessione fa riferimento a una sessione attiva specifica per utente. La migrazione delle risorse della sessione non è supportata.

Risorse dell'ambiente

Un ambiente fornisce risorse di calcolo serverless per le query e i notebook Spark SQL da eseguire in un lake. Poiché BigQuery Studio fornisce un ambiente senza server per l'esecuzione di query e notebook SQL, la migrazione delle risorse dell'ambiente non è supportata.

Pianificare un'attività con le risorse di contenuti

Puoi pianificare le query in BigQuery Studio.