Esegui la migrazione dell'esplorazione Dataplex a BigQuery Studio

Dataplex sta interrompendo il supporto per Esplora. In questo documento i passaggi per eseguire la migrazione delle risorse Dataplex Explore e BigQuery Studio. Puoi eseguire la migrazione del tuo blocco note Spark SQL e JupyterLab contenuti in BigQuery Studio, un'esplorazione dei dati unificata completamente gestita.

Funzionalità ritirate

Per domande o chiarimenti, contatta il team di Esplora all'indirizzo dataplex-explore-support@google.com.

Prima di iniziare

  • Abilita le API BigQuery and BigQuery Studio.

    Abilita le API

Contenuti del blocco note

Se in Esplora hai blocchi note che vengono eseguiti in un'istanza Jupyterlab in un in modo serverless, dopo la migrazione avrai la stessa esperienza e BigQuery Studio.

BigQuery Studio offre un'interfaccia del blocco note basato su Colab Enterprise, che offre diversi vantaggi rispetto blocchi note JupyterLab. Puoi comunque scrivere, salvare ed eseguire i tuoi blocchi note con un approccio serverless in BigQuery Studio. Inoltre, puoi sfruttare l'ambiente cloud integrato di Colab Enterprise con GPU e TPU potenti, collaborazione in tempo reale, condivisione e controllo dell'accesso tramite Google Drive, salvataggio automatico, librerie preinstallate, utilizzo gratuito con quote, estensioni e widget integrati e integrazione con altri servizi come BigQuery e Cloud Storage.

Contenuti Spark SQL

Dataplex Discovery registra le tabelle rilevate BigQuery e Dataproc Metastore. A seconda di dove si trovano sono registrate, usa una delle seguenti opzioni di migrazione.

  • Le tabelle sono registrate sia in Dataproc Metastore BigQuery: se lo script Spark SQL interagisce con Tabelle rilevate da Dataplex tramite Dataproc Metastore, puoi eseguire direttamente una query sulle tabelle BigQuery.
  • Le tabelle sono registrate solo in Dataproc Metastore: se il database Spark SQL lo script interagisce con tabelle non disponibili in BigQuery, devi configurare l'integrazione di BigQuery Studio Dataproc Metastore. Dataproc Metastore fornisce due tipi di endpoint: thrift e gRPC. Per ulteriori informazioni su come trovare il protocollo degli endpoint, vedi Trova il valore dell'URI dell'endpoint. Configura quindi l'integrazione di BigQuery Studio seguendo i passaggi riportati di seguito sezioni.

Connettiti a Dataproc Metastore basato su Thrift

Un endpoint basato su Thrift inizia con thrift://. Per collegarti a un negozio di articoli usati Dataproc Metastore, passa l'URI dell'endpoint Thrift nella Configurazione di SparkSession, come nell'esempio seguente:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Connettiti a un endpoint basato su gRPC

Un endpoint basato su gRPC inizia con https://. Spark non riesce a connettersi ai prodotti non Thrift direttamente basati sugli endpoint. Devi invece eseguire un servizio di proxy che converte le richieste da Thrift a gRPC. Per la connessione a un gateway Dataproc Metastore, segui questi passaggi Blocco note di BigQuery Studio:

  1. Scarica la versione più recente del file JAR del proxy Hive Metastore (HMS) nel del blocco note eseguendo il comando seguente nel blocco note:

    # Download the latest HMS Proxy jar file.
    !gsutil cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Avvia il proxy HMS.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Connettere la sessione Spark a un proxy HMS locale.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Risorse sessione

Una risorsa sessione si riferisce a una sessione attiva specifica per un utente. Migrazione di le risorse di sessione non sono supportate.

Risorse dell'ambiente

Un ambiente fornisce risorse di calcolo serverless per le query Spark SQL e blocchi note per l'esecuzione all'interno di un lake. Poiché BigQuery Studio offre per l'esecuzione di query SQL e blocchi note, migrazione risorse dell'ambiente non sono supportate.

Pianificare un'attività con risorse di contenuto

Puoi pianificare le query in BigQuery Studio.