Migrar o Dataplex Explore para o BigQuery Studio

O Dataplex está descontinuando o suporte ao Explore. Este documento descreve as etapas para migrar recursos do Dataplex Explore para o BigQuery Studio. É possível migrar o Spark SQL e o JupyterLab Notebook para o BigQuery Studio, uma ferramenta de análise de plataforma.

Recursos descontinuados

Em caso de dúvidas, entre em contato com a equipe do Explore em dataplex-explore-support@google.com.

Antes de começar

  • Enable the BigQuery and BigQuery Studio APIs.

    Enable the APIs

Conteúdo do notebook

Se você tiver notebooks no recurso Explorar que são executados em uma instância do JupyterLab de forma sem servidor, terá a mesma experiência no BigQuery Studio após a migração.

O BigQuery Studio oferece uma interface de notebook. com a tecnologia Colab Enterprise, que oferece várias vantagens Notebooks do JupyterLab. Você ainda pode gravar, salvar e executar seus notebooks sem servidor no BigQuery Studio. Além disso, você pode aproveitar o ambiente de nuvem integrado do Colab Enterprise com GPUs e TPUs poderosos, colaboração em tempo real, compartilhamento e controle de acesso pelo Google Drive, salvamento automático, bibliotecas pré-instaladas, uso gratuito com cotas, widgets e extensões integrados e integração com outros serviços do Google, como o BigQuery e o Cloud Storage.

Conteúdo do Spark SQL

O Dataplex Discovery registra tabelas descobertas no BigQuery e Dataproc Metastore. Dependendo de onde as tabelas estão registradas, use uma das seguintes opções de migração.

  • As tabelas são registradas no metastore do Dataproc e no BigQuery: se o script do Spark SQL interagir com tabelas descobertas pelo Dataplex pelo metastore do Dataproc, será possível consultar essas tabelas diretamente no BigQuery.
  • As tabelas são registradas apenas no Dataproc Metastore: se o script do Spark SQL interagir com tabelas que não estão disponíveis no BigQuery, será necessário configurar a integração do BigQuery Studio com o Dataproc Metastore. O metastore do Dataproc fornece dois tipos de endpoints: Thrift e gRPC. Para mais informações sobre como encontrar o protocolo do endpoint, consulte Encontre o valor do URI do endpoint. Em seguida, configure a integração do BigQuery Studio usando as etapas nas seções a seguir.

Conecte-se a um metastore do Dataproc baseado em Thrift

Um endpoint baseado em Thrift começa com thrift://. Para se conectar a um metastore do Dataproc baseado em Thrift, transmita o URI do endpoint do Thrift na configuração SparkSession, como no exemplo a seguir:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

conectar-se a um endpoint baseado em gRPC;

Um endpoint baseado em gRPC começa com https://. O Spark não pode se conectar diretamente a endpoints não baseados no Thrift. Em vez disso, é necessário executar um serviço de proxy que converta as solicitações do Thrift para o gRPC. Para se conectar a uma instância de serviço Metastore do Dataproc, siga estas etapas em Notebook do BigQuery Studio:

  1. Faça o download da versão mais recente do arquivo JAR do proxy do Hive Metastore (HMS) no ambiente de execução do notebook executando o seguinte comando:

    # Download the latest HMS Proxy jar file.
    !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Inicie o proxy do HMS.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Conecte a sessão do Spark a um proxy HMS local.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Recursos da sessão

Um recurso de sessão se refere a uma sessão ativa específica do usuário. Migração de recursos de sessão não tem suporte.

Recursos do ambiente

Um ambiente fornece recursos de computação sem servidor para que suas consultas do Spark SQL e notebooks sejam executados em um lago. Como o BigQuery Studio fornece ambiente sem servidor para executar consultas SQL e notebooks, migração de não há suporte para os recursos do ambiente.

Agendar uma tarefa com recursos de conteúdo

É possível programar consultas no BigQuery Studio.