Esta página foi traduzida pela API Cloud Translation.

Migrar o Dataplex Explore para o BigQuery Studio

O Dataplex vai deixar de oferecer suporte ao Explore. Este documento descreve as etapas para migrar recursos do Dataplex Explore para o BigQuery Studio. É possível migrar o conteúdo do Spark SQL e do JupyterLab Notebook para o BigQuery Studio, uma plataforma unificada de exploração de dados.

Recursos descontinuados

Workbench SQL do Spark
Ambiente de desenvolvimento integrado de notebooks
Todos os recursos de conteúdo
Todos os ambientes
Todas as sessões
Recursos de tarefas que programam os notebooks ou scripts do Spark SQL criados no recurso Explorar

Em caso de dúvidas, entre em contato com a equipe do Explore em dataplex-explore-support@google.com.

Antes de começar

Enable the BigQuery and BigQuery Studio APIs.
Enable the APIs

Conteúdo do notebook

Se você tiver notebooks no Explore que são executados em uma instância do JupyterLab de forma sem servidor, terá a mesma experiência no BigQuery Studio após a migração.

O BigQuery Studio oferece uma interface de notebook com o Colab Enterprise, que oferece várias vantagens em relação aos notebooks do JupyterLab. Você ainda pode escrever, salvar e executar seus notebooks de maneira serverless no BigQuery Studio. Além disso, você pode aproveitar o ambiente de nuvem integrado do Colab Enterprise com GPUs e TPUs poderosos, colaboração em tempo real, compartilhamento e controle de acesso pelo Google Drive, salvamento automático, bibliotecas pré-instaladas, uso gratuito com cotas, widgets e extensões integrados e integração com outros serviços do Google, como o BigQuery e o Cloud Storage.

Conteúdo do Spark SQL

O Dataplex Discovery registra as tabelas descobertas no BigQuery e no Dataproc Metastore. Dependendo de onde as tabelas estão registradas, use uma das seguintes opções de migração.

As tabelas são registradas no metastore do Dataproc e no BigQuery. Se o script do Spark SQL interagir com tabelas descobertas pelo Dataplex pelo metastore do Dataproc, será possível consultar essas tabelas diretamente no BigQuery.
As tabelas são registradas apenas no Dataproc Metastore: se o script do Spark SQL interagir com tabelas que não estão disponíveis no BigQuery, será necessário configurar a integração do BigQuery Studio com o Dataproc Metastore. O metastore do Dataproc fornece dois tipos de endpoints: Thrift e gRPC. Para mais informações sobre como encontrar o protocolo de endpoint, consulte Encontrar o valor do URI do endpoint. Em seguida, configure a integração do BigQuery Studio usando as etapas nas seções a seguir.

Conectar-se a um Metastore do Dataproc baseado em Thrift

Um endpoint baseado em Thrift começa com thrift://. Para se conectar a um metastore do Dataproc baseado em Thrift, transmita o URI do endpoint do Thrift na configuração SparkSession, como no exemplo a seguir:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Conectar-se a um endpoint baseado em gRPC

Um endpoint baseado em gRPC começa com https://. O Spark não pode se conectar diretamente a endpoints não baseados no Thrift. Em vez disso, é necessário executar um serviço de proxy que converta as solicitações do Thrift para o gRPC. Para se conectar a um serviço do metastore do Dataproc baseado em gRPC, siga estas etapas no notebook do BigQuery Studio:

Faça o download da versão mais recente do arquivo JAR do proxy do Hive Metastore (HMS) no ambiente de execução do notebook executando o seguinte comando:
```
# Download the latest HMS Proxy jar file.
!gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
```

Inicie o proxy do HMS.

%%bash
# Metastore store URI including the port number but without "https://" prefix.
METASTORE_URI=METASTORE_URI
# HMS Proxy JAR path.
JAR_PATH=JAR_PATH
# DPMS Supported Hive Version.
HIVE_VERSION=3.1.2

# Start the HMS Proxy.
java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &

Conecte a sessão do Spark a um proxy HMS local.

from pyspark.sql import SparkSession

spark = (
  SparkSession.builder.appName("Dataproc Metastore Connection")
  .config(
      "spark.hadoop.hive.metastore.uris",
      "thrift://localhost:9083",
  )
  .enableHiveSupport()
  .getOrCreate()
)

Recursos da sessão

Um recurso de sessão se refere a uma sessão ativa específica do usuário. Não é possível migrar os recursos da sessão.

Recursos do ambiente

Um ambiente fornece recursos de computação sem servidor para que suas consultas SQL do Spark e notebooks sejam executados em um lago. Como o BigQuery Studio oferece um ambiente sem servidor para executar consultas e notebooks SQL, não é possível migrar os recursos do ambiente.

Programar uma tarefa com recursos de conteúdo

É possível programar consultas no BigQuery Studio.