O Dataplex vai deixar de oferecer suporte ao Explore. Este documento descreve as etapas para migrar recursos do Dataplex Explore para o BigQuery Studio. É possível migrar o conteúdo do Spark SQL e do JupyterLab Notebook para o BigQuery Studio, uma plataforma unificada de exploração de dados.
Recursos descontinuados
- Workbench SQL do Spark
- Ambiente de desenvolvimento integrado de notebooks
- Todos os recursos de conteúdo
- Todos os ambientes
- Todas as sessões
- Recursos de tarefas que programam os notebooks ou scripts do Spark SQL criados no recurso Explorar
Em caso de dúvidas, entre em contato com a equipe do Explore em dataplex-explore-support@google.com.
Antes de começar
-
Enable the BigQuery and BigQuery Studio APIs.
Conteúdo do notebook
Se você tiver notebooks no Explore que são executados em uma instância do JupyterLab de forma sem servidor, terá a mesma experiência no BigQuery Studio após a migração.
O BigQuery Studio oferece uma interface de notebook com o Colab Enterprise, que oferece várias vantagens em relação aos notebooks do JupyterLab. Você ainda pode escrever, salvar e executar seus notebooks de maneira serverless no BigQuery Studio. Além disso, você pode aproveitar o ambiente de nuvem integrado do Colab Enterprise com GPUs e TPUs poderosos, colaboração em tempo real, compartilhamento e controle de acesso pelo Google Drive, salvamento automático, bibliotecas pré-instaladas, uso gratuito com cotas, widgets e extensões integrados e integração com outros serviços do Google, como o BigQuery e o Cloud Storage.
Conteúdo do Spark SQL
O Dataplex Discovery registra as tabelas descobertas no BigQuery e no Dataproc Metastore. Dependendo de onde as tabelas estão registradas, use uma das seguintes opções de migração.
- As tabelas são registradas no metastore do Dataproc e no BigQuery. Se o script do Spark SQL interagir com tabelas descobertas pelo Dataplex pelo metastore do Dataproc, será possível consultar essas tabelas diretamente no BigQuery.
- As tabelas são registradas apenas no Dataproc Metastore: se o script do Spark SQL interagir com tabelas que não estão disponíveis no BigQuery, será necessário configurar a integração do BigQuery Studio com o Dataproc Metastore. O metastore do Dataproc fornece dois tipos de endpoints: Thrift e gRPC. Para mais informações sobre como encontrar o protocolo de endpoint, consulte Encontrar o valor do URI do endpoint. Em seguida, configure a integração do BigQuery Studio usando as etapas nas seções a seguir.
Conectar-se a um Metastore do Dataproc baseado em Thrift
Um endpoint baseado em Thrift começa com thrift://
. Para se conectar a um metastore do Dataproc
baseado em Thrift, transmita o URI do endpoint do Thrift na
configuração SparkSession
, como no exemplo a seguir:
from pyspark.sql import SparkSession
spark = (
SparkSession.builder.appName("Dataproc Metastore Connection")
.config(
"spark.hadoop.hive.metastore.uris",
"thrift://IP_ADDRESS:9083",
)
.enableHiveSupport()
.getOrCreate()
)
Conectar-se a um endpoint baseado em gRPC
Um endpoint baseado em gRPC começa com https://
. O Spark não pode se conectar diretamente a endpoints não baseados
no Thrift. Em vez disso, é necessário executar um serviço de proxy que
converta as solicitações do Thrift para o gRPC. Para se conectar a um serviço do metastore do Dataproc
baseado em gRPC, siga estas etapas no
notebook do BigQuery Studio:
Faça o download da versão mais recente do arquivo JAR do proxy do Hive Metastore (HMS) no ambiente de execução do notebook executando o seguinte comando:
# Download the latest HMS Proxy jar file. !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
Inicie o proxy do HMS.
%%bash # Metastore store URI including the port number but without "https://" prefix. METASTORE_URI=METASTORE_URI # HMS Proxy JAR path. JAR_PATH=JAR_PATH # DPMS Supported Hive Version. HIVE_VERSION=3.1.2 # Start the HMS Proxy. java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
Conecte a sessão do Spark a um proxy HMS local.
from pyspark.sql import SparkSession spark = ( SparkSession.builder.appName("Dataproc Metastore Connection") .config( "spark.hadoop.hive.metastore.uris", "thrift://localhost:9083", ) .enableHiveSupport() .getOrCreate() )
Recursos da sessão
Um recurso de sessão se refere a uma sessão ativa específica do usuário. Não é possível migrar os recursos da sessão.
Recursos do ambiente
Um ambiente fornece recursos de computação sem servidor para que suas consultas SQL do Spark e notebooks sejam executados em um lago. Como o BigQuery Studio oferece um ambiente sem servidor para executar consultas e notebooks SQL, não é possível migrar os recursos do ambiente.
Programar uma tarefa com recursos de conteúdo
É possível programar consultas no BigQuery Studio.