O Dataplex está descontinuando o suporte ao Explore. Este documento descreve as etapas para migrar os recursos do Dataplex Explore para o BigQuery Studio. É possível migrar o Spark SQL e o JupyterLab Notebook para o BigQuery Studio, uma ferramenta de análise de plataforma.
Recursos descontinuados
- Workbench SQL (em inglês) do Spark
- Ambiente de desenvolvimento integrado do notebook
- Todos os recursos de conteúdo
- Todos os ambientes
- Todas as sessões
- Recursos de tarefas que agendam os Notebooks ou os scripts do Spark SQL criado em Explorar
Em caso de dúvidas ou esclarecimentos, entre em contato com a equipe do recurso Explorar em: dataplex-explore-support@google.com.
Antes de começar
-
Ative as APIs BigQuery and BigQuery Studio.
Conteúdo do notebook
Se você tiver notebooks em "Explorar" executados em uma instância do JupyterLab em um sem servidor, após a migração, você terá a mesma experiência o BigQuery Studio.
O BigQuery Studio oferece uma interface de notebook com a tecnologia Colab Enterprise, que oferece várias vantagens Notebooks do JupyterLab. Você ainda pode gravar, salvar e executar seus notebooks sem servidor no BigQuery Studio. Além disso, é possível se beneficiar do ambiente de nuvem integrado do Colab Enterprise com GPUs e TPUs poderosas, colaboração em tempo real, compartilhamento e controle de acesso com o Google Drive, salvamento automático, bibliotecas pré-instaladas, uso gratuito com o cotas, widgets e extensões integrados e integração com outros serviços como o BigQuery e o Cloud Storage.
Conteúdo do Spark SQL
O Dataplex Discovery registra tabelas descobertas no BigQuery e Dataproc Metastore. Dependendo de onde forem registradas, use uma das opções de migração a seguir.
- As tabelas são registradas no metastore do Dataproc e BigQuery: se o script do Spark SQL interagir com Tabelas descobertas pelo Dataplex no metastore do Dataproc, você poderá consultar essas tabelas diretamente no BigQuery.
- As tabelas são registradas somente no metastore do Dataproc: se o Spark SQL interage com tabelas não disponíveis no BigQuery e, em seguida, você precisa configurar a integração do BigQuery Studio com Metastore do Dataproc. O metastore do Dataproc fornece dois tipos de endpoints: Thrift e gRPC. Para mais informações sobre como encontrar o protocolo do endpoint, consulte Encontre o valor do URI do endpoint. Em seguida, para configurar a integração do BigQuery Studio, siga as etapas a seguir: em outras seções.
Conecte-se a um metastore do Dataproc baseado em Thrift
Um endpoint baseado em Thrift começa com thrift://
. Para se conectar a uma
Dataproc Metastore, transmita o URI do endpoint do Thrift na
SparkSession
, como no exemplo a seguir:
from pyspark.sql import SparkSession
spark = (
SparkSession.builder.appName("Dataproc Metastore Connection")
.config(
"spark.hadoop.hive.metastore.uris",
"thrift://IP_ADDRESS:9083",
)
.enableHiveSupport()
.getOrCreate()
)
conectar-se a um endpoint baseado em gRPC;
Um endpoint baseado em gRPC começa com https://
. O Spark não consegue se conectar a outros provedores
baseados em endpoints diretamente. Em vez disso, é preciso executar um serviço de proxy
converte solicitações do Thrift para gRPC. Para se conectar a uma instância de
serviço Metastore do Dataproc, siga estas etapas em
Notebook do BigQuery Studio:
Faça download da versão mais recente do arquivo JAR do proxy Hive Metastore (HMS) no ambiente de execução do notebook executando o seguinte comando nele:
# Download the latest HMS Proxy jar file. !gsutil cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
Inicie o proxy do HMS.
%%bash # Metastore store URI including the port number but without "https://" prefix. METASTORE_URI=METASTORE_URI # HMS Proxy JAR path. JAR_PATH=JAR_PATH # DPMS Supported Hive Version. HIVE_VERSION=3.1.2 # Start the HMS Proxy. java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
Conectar a sessão Spark a um proxy HMS local.
from pyspark.sql import SparkSession spark = ( SparkSession.builder.appName("Dataproc Metastore Connection") .config( "spark.hadoop.hive.metastore.uris", "thrift://localhost:9083", ) .enableHiveSupport() .getOrCreate() )
Recursos da sessão
Um recurso de sessão se refere a uma sessão ativa específica do usuário. Migração de recursos de sessão não tem suporte.
Recursos do ambiente
Um ambiente fornece recursos de computação sem servidor para suas consultas Spark SQL e notebooks para execução em um lake. Como o BigQuery Studio fornece uma ambiente sem servidor para executar consultas SQL e notebooks, migração de não há suporte para os recursos do ambiente.
Agendar uma tarefa com recursos de conteúdo
É possível programar consultas no BigQuery Studio.