Migrar o Dataplex Explore para o BigQuery Studio

O Dataplex está descontinuando o suporte ao Explore. Este documento descreve as etapas para migrar os recursos do Dataplex Explore para o BigQuery Studio. É possível migrar o Spark SQL e o JupyterLab Notebook para o BigQuery Studio, uma ferramenta de análise de plataforma.

Recursos descontinuados

Em caso de dúvidas ou esclarecimentos, entre em contato com a equipe do recurso Explorar em: dataplex-explore-support@google.com.

Antes de começar

  • Ative as APIs BigQuery and BigQuery Studio.

    Ative as APIs

Conteúdo do notebook

Se você tiver notebooks em "Explorar" executados em uma instância do JupyterLab em um sem servidor, após a migração, você terá a mesma experiência o BigQuery Studio.

O BigQuery Studio oferece uma interface de notebook com a tecnologia Colab Enterprise, que oferece várias vantagens Notebooks do JupyterLab. Você ainda pode gravar, salvar e executar seus notebooks sem servidor no BigQuery Studio. Além disso, é possível se beneficiar do ambiente de nuvem integrado do Colab Enterprise com GPUs e TPUs poderosas, colaboração em tempo real, compartilhamento e controle de acesso com o Google Drive, salvamento automático, bibliotecas pré-instaladas, uso gratuito com o cotas, widgets e extensões integrados e integração com outros serviços como o BigQuery e o Cloud Storage.

Conteúdo do Spark SQL

O Dataplex Discovery registra tabelas descobertas no BigQuery e Dataproc Metastore. Dependendo de onde forem registradas, use uma das opções de migração a seguir.

  • As tabelas são registradas no metastore do Dataproc e BigQuery: se o script do Spark SQL interagir com Tabelas descobertas pelo Dataplex no metastore do Dataproc, você poderá consultar essas tabelas diretamente no BigQuery.
  • As tabelas são registradas somente no metastore do Dataproc: se o Spark SQL interage com tabelas não disponíveis no BigQuery e, em seguida, você precisa configurar a integração do BigQuery Studio com Metastore do Dataproc. O metastore do Dataproc fornece dois tipos de endpoints: Thrift e gRPC. Para mais informações sobre como encontrar o protocolo do endpoint, consulte Encontre o valor do URI do endpoint. Em seguida, para configurar a integração do BigQuery Studio, siga as etapas a seguir: em outras seções.

Conecte-se a um metastore do Dataproc baseado em Thrift

Um endpoint baseado em Thrift começa com thrift://. Para se conectar a uma Dataproc Metastore, transmita o URI do endpoint do Thrift na SparkSession, como no exemplo a seguir:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

conectar-se a um endpoint baseado em gRPC;

Um endpoint baseado em gRPC começa com https://. O Spark não consegue se conectar a outros provedores baseados em endpoints diretamente. Em vez disso, é preciso executar um serviço de proxy converte solicitações do Thrift para gRPC. Para se conectar a uma instância de serviço Metastore do Dataproc, siga estas etapas em Notebook do BigQuery Studio:

  1. Faça download da versão mais recente do arquivo JAR do proxy Hive Metastore (HMS) no ambiente de execução do notebook executando o seguinte comando nele:

    # Download the latest HMS Proxy jar file.
    !gsutil cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Inicie o proxy do HMS.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Conectar a sessão Spark a um proxy HMS local.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Recursos da sessão

Um recurso de sessão se refere a uma sessão ativa específica do usuário. Migração de recursos de sessão não tem suporte.

Recursos do ambiente

Um ambiente fornece recursos de computação sem servidor para suas consultas Spark SQL e notebooks para execução em um lake. Como o BigQuery Studio fornece uma ambiente sem servidor para executar consultas SQL e notebooks, migração de não há suporte para os recursos do ambiente.

Agendar uma tarefa com recursos de conteúdo

É possível programar consultas no BigQuery Studio.