Cómo migrar Dataplex Explore a BigQuery Studio

Dataplex dejará de admitir Explore. En este documento, se describen los pasos para migrar recursos de Dataplex Explore a BigQuery Studio. Puedes migrar el contenido de tus Notebooks de Spark SQL y JupyterLab a BigQuery Studio, una plataforma unificada de exploración de datos.

Funciones obsoletas

Si tienes preguntas o comentarios, comunícate con el equipo de Explorar a través de dataplex-explore-support@google.com.

Antes de comenzar

  • Enable the BigQuery and BigQuery Studio APIs.

    Enable the APIs

Contenido del notebook

Si tienes notebooks en Explorar que se ejecutan en una instancia de JupyterLab sin servidor, después de la migración, tendrás la misma experiencia en BigQuery Studio.

BigQuery Studio ofrece una interfaz de notebook con la tecnología de Colab Enterprise, que proporciona varias ventajas sobre los notebooks de JupyterLab. Puedes escribir, guardar y ejecutar tus notebooks de forma sin servidores en BigQuery Studio. Además, puedes beneficiarte del entorno de nube integrado de Colab Enterprise con GPUs y TPU potentes, colaboración en tiempo real, control de acceso y uso compartido a través de Google Drive, guardado automático, bibliotecas preinstaladas, uso gratuito con cuotas, widgets y extensiones integrados, y la integración con otros servicios de Google, como BigQuery y Cloud Storage.

Contenido de Spark SQL

Dataplex Discovery registra las tablas descubiertas en BigQuery y Dataproc Metastore. Según dónde se registren las tablas, usa una de las siguientes opciones de migración.

  • Las tablas se registran en Dataproc Metastore y BigQuery: si la secuencia de comandos de Spark SQL interactúa con tablas descubiertas por Dataplex a través de Dataproc Metastore, puedes consultar esas tablas directamente desde BigQuery.
  • Las tablas solo se registran en Dataproc Metastore: si la secuencia de comandos de Spark SQL interactúa con tablas que no están disponibles en BigQuery, entonces debes configurar la integración de BigQuery Studio con Dataproc Metastore. Dataproc Metastore proporciona dos tipos de extremos: Thrift y gRPC. Para obtener más información sobre cómo encontrar el protocolo de extremo, consulta Cómo encontrar el valor del URI de tu extremo. Luego, configura la integración de BigQuery Studio con los pasos que se indican en las siguientes secciones.

Conéctate a un Dataproc Metastore basado en Thrift

Un extremo basado en Thrift comienza con thrift://. Para conectarte a un Dataproc Metastore basado en Thrift, pasa el URI del extremo de Thrift en la configuración de SparkSession, como en el siguiente ejemplo:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Conéctate a un extremo basado en gRPC

Un extremo basado en gRPC comienza con https://. Spark no puede conectarse directamente a extremos que no se basan en Thrift. En su lugar, debes ejecutar un servicio de proxy que convierta las solicitudes de Thrift a gRPC. Para conectarte a un servicio de Dataproc Metastore basado en gRPC, sigue estos pasos en tu notebook de BigQuery Studio:

  1. Ejecuta el siguiente comando en el notebook para descargar la versión más reciente del archivo JAR del proxy de Hive Metastore (HMS) en el entorno de ejecución del notebook:

    # Download the latest HMS Proxy jar file.
    !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Inicia el proxy de HMS.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Conecta la sesión de Spark a un proxy de HMS local.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Recursos de la sesión

Un recurso de sesión hace referencia a una sesión activa específica del usuario. No se admite la migración de recursos de sesión.

Recursos del entorno

Un entorno proporciona recursos de procesamiento sin servidores para que tus consultas y notebooks de Spark SQL se ejecuten en un lago. Debido a que BigQuery Studio proporciona un entorno sin servidor para ejecutar consultas y notebooks de SQL, no se admite la migración de recursos de entorno.

Programa una tarea con recursos de contenido

Puedes programar consultas en BigQuery Studio.