Migra la exploración de Dataplex a BigQuery Studio

Dataplex dejará de ser compatible con Explorar. En este documento, se describen los pasos para migrar los recursos de Explorar de Dataplex a BigQuery Studio Puedes migrar Spark SQL y notebook de JupyterLab contenido a BigQuery Studio, una herramienta de exploración plataforma.

Funciones obsoletas

Si tienes preguntas o necesitas más información, comunícate con el equipo de Explorar en dataplex-explore-support@google.com.

Antes de comenzar

  • Habilita las API de BigQuery and BigQuery Studio.

    Habilita las API

Contenido del notebook

Si tienes notebooks en Explorar que se ejecutan en una instancia de JupyterLab en un sin servidores, después de la migración tendrás la misma experiencia en BigQuery Studio

BigQuery Studio ofrece una interfaz de notebook con la tecnología de Colab Enterprise, que ofrece varias ventajas sobre Notebooks de JupyterLab. Aún puedes escribir, guardar y ejecutar tus notebooks en un entorno sin servidores en BigQuery Studio. Además, puedes beneficiarse del entorno de nube integrado de Colab Enterprise con GPU y TPU potentes, colaboración en tiempo real, uso compartido y control de acceso en Google Drive, el guardado automático, las bibliotecas preinstaladas, el uso gratuito con cuotas, widgets y extensiones integrados, y la integración en otros servicios servicios como BigQuery y Cloud Storage.

Contenido de Spark SQL

Dataplex Discovery registra las tablas descubiertas en BigQuery y Dataproc Metastore. Según dónde se encuentre tablas, usa una de las siguientes opciones de migración.

  • Las tablas se registran tanto en Dataproc Metastore BigQuery: si la secuencia de comandos de Spark SQL interactúa con Tablas descubiertas por Dataplex a través de Dataproc Metastore puedes consultar directamente esas tablas desde BigQuery
  • Las tablas se registran solo en Dataproc Metastore: si Spark SQL interactúa con tablas que no están disponibles en BigQuery y, luego, debes configurar la integración de BigQuery Studio Dataproc Metastore. Dataproc Metastore proporciona dos tipos de extremos: de segunda mano y gRPC. Para obtener más información sobre cómo encontrar el protocolo del extremo, consulta Busca el valor de URI de tu extremo. Luego, configura la integración de BigQuery Studio con los pasos de los siguientes pasos: secciones.

Conéctate a Dataproc Metastore basado en Thrift

Un extremo basado en Thrift comienza con thrift://. Para conectarse a un servicio Dataproc Metastore, pasa el URI del extremo de Thrift en el SparkSession, como en el siguiente ejemplo:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Conéctate a un extremo basado en gRPC

Un extremo basado en gRPC comienza con https://. Spark no se puede conectar a dispositivos que no sean de Thrift de terceros de forma directa. Debes ejecutar un servicio de proxy que convierte solicitudes de Thrift en gRPC. Para conectarse a una red de VPC basada Dataproc Metastore, sigue estos pasos en tu Notebook de BigQuery Studio:

  1. Descarga la versión más reciente del archivo JAR del proxy de Hive Metastore (HMS) en la entorno de ejecución del notebook ejecutando el siguiente comando en el notebook:

    # Download the latest HMS Proxy jar file.
    !gsutil cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Inicia el proxy HMS.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Conecta la sesión de Spark a un proxy HMS local.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Recursos de la sesión

Un recurso de sesión hace referencia a una sesión activa específica del usuario. Migración de los recursos de la sesión no son compatibles.

Recursos del entorno

Un entorno proporciona recursos de procesamiento sin servidores para tus consultas en Spark SQL y notebooks para ejecutar en un lake. Debido a que BigQuery Studio proporciona un entorno sin servidores para ejecutar consultas en SQL y notebooks, migración de los recursos del entorno no son compatibles.

Programa una tarea con recursos de contenido

Puedes programar consultas en BigQuery Studio.