Dataplex dejará de admitir Explore. En este documento, se describen los pasos para migrar recursos de Dataplex Explore a BigQuery Studio. Puedes migrar el contenido de tus Notebooks de Spark SQL y JupyterLab a BigQuery Studio, una plataforma unificada de exploración de datos.
Funciones obsoletas
- Workbench de SQL de Spark
- IDE de Notebook
- Todos los recursos de contenido
- Todos los entornos
- Todas las sesiones
- Funciones de tareas que programan los notebooks o las secuencias de comandos de Spark SQL que se crean en Explorar
Si tienes preguntas o comentarios, comunícate con el equipo de Explorar a través de dataplex-explore-support@google.com.
Antes de comenzar
-
Enable the BigQuery and BigQuery Studio APIs.
Contenido del notebook
Si tienes notebooks en Explorar que se ejecutan en una instancia de JupyterLab sin servidor, después de la migración, tendrás la misma experiencia en BigQuery Studio.
BigQuery Studio ofrece una interfaz de notebook con la tecnología de Colab Enterprise, que proporciona varias ventajas sobre los notebooks de JupyterLab. Puedes escribir, guardar y ejecutar tus notebooks de forma sin servidores en BigQuery Studio. Además, puedes beneficiarte del entorno de nube integrado de Colab Enterprise con GPUs y TPU potentes, colaboración en tiempo real, control de acceso y uso compartido a través de Google Drive, guardado automático, bibliotecas preinstaladas, uso gratuito con cuotas, widgets y extensiones integrados, y la integración con otros servicios de Google, como BigQuery y Cloud Storage.
Contenido de Spark SQL
Dataplex Discovery registra las tablas descubiertas en BigQuery y Dataproc Metastore. Según dónde se registren las tablas, usa una de las siguientes opciones de migración.
- Las tablas se registran en Dataproc Metastore y BigQuery: si la secuencia de comandos de Spark SQL interactúa con tablas descubiertas por Dataplex a través de Dataproc Metastore, puedes consultar esas tablas directamente desde BigQuery.
- Las tablas solo se registran en Dataproc Metastore: si la secuencia de comandos de Spark SQL interactúa con tablas que no están disponibles en BigQuery, entonces debes configurar la integración de BigQuery Studio con Dataproc Metastore. Dataproc Metastore proporciona dos tipos de extremos: Thrift y gRPC. Para obtener más información sobre cómo encontrar el protocolo de extremo, consulta Cómo encontrar el valor del URI de tu extremo. Luego, configura la integración de BigQuery Studio con los pasos que se indican en las siguientes secciones.
Conéctate a un Dataproc Metastore basado en Thrift
Un extremo basado en Thrift comienza con thrift://
. Para conectarte a un Dataproc Metastore basado en Thrift, pasa el URI del extremo de Thrift en la configuración de SparkSession
, como en el siguiente ejemplo:
from pyspark.sql import SparkSession
spark = (
SparkSession.builder.appName("Dataproc Metastore Connection")
.config(
"spark.hadoop.hive.metastore.uris",
"thrift://IP_ADDRESS:9083",
)
.enableHiveSupport()
.getOrCreate()
)
Conéctate a un extremo basado en gRPC
Un extremo basado en gRPC comienza con https://
. Spark no puede conectarse directamente a extremos que no se basan en Thrift. En su lugar, debes ejecutar un servicio de proxy que convierta las solicitudes de Thrift a gRPC. Para conectarte a un servicio de Dataproc Metastore basado en gRPC, sigue estos pasos en tu
notebook de BigQuery Studio:
Ejecuta el siguiente comando en el notebook para descargar la versión más reciente del archivo JAR del proxy de Hive Metastore (HMS) en el entorno de ejecución del notebook:
# Download the latest HMS Proxy jar file. !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
Inicia el proxy de HMS.
%%bash # Metastore store URI including the port number but without "https://" prefix. METASTORE_URI=METASTORE_URI # HMS Proxy JAR path. JAR_PATH=JAR_PATH # DPMS Supported Hive Version. HIVE_VERSION=3.1.2 # Start the HMS Proxy. java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
Conecta la sesión de Spark a un proxy de HMS local.
from pyspark.sql import SparkSession spark = ( SparkSession.builder.appName("Dataproc Metastore Connection") .config( "spark.hadoop.hive.metastore.uris", "thrift://localhost:9083", ) .enableHiveSupport() .getOrCreate() )
Recursos de la sesión
Un recurso de sesión hace referencia a una sesión activa específica del usuario. No se admite la migración de recursos de sesión.
Recursos del entorno
Un entorno proporciona recursos de procesamiento sin servidores para que tus consultas y notebooks de Spark SQL se ejecuten en un lago. Debido a que BigQuery Studio proporciona un entorno sin servidor para ejecutar consultas y notebooks de SQL, no se admite la migración de recursos de entorno.
Programa una tarea con recursos de contenido
Puedes programar consultas en BigQuery Studio.