Descripción general de Dataproc
Accede a clústeres
-
Interfaces web de clústeres
Interfaces web disponibles para los componentes de código abierto de Dataproc y cómo conectarse a ellos.
-
Puerta de enlace del componente
Use la puerta de enlace de componentes para conectarse a los componentes del clúster.
-
Federación de Workforce Identity
Permite que el personal acceda a la puerta de enlace de componentes de Dataproc.
-
Configuración de red
Configura tu red de clúster.
-
Conéctate mediante SSH a un clúster
Usa SSH para conectarte a un nodo del clúster.
Componentes
-
Descripción general
Descripción general de los componentes del clúster.
-
Componente opcional de Anaconda
Instala el componente Anaconda en tu clúster.
-
Componente opcional de Docker
Instala el componente de Docker en tu clúster.
-
Componente opcional de Flink
Instala el componente de Flink en tu clúster.
-
Componente opcional de HBaseBeta
Instala el componente HBase en tu clúster.
-
Componente opcional de Hive WebHCat
Instala el componente WebHCat de Hive en tu clúster.
-
Componente opcional de Hudi
Instala el componente Hudi en tu clúster.
-
Componente opcional de Jupyter
Instala el componente de Jupyter en tu clúster.
-
Componente opcional de Presto
Instala el componente de Presto en tu clúster.
-
Componente opcional de Ranger
Instala el componente Ranger en tu clúster.
-
Usar Ranger con Kerberos
Usa el componente Ranger con Kerberos en tu clúster.
-
Crea una copia de seguridad y restablece un esquema de guardabosques
Sigue las instrucciones para crear una copia de seguridad y restablecer un esquema de guardabosques.
-
Componente opcional de Solr
Instala el componente Solr en tu clúster.
-
Componente opcional de Trino
Instala el componente de Trino en tu clúster.
-
Componente opcional de Zeppelin
Instala el componente de Zeppelin en tu clúster.
-
Componente opcional de Zookeeper
Instala el componente Zookeeper en tu clúster.
Opciones de Compute
-
Tipos de máquina admitidos
Dataproc le permite especificar tipos personalizados de máquinas para cargas de trabajo especiales.
-
Clústeres de GPU
Use unidades de procesamiento gráfico (GPU) con sus clústeres de Dataproc.
-
Unidades de estado sólido locales
Adjunta SSD locales a clústeres de Dataproc.
-
Plataforma de CPU mínima
Especifica una plataforma de CPU mínima para tu clúster de Dataproc.
-
Discos de arranque en unidades de estado sólido persistentes (PD-SSD)
Crea clústeres con discos de arranque SSD persistentes.
-
Trabajadores secundarios: VM interrumpibles y no interrumpibles
Comprende y usa trabajadores secundarios interrumpibles y no interrumpibles en tu clúster de Dataproc.
Configura y ejecuta trabajos
-
El ciclo de un trabajo
Comprende la regulación de trabajos de Dataproc.
-
Cómo solucionar problemas relacionados con retrasos en los trabajos
Comprende y evita las causas comunes de los retrasos de trabajos.
-
Servidor de historial persistente
Obtén información sobre el servidor de historial persistente de Dataproc.
-
Trabajos reiniciables
Crea trabajos que se reinician en caso de error. Ideal para trabajos de transmisión y de larga duración.
-
Ejecuta un trabajo de Spark en Dataproc en GKE
Crear un clúster virtual de Dataproc en GKE y, luego, ejecutar un trabajo de Spark en el clúster virtual.
-
Personaliza el entorno de ejecución del trabajo de Spark con Docker en YARN
Usa una imagen de Docker para personalizar tu entorno de trabajo de Spark.
-
Ejecuta trabajos de Spark con DataprocFileOutputCommitter
Ejecuta trabajos de Spark con la versión mejorada y configurable de Dataproc del código abierto
FileOutputCommitter
.
Configura clústeres
-
Ajuste de escala automático de clústeres
Obtén información sobre cómo usar el ajuste de escala automático para cambiar el tamaño automáticamente de los clústeres y así satisfacer las demandas de las cargas de trabajo de los usuarios.
-
Ubicación de zona automática
Permita que Dataproc seleccione una zona para su clúster.
-
Almacenamiento en caché del clúster
Use el almacenamiento en caché del clúster para mejorar el rendimiento.
-
Metadatos de clústeres
Obtén información sobre los metadatos de clúster de Dataproc y cómo configurar tus propios metadatos personalizados.
-
Propiedades del clúster
Propiedades de configuración para los componentes de código abierto de Dataproc y cómo acceder a ellos.
-
Modo de flexibilidad mejorada
Para mantener los trabajos en ejecución, cambia la ubicación en la que se guardan los datos intermedios.
-
Modo de alta disponibilidad
Aumenta la resiliencia de HDFS y YARN para la falta de disponibilidad del servicio
-
Acciones de inicialización
Especifica acciones para ejecutar en todos o algunos nodos de clúster en la configuración.
-
Configuración de red
Configura tu red de clúster.
-
Cómo escalar clústeres
Aumenta o disminuye el número de nodos trabajadores en un clúster, incluso mientras se ejecutan trabajos.
-
Eliminación programada
Borra tu clúster luego de un período específico o en un momento específico.
-
Configuración de seguridad
Habilitar las funciones de seguridad del clúster
-
Procesamiento confidencial
Crea un clúster con Confidential VMs
-
Claves de encriptación administradas por el cliente (CMEK)
Administra las claves encriptadas para los datos de trabajo y clúster de Dataproc.
-
Complemento de Ranger de Cloud Storage
Usar el complemento de Cloud Storage de Ranger con Dataproc)
-
Cuentas de servicio de Dataproc
Comprender las cuentas de servicio de Dataproc
-
Clústeres de nodo único
Crea clústeres de zona de pruebas básicos con un solo nodo.
-
Clústeres de nodo de usuario único
Crear clústeres en nodos de usuario único
-
Buckets de etapa de pruebas y temporales
Obtén información sobre la etapa de pruebas de Dataproc y los buckets temporales.
Conectores
-
Conector de BigQuery
Usar BigQuery para Apache Hadoop en sus clústeres de Dataproc
-
Ejemplos de código del conector de BigQuery
Consulta las muestras de código de BigQuery.
-
Bigtable con Dataproc
Usa la API compatible con HBase de Cloud Bigtable Apache con tus clústeres de Dataproc.
-
Conector de Cloud Storage
Usa el conector de Cloud Storage en tus clústeres.
-
Pub/Sub Lite con Dataproc
Usa Pub/Sub Lite con Dataproc.
Almacenamiento de datos
Identity and Access Management (IAM)
-
Permisos de Dataproc y funciones de IAM
Configura funciones de IAM para permitir que los usuarios y los grupos accedan a los recursos de Dataproc de tu proyecto.
-
Principales de Dataproc y sus funciones
Comprende los principales de Dataproc y las funciones necesarias para crear, administrar y ejecutar tareas en un clúster.
-
IAM detallada de Dataproc
Configura permisos detallados, específicos del clúster.
-
Autenticación del clúster personal de Dataproc
Configura la autenticación del clúster personal.
-
Multiusuario basado en cuentas de servicio de Dataproc
Configura clústeres multiusuario
-
Administra recursos de Dataproc con restricciones personalizadas
Configurar restricciones personalizadas para administrar recursos de Dataproc
Extremos regionales de Dataproc
Control de versiones
-
Descripción general
Versiones de software usadas en clústeres de Dataproc y cómo seleccionarlas.
-
Versiones 2.1.x
Versión 2.1 de la imagen de Dataproc.
-
Versiones de actualización 2.0.x
Versión 2.0 de la imagen de Dataproc.
-
Versiones 1.5.x
Versión 1.5 de la imagen de Dataproc.
-
Versiones 1.4.x
Versión 1.4 de la imagen de Dataproc.
-
Listas de versiones de imágenes de clústeres de Dataproc
Listas de versiones compatibles en los clústeres de Dataproc.
Plantillas de flujo de trabajo
-
Descripción general
Obtén información sobre las plantillas de flujo de trabajo.
-
Supervisa y depura flujos de trabajo
Cómo supervisar y depurar flujos de trabajo.
-
Parametrización
Aprende a parametrizar tus plantillas de flujo de trabajo.
-
Usa archivos YAML
Aprende a usar archivos YAML en tu flujo de trabajo.
-
Usa selectores de clúster
Aprende a usar selectores de clúster en tu flujo de trabajo.
-
Usa flujos de trabajo intercalados
Aprende a crear y ejecutar flujos de trabajo intercalados.
-
Usa flujos de trabajo
Aprende a configurar y ejecutar flujos de trabajo.
-
Soluciones de programación del flujo de trabajo
Ejecuta flujos de trabajo con Cloud Scheduler, Cloud Functions y Cloud Composer.