Descripción general de Dataproc
Accede a clústeres
-
Interfaces web de clústeres
Interfaces web disponibles para los componentes de código abierto de Dataproc y cómo conectarse a ellos.
-
Puerta de enlace del componente
Usa la puerta de enlace de componentes para conectarte a los componentes del clúster.
-
Federación de Workforce Identity
Permite que el personal acceda a la puerta de enlace de componentes de Dataproc.
-
Configuración de red
Configura tu red de clúster.
-
Conéctate a un clúster a través de SSH
Usa SSH para conectarte a un nodo de clúster.
Componentes
-
Descripción general
Descripción general de los componentes del clúster.
-
Componente opcional de Anaconda
Instala el componente Anaconda en tu clúster.
-
Componente opcional de Docker
Instalar el componente de Docker en tu clúster
-
Componente opcional de Flink
Instala el componente de Flink en tu clúster.
-
Componente opcional de HBaseBeta
Instalar el componente de HBase en tu clúster
-
Componente opcional de Hive WebHCat
Instalar el componente WebHCat de Hive en el clúster
-
Componente opcional de Hudi
Instala el componente Hudi en tu clúster.
-
Componente opcional de Jupyter
Instala el componente de Jupyter en tu clúster.
-
Componente opcional de Presto
Instalar el componente de Presto en el clúster
-
Componente opcional de Ranger
Instala el componente Ranger en tu clúster.
-
Usar Ranger con Kerberos
Utiliza el componente Ranger con Kerberos en tu clúster.
-
Crea una copia de seguridad de un esquema de Ranger y restablécelo
Sigue los pasos para crear una copia de seguridad y restablecer un esquema de Ranger.
-
Componente opcional de Solr
Instala el componente de Solr en tu clúster.
-
Componente opcional de Trino
Instala el componente de Trino en tu clúster.
-
Componente opcional de Zeppelin
Instala el componente de Zeppelin en tu clúster.
-
Componente opcional de Zookeeper
Instala el componente de Zookeeper en tu clúster.
Opciones de Compute
-
Tipos de máquina admitidos
Dataproc te permite especificar tipos personalizados de máquinas para cargas de trabajo especiales.
-
Clústeres de GPU
Usa unidades de procesamiento gráfico (GPU) con tus clústeres de Dataproc.
-
Unidades de estado sólido locales
Conectar SSD locales a clústeres de Dataproc
-
Plataforma de CPU mínima
Especifica una plataforma de CPU mínima para tu clúster de Dataproc.
-
Discos de arranque en unidades de estado sólido persistentes (PD-SSD)
Crea clústeres con discos de arranque SSD persistentes.
-
Trabajadores secundarios: VM interrumpibles y no interrumpibles
Comprende y usa trabajadores secundarios interrumpibles y no interrumpibles en tu clúster de Dataproc.
Configura y ejecuta trabajos
-
El ciclo de un trabajo
Comprende la limitación de trabajos de Dataproc.
-
Soluciona problemas de retrasos en los trabajos
Comprender y evitar causas comunes de retrasos en el trabajo
-
Servidor de historial persistente
Obtén información sobre el servidor de historial persistente de Dataproc.
-
Trabajos reiniciables
Crea trabajos que se reinician en caso de error. Ideal para trabajos de transmisión y de larga duración.
-
Ejecuta un trabajo de Spark en Dataproc on GKE
Crear un clúster virtual de Dataproc on GKE y, luego, ejecutar un trabajo de Spark en él.
-
Personaliza el entorno de ejecución del trabajo de Spark con Docker en YARN
Usa una imagen de Docker para personalizar tu entorno de trabajo de Spark.
-
Ejecuta trabajos de Spark con DataprocFileOutputCommitter
Ejecuta trabajos de Spark con la versión mejorada y configurable de Dataproc de
FileOutputCommitter
de código abierto.
Configura clústeres
-
Ajuste de escala automático de clústeres
Obtén información sobre cómo usar el ajuste de escala automático para cambiar el tamaño automáticamente de los clústeres y así satisfacer las demandas de las cargas de trabajo de los usuarios.
-
Ubicación de zona automática
Permite que Dataproc seleccione una zona para tu clúster.
-
Almacenamiento en caché de clústeres
Usa el almacenamiento en caché del clúster para mejorar el rendimiento.
-
Metadatos de clústeres
Obtén información sobre los metadatos del clúster de Dataproc y cómo configurar tus propios metadatos personalizados.
-
Propiedades del clúster
Usar las propiedades de configuración para los componentes de código abierto de Dataproc
-
Rotación del clúster
Rota los clústeres que forman parte de un grupo de clústeres.
-
Modo de flexibilidad mejorada
Para mantener los trabajos en ejecución, cambia la ubicación en la que se guardan los datos intermedios.
-
VMs flexibles
Especifica los tipos de VM que puedes usar en tu clúster si las VM solicitadas no están disponibles.
-
Modo de alta disponibilidad
Aumenta la resiliencia de HDFS y YARN para la falta de disponibilidad del servicio
-
Acciones de inicialización
Especifica acciones para ejecutar en todos o algunos nodos de clúster en la configuración.
-
Configuración de red
Configura tu red de clúster.
-
Cómo escalar clústeres
Aumenta o disminuye el número de nodos trabajadores en un clúster, incluso mientras se ejecutan trabajos.
-
Eliminación programada
Borra tu clúster luego de un período específico o en un momento específico.
-
Configuración de seguridad
Habilitar funciones de seguridad de clúster
-
Procesamiento confidencial
Crea un clúster con Confidential VMs
-
Claves de encriptación administradas por el cliente (CMEK)
Administra las claves encriptadas para los datos de trabajo y clústeres de Dataproc.
-
Complemento Ranger de Cloud Storage
usar el complemento Ranger de Cloud Storage con Dataproc).
-
Cuentas de servicio de Dataproc
Comprender las cuentas de servicio de Dataproc
-
Clústeres de nodo único
Crea clústeres de zona de pruebas básicos con un solo nodo.
-
Clústeres de nodo de usuario único
Crea clústeres en nodos de usuario único.
-
Buckets de etapa de pruebas y temporales
Aprende sobre la etapa de pruebas de Dataproc y los buckets temporales.
Conectores
-
Conector de BigQuery
Usa BigQuery para Apache Hadoop en tus clústeres de Dataproc.
-
Ejemplos de código del conector de BigQuery
Consulta las muestras de código de BigQuery.
-
Bigtable con Dataproc
Usa la API compatible con HBase de Bigtable para Apache con tus clústeres de Dataproc.
-
Conector de Cloud Storage
Usa el conector de Cloud Storage.
-
Conector de BigQuery de Hive
Obtén más información sobre el conector de BigQuery de Hive.
-
Pub/Sub Lite con Dataproc
Usa Pub/Sub Lite con Dataproc.
Almacenamiento de datos
Identity and Access Management (IAM)
-
Permisos de Dataproc y funciones de IAM
Configura funciones de IAM para permitir que los usuarios y los grupos accedan a los recursos de Dataproc de tu proyecto.
-
Principales de Dataproc y sus funciones
Comprender los principios de Dataproc y las funciones necesarias para crear, administrar y ejecutar tareas en un clúster
-
IAM detallada de Dataproc
Configura permisos detallados, específicos del clúster.
-
Autenticación del clúster personal de Dataproc
Configura la autenticación del clúster personal.
-
Función multiusuario basado en cuentas de servicio de Dataproc
Configura clústeres multiusuario
-
Administra recursos de Dataproc con restricciones personalizadas
Configura restricciones personalizadas para administrar los recursos de Dataproc.
Extremos regionales de Dataproc
Control de versiones
-
Descripción general
Las versiones de software usadas en los clústeres de Dataproc y cómo seleccionarlas.
-
Versiones de actualización 2.1.x
Versión 2.1 de la imagen de Dataproc.
-
Versiones de actualización 2.0.x
Versión 2.0 de la imagen de Dataproc.
-
Versiones 1.5.x
Versión 1.5 de la imagen en Dataproc.
-
Versiones 1.4.x
Versión 1.4 de la imagen en Dataproc.
-
Lista de versiones de imágenes del clúster de Dataproc
Listas de versiones admitidas actualmente en los clústeres de Dataproc.
Plantillas de flujo de trabajo
-
Descripción general
Obtén información sobre las plantillas de flujo de trabajo.
-
Supervisa y depura flujos de trabajo
Cómo supervisar y depurar flujos de trabajo.
-
Parametrización
Aprende a parametrizar tus plantillas de flujo de trabajo.
-
Usa archivos YAML
Aprende a usar archivos YAML en tu flujo de trabajo.
-
Usa selectores de clúster
Aprende a usar selectores de clúster en tu flujo de trabajo.
-
Usa flujos de trabajo intercalados
Aprende a crear y ejecutar flujos de trabajo intercalados.
-
Usa flujos de trabajo
Aprende a configurar y ejecutar flujos de trabajo.
-
Soluciones de programación del flujo de trabajo
Ejecuta flujos de trabajo con Cloud Scheduler, Cloud Functions y Cloud Composer.