Preguntas frecuentes sobre Dataproc

General

¿Qué es Dataproc?

Dataproc es un servicio rápido, fácil de usar, de bajo coste y totalmente gestionado que te permite ejecutar el ecosistema de Apache Spark y Apache Hadoop en Google Cloud Platform. Dataproc aprovisiona clústeres grandes o pequeños rápidamente, admite muchos tipos de trabajos populares y está integrado con otros servicios de Google Cloud Platform, como Cloud Storage y Cloud Logging, lo que te ayuda a reducir el coste total de propiedad.

¿En qué se diferencia Dataproc de los clústeres de Hadoop tradicionales?

Dataproc es un servicio de Spark y Hadoop gestionado que tiene como objetivo hacer que Spark y Hadoop sean fáciles, rápidos y potentes. En una implementación tradicional de Hadoop, incluso en una basada en la nube, debes instalar, configurar, administrar y coordinar el trabajo en el clúster. Por el contrario, Dataproc se encarga de la creación, la gestión y la monitorización de clústeres, así como de la orquestación de tareas.

¿Cómo puedo usar Dataproc?

Hay varias formas de usar un clúster de Dataproc en función de tus necesidades y capacidades. Puedes usar la interfaz basada en navegador Google Cloud console para interactuar con Dataproc. O bien, como Dataproc está integrado con Google Cloud CLI, puedes usar Google Cloud CLI. Para acceder a los clústeres mediante programación, use la API REST de Dataproc. También puedes establecer conexiones SSH con los nodos maestros o de trabajo de tu clúster.

¿Cómo funciona Dataproc?

Dataproc es un framework gestionado que se ejecuta en Google Cloud Platform y combina varias herramientas populares para procesar datos, como Apache Hadoop, Spark, Hive y Pig. Dataproc tiene un conjunto de mecanismos de control e integración que coordinan el ciclo de vida, la gestión y la coordinación de los clústeres. Dataproc se integra con el gestor de aplicaciones YARN para que te resulte más fácil gestionar y usar tus clústeres.

¿Qué tipo de trabajos puedo ejecutar?

Dataproc ofrece asistencia integral y lista para usar para muchos de los tipos de tareas más populares, como las tareas de Spark, Spark SQL, PySpark, MapReduce, Hive y Pig.

¿Qué gestor de clústeres usa Dataproc con Spark?

Dataproc ejecuta Spark en YARN.

¿Con qué frecuencia se actualizan los componentes de Dataproc?

Dataproc se actualiza cuando se lanzan versiones principales de los componentes subyacentes (Hadoop, Spark, Hive y Pig). Cada versión principal de Dataproc admite versiones específicas de cada componente (consulta las versiones de Dataproc compatibles).

¿Dataproc está integrado con otros productos de Google Cloud Platform?

Sí, Dataproc tiene integraciones nativas y automáticas con Compute Engine, Cloud Storage, Bigtable, BigQuery, Logging y Cloud Monitoring. Además, Dataproc está integrado en herramientas que interactúan con Cloud Platform, como gcloud CLI y la Google Cloud console.

¿Puedo ejecutar un clúster persistente?

Una vez iniciados, los clústeres de Dataproc siguen ejecutándose hasta que se apagan. Puedes ejecutar un clúster de Dataproc durante el tiempo que necesites.

Gestión de clústeres

¿Puedo ejecutar más de un clúster a la vez?

Sí, puedes ejecutar más de un clúster de Dataproc por proyecto simultáneamente. De forma predeterminada, todos los proyectos están sujetos a las cuotas de recursos de Google Cloud. Puede consultar fácilmente el uso de su cuota y solicitar un aumento. Para obtener más información, consulta las cuotas de recursos de Dataproc.

¿Cómo puedo crear o eliminar un clúster?

Puedes crear y eliminar clústeres de varias formas. Las secciones de Dataproc de la Google Cloud console facilitan la gestión de clústeres desde el navegador. Los clústeres también se pueden gestionar mediante la línea de comandos a través de la CLI de gcloud. En casos prácticos más complejos o avanzados, se puede usar la API REST de Cloud Dataproc para gestionar clústeres de forma programática.

¿Puedo aplicar ajustes personalizados al crear un clúster?

Dataproc admite acciones de inicialización que se ejecutan cuando se crea un clúster. Estas acciones de inicialización pueden ser secuencias de comandos o archivos ejecutables que Dataproc ejecutará al aprovisionar tu clúster para personalizar los ajustes, instalar aplicaciones o hacer otros cambios en el clúster.

¿Cómo puedo dimensionar un clúster según mis necesidades?

Las decisiones sobre el tamaño de los clústeres se ven influidas por varios factores, como el tipo de trabajo que se va a realizar, las limitaciones de costes, los requisitos de velocidad y tu cuota de recursos. Como Dataproc se puede implementar en varios tipos de máquinas, tienes la flexibilidad de elegir los recursos que necesites y cuando los necesites.

¿Puedo cambiar el tamaño de mi clúster?

Sí, puedes cambiar el tamaño de tu clúster fácilmente, incluso durante el procesamiento de trabajos. Puedes cambiar el tamaño de tu clúster a través de la Google Cloud console o de la línea de comandos. Al cambiar el tamaño, se puede aumentar o reducir el número de trabajadores de un clúster. Los trabajadores que se añadan a un clúster serán del mismo tipo y tamaño que los trabajadores que ya haya. Se pueden cambiar el tamaño de los clústeres, excepto en casos especiales, como reducir el número de trabajadores a uno o reducir la capacidad de HDFS por debajo de la cantidad necesaria para completar el trabajo.

Gestión de tareas y flujos de trabajo

¿Cómo puedo enviar trabajos en mi clúster?

Hay varias formas de enviar trabajos en un clúster de Dataproc. La forma más sencilla es usar la página Enviar una tarea de Dataproc en la consola de Google Cloud o el comando gcloud dataproc jobs submit de la CLI de gcloud. Para enviar trabajos mediante programación, consulta la referencia de la API de Dataproc.

¿Puedo ejecutar más de un trabajo a la vez?

Sí, puedes ejecutar más de un trabajo a la vez en un clúster de Dataproc. Cloud Dataproc utiliza un gestor de recursos (YARN) y configuraciones específicas de las aplicaciones, como el escalado con Spark, para optimizar el uso de los recursos en un clúster. El rendimiento de los trabajos se ajustará al tamaño del clúster y al número de trabajos activos.

¿Puedo cancelar trabajos en mi clúster?

Sin duda. Las tareas se pueden cancelar mediante la interfaz web de Google Cloud console o la línea de comandos. Dataproc utiliza la cancelación de aplicaciones de YARN para detener las tareas cuando se solicita.

¿Puedo automatizar tareas en mi clúster?

Los trabajos se pueden automatizar para que se ejecuten en clústeres mediante varios mecanismos. Puedes usar la CLI de gcloud de Google Cloud o las APIs REST de Dataproc para automatizar la gestión y el flujo de trabajo de los clústeres y los trabajos.

Desarrollo

¿Qué lenguajes de desarrollo se admiten?

Puedes usar lenguajes compatibles con el ecosistema de Spark y Hadoop, como Java, Scala, Python y R.

¿Dataproc tiene una API?

Sí, Dataproc tiene un conjunto de APIs RESTful que te permiten interactuar mediante programación con clústeres y trabajos.

¿Puedo conectarme a un clúster mediante SSH?

Sí, puedes conectarte mediante SSH a todas las máquinas (nodos maestros o de trabajador) de un clúster. Puedes conectarte por SSH desde un navegador o desde la línea de comandos.

¿Puedo acceder a las interfaces web de Spark o Hadoop?

Sí, se puede acceder a las interfaces de usuario de Hadoop y Spark (interfaces de usuario de Spark, Hadoop y YARN) en un clúster. En lugar de abrir puertos para las interfaces de usuario, te recomendamos que uses un túnel SSH, que reenviará de forma segura el tráfico de los clústeres a través de la conexión SSH.

¿Puedo instalar o gestionar software en mi clúster?

Sí, al igual que con un clúster o un servidor de Hadoop, puedes instalar y gestionar software en un clúster de Dataproc.

¿Cuál es el factor de replicación predeterminado?

Debido a consideraciones de rendimiento, así como a la alta fiabilidad del almacenamiento conectado a los clústeres de Dataproc, el factor de replicación predeterminado es 2.

¿Qué sistema operativo se usa en Dataproc?

Dataproc se basa en Debian y Ubuntu. Las imágenes más recientes se basan en Debian 10 Buster y Ubuntu 18.04 LTS.

¿Dónde puedo obtener información sobre el streaming de Hadoop?

Puedes consultar la documentación del proyecto Apache.

¿Cómo instalo el comando gcloud dataproc?

Cuando instalas la CLI de gcloud, se instala la herramienta de línea de comandos gcloud estándar, incluidos los comandos gcloud dataproc.

Acceso y disponibilidad de los datos

¿Cómo puedo introducir y extraer datos de un clúster?

Dataproc utiliza el sistema de archivos distribuidos de Hadoop (HDFS) para el almacenamiento. Además, Dataproc instala automáticamente el conector de Google Cloud Storage compatible con HDFS, lo que permite usar Cloud Storage en paralelo con HDFS. Los datos se pueden mover dentro y fuera de un clúster mediante la carga o descarga en HDFS o Cloud Storage.

¿Puedo usar Cloud Storage con Dataproc?

Sí, los clústeres de Dataproc instalan automáticamente el conector de Cloud Storage. Elegir Cloud Storage en lugar de HDFS tradicional tiene varias ventajas, como la persistencia, la fiabilidad y el rendimiento de los datos.

¿Puedo obtener asistencia para el conector de Cloud Storage?

Sí, cuando se usa con Dataproc, el conector de Cloud Storage se admite al mismo nivel que Dataproc (consulta Obtener asistencia). Todos los usuarios del conector pueden usar la etiqueta google-cloud-dataproc en Stack Overflow para hacer preguntas y dar respuestas sobre el conector.

¿Cuál es el tamaño de archivo ideal para los conjuntos de datos en HDFS y Cloud Storage?

Para mejorar el rendimiento, almacena los datos en archivos de mayor tamaño, por ejemplo, de entre 256 y 512 MB.

¿Qué fiabilidad tiene Dataproc?

Dataproc se ha desarrollado en tecnologías fiables y probadas de Google Cloud Platform, como Compute Engine, Cloud Storage y Monitoring, por lo que se ha diseñado para ofrecer alta disponibilidad y fiabilidad. Como producto disponible de forma general, puedes consultar el ANS de Dataproc.

¿Qué ocurre con mis datos cuando se cierra un clúster?

Los datos de Cloud Storage se conservan después de apagar el clúster. Este es uno de los motivos por los que se recomienda elegir Cloud Storage en lugar de HDFS, ya que los datos de HDFS se eliminan cuando se cierra un clúster (a menos que se transfieran a una ubicación persistente antes de cerrarlo).

Registro, monitorización y depuración

¿Qué tipo de registro y monitorización están disponibles?

De forma predeterminada, los clústeres de Dataproc están integrados con Monitoring y Logging. La monitorización y el registro facilitan la obtención de información detallada sobre el estado, el rendimiento y el estado de los clústeres de Dataproc. Tanto los registros de aplicaciones (YARN, Spark, etc.) como los del sistema se reenvían a Logging.

¿Cómo puedo ver los registros de Dataproc?

Puede ver los registros de Dataproc de varias formas. Puedes visitar Logging para ver los registros de clúster agregados en un navegador web. Además, puedes usar la línea de comandos (SSH) para ver los registros manualmente o monitorizar las salidas de las aplicaciones. Por último, también se puede acceder a los detalles a través de las interfaces web de las aplicaciones de Hadoop, como la interfaz web de YARN.

¿Cómo se pueden monitorizar los clústeres?

Los clústeres se pueden monitorizar fácilmente a través de Monitoring o de la sección Cloud Dataproc de la Google Cloud console. También puedes monitorizar tus clústeres mediante el acceso a la línea de comandos (SSH) o las interfaces web de las aplicaciones (Spark, YARN, etc.).

Seguridad y acceso

¿Cómo se protegen mis datos?

Google Cloud Platform utiliza un modelo de seguridad completo que también se aplica a Cloud Dataproc. Dataproc proporciona mecanismos de autenticación, autorización y cifrado, como SSL, para proteger los datos. Los datos pueden cifrarse por el usuario en tránsito hacia y desde un clúster, al crear el clúster o al enviar un trabajo.

¿Cómo puedo controlar el acceso a mi clúster de Dataproc?

Google Cloud Platform ofrece mecanismos de autenticación que se pueden usar con Dataproc. El acceso a los clústeres y los trabajos de Dataproc se puede conceder a los usuarios a nivel de proyecto.

Facturación

¿Cómo se factura Dataproc?

Dataproc se factura por segundo y se basa en el tamaño de un clúster y en el tiempo que está operativo. Para calcular el componente de clúster de la tarifa, Dataproc cobra una tarifa fija basada en el número de CPUs virtuales (vCPUs) de un clúster. Esta tarifa plana es la misma independientemente del tipo de máquina o del tamaño de los recursos de Compute Engine utilizados.

¿Se me cobra por otros recursos de Google Cloud?

Sí, al ejecutar un clúster de Dataproc, se aplican cargos por otros recursos de Google Cloud que se utilicen en el clúster, como Compute Engine y Cloud Storage. Cada concepto se indica por separado en la factura, por lo que sabrás exactamente cómo se calculan y asignan los costes.

¿Hay un tiempo mínimo o máximo para la facturación?

Los cargos de Google Cloud se calculan por segundo, no por hora. Actualmente, Compute Engine tiene un incremento de facturación mínimo de 1 minuto. Por lo tanto, Dataproc también tiene un incremento de facturación mínimo de 1 minuto.

Disponibilidad

¿Quién puede crear un clúster de Dataproc?

Dataproc está disponible de forma general, lo que significa que todos los clientes de Google Cloud Platform pueden usarlo.

¿En qué regiones está disponible Dataproc?

Dataproc está disponible en todas las regiones y zonas de la plataforma Google Cloud.