Preguntas frecuentes sobre Cloud Dataproc

General

¿Qué es Cloud Dataproc?

Cloud Dataproc es un servicio rápido, fácil de usar, de costo bajo y administrado en su totalidad que te permite ejecutar el ecosistema de Apache Spark y Apache Hadoop en Google Cloud Platform. Cloud Dataproc aprovisiona clústeres grandes o pequeños con rapidez, es compatible con muchos tipos de trabajo populares y está integrado a otros servicios de Google Cloud Platform, como Cloud Storage y Stackdriver Logging, lo cual te ayuda a reducir el costo total de propiedad.

¿En qué se diferencia Cloud Dataproc de los clústeres tradicionales de Hadoop?

Cloud Dataproc es un servicio administrado y diseñado con el objetivo de hacer que Spark y Hadoop sean más simples, rápidos y potentes. En una implementación tradicional de Hadoop, incluso una basada en la nube, debes instalar, configurar, administrar y organizar el trabajo en el clúster. En comparación, Cloud Dataproc se encarga de la creación de clústeres, la administración, la supervisión y la organización de trabajos por ti.

¿Cómo puedo usar Cloud Dataproc?

Hay varias formas de usar un clúster de Cloud Dataproc según tus necesidades y capacidades. Puedes usar Google Cloud Platform Console basada en el navegador para interactuar con Cloud Dataproc. Otra opción es usar la herramienta de línea de comandos de gcloud, ya que Cloud Dataproc está integrado al SDK de Cloud. Para acceder de manera programática a los clústeres, usa la API de REST de Cloud Dataproc. También puedes establecer conexiones SSH con nodos principales o trabajadores en tu clúster.

¿Cómo funciona Cloud Dataproc?

Cloud Dataproc es un marco de trabajo administrado que se ejecuta en Google Cloud Platform y reúne varias herramientas de procesamiento de datos populares, entre ellas, Apache Hadoop, Spark, Hive y Pig. Cloud Dataproc tiene un conjunto de mecanismos de control y de integración que coordina el ciclo de vida, la administración y la coordinación de los clústeres. Cloud Dataproc está integrado al administrador de aplicaciones YARN para facilitar la administración y el uso de tus clústeres.

¿Qué tipos de trabajos puedo ejecutar?

Cloud Dataproc proporciona asistencia inmediata y de extremo a extremo a muchos de los tipos de trabajo más populares, entre ellos, trabajos de Spark, Spark SQL, PySpark, MapReduce, Hive y Pig.

¿Qué administrador de clústeres usa Cloud Dataproc con Spark?

Cloud Dataproc ejecuta Spark en YARN.

¿Con qué frecuencia se actualizan los componentes en Cloud Dataproc?

Cloud Dataproc se actualiza cuando se realizan actualizaciones importantes en componentes subyacentes (Hadoop, Spark, Hive, Pig). Cada actualización importante de Cloud Dataproc es compatible con versiones específicas de cada componente. Para ver una lista de los componentes y versiones compatibles, consulta la [documentación de Cloud Dataproc][].

¿Cloud Dataproc está integrado a otros productos de Google Cloud Platform?

Sí, Cloud Dataproc tiene integraciones nativas y automáticas con Compute Engine, Cloud Storage, Cloud Bigtable, BigQuery, Logging y Stackdriver Monitoring. Además, Cloud Dataproc se integra a herramientas que interactúan con Cloud Platform, como el SDK de Cloud y Google Cloud Platform Console.

¿Puedo ejecutar un clúster persistente?

Una vez iniciados, los clústeres de Cloud Dataproc continúan su ejecución hasta el apagado. Puedes ejecutar un clúster de Cloud Dataproc durante el tiempo que necesites.

Administración de clústeres

¿Puedo ejecutar más de un clúster a la vez?

Sí, puedes ejecutar más de un clúster de Cloud Dataproc por proyecto de manera simultánea. De manera predeterminada, todos los proyectos están sujetos a las cuotas de recursos de Google Cloud. Puedes verificar el uso de tu cuota y solicitar un aumento de esta. Para obtener más información, consulta Cuotas de recursos de Cloud Dataproc.

¿Cómo puedo crear o destruir un clúster?

Puedes crear y destruir clústeres de varias maneras. Las secciones de Cloud Dataproc en Google Cloud Platform Console facilitan la administración de clústeres en tu navegador. Los clústeres también pueden administrarse con la línea de comandos a través del SDK de Cloud. En casos prácticos avanzados o más complejos, la API de REST de Cloud Dataproc puede usarse para administrar clústeres de manera programática.

¿Puedo aplicar una configuración personalizada cuando creo un clúster?

Cloud Dataproc admite acciones de inicialización que se ejecutan cuando se crea un clúster. Estas acciones pueden ser secuencias de comandos o ejecutables que Cloud Dataproc ejecuta cuando aprovisiona a tu clúster para personalizar la configuración, instalar aplicaciones o realizar otras modificaciones en tu clúster.

¿Cómo ajusto el tamaño de un clúster a mis necesidades?

Ajustar el tamaño de tu clúster está sujeto a varios factores, incluidos el tipo de trabajo que se realiza, las restricciones de costos, los requisitos de velocidad y tu cuota de recursos. Ya que Cloud Dataproc puede implementarse en varios tipos de máquinas, tienes la flexibilidad de elegir los recursos que necesitas y cuándo los necesitas.

¿Puedo cambiar el tamaño de mi clúster?

Sí, puedes cambiar el tamaño de tu clúster con facilidad, incluso durante el procesamiento de trabajos. Puedes cambiar el tamaño de tu clúster con Google Cloud Platform Console o con la línea de comandos. Cambiar el tamaño puede aumentar o disminuir la cantidad de trabajadores de un clúster. Los trabajadores que se agregan a un clúster serán del mismo tipo y tamaño que los existentes. Cambiar el tamaño de clústeres es aceptable y compatible excepto en casos especiales, como cuando se reduce el número de trabajadores a uno o cuando se reduce la capacidad de HDFS por debajo de la cantidad necesaria para completar un trabajo.

Administración de trabajos y flujo de trabajo

¿Cómo puedo enviar trabajos en mi clúster?

Hay varias formas de enviar trabajos en un clúster de Cloud Dataproc. La forma más fácil es consultar la página Envía un trabajo de Cloud Dataproc en Google Cloud Platform Console o el comando gcloud dataproc jobs submit del SDK de Cloud. Para obtener más información sobre el envío de trabajos de manera programática, consulta la documentación de la API de Cloud Dataproc.

¿Puedo ejecutar más de un trabajo a la vez?

Sí, puedes ejecutar más de un trabajo a la vez en un clúster de Cloud Dataproc. Cloud Dataproc usa un administrador de recursos (YARN) y configuraciones específicas de aplicaciones, como el escalamiento con Spark, para optimizar el uso de recursos en un clúster. El rendimiento de los trabajos escalará con el tamaño del clúster y la cantidad de trabajos activos.

¿Puedo cancelar trabajos en mi clúster?

Por supuesto. Los trabajos pueden cancelarse con la interfaz web de Google Cloud Platform Console o la línea de comandos. Cloud Dataproc usa la cancelación de aplicaciones de YARN para detener trabajos si es necesario.

¿Puedo automatizar trabajos en mi clúster?

Los trabajos pueden automatizarse para ejecutarse en clústeres a través de varios mecanismos. Puedes usar la herramienta de línea de comandos de gcloud del SDK de Cloud o las API de REST de Cloud Dataproc para automatizar la administración y el flujo de trabajo de los clústeres y los trabajos.

Desarrollo

¿Qué lenguajes de desarrollo son compatibles?

Puedes usar lenguajes compatibles con el ecosistema de Spark y Hadoop, incluidos Java, Scala, Python y R.

¿Cloud Dataproc tiene una API?

Sí, Cloud Dataproc tiene un conjunto de API de RESTful que te permite interactuar de manera programática con clústeres y trabajos.

¿Puedo establecer una conexión SSH con un clúster?

Sí, puedes establecer una conexión SSH con todas las máquinas (de nodo principal o trabajador) dentro de un clúster. Puedes establecer una conexión SSH desde un navegador o la línea de comandos.

¿Puedo acceder a las IU web de Spark y Hadoop?

Sí, las IU de Hadoop y Spark (IU de Spark, Hadoop y YARN) son accesibles dentro de un clúster. En lugar de abrir puertos para las IU, recomendamos usar un túnel SSH que reenviará tráfico de forma segura desde clústeres a través de la conexión SSH.

¿Puedo instalar o administrar software en mi clúster?

Sí, al igual que con un clúster o servidor de Hadoop, puedes instalar y administrar software en un clúster de Cloud Dataproc.

¿Cuál es el factor de replicación predeterminado?

Debido a consideraciones del rendimiento, así como la alta confiabilidad del almacenamiento adjunto a los clústeres de Cloud Dataproc, el factor de replicación predeterminado es 2.

¿Qué sistema operativo (SO) se usa con Cloud Dataproc?

Cloud Dataproc está basado en Debian. Las últimas imágenes están basadas en Debian 9 Stretch.

¿Dónde puedo obtener más información sobre la transmisión de Hadoop?

Puedes revisar la documentación del proyecto de Apache.

¿Cómo instalo el comando gcloud dataproc?

Cuando instalas el SDK de Cloud, se instala la herramienta de línea de comandos de gcloud, incluidos los comandos gcloud dataproc.

Disponibilidad y acceso a los datos

¿Cómo puedo ingresar y extraer datos de un clúster?

Cloud Dataproc usa el sistema de archivos distribuido de Hadoop (HDFS) para el almacenamiento. Además, Cloud Dataproc instala de manera automática el conector compatible con HDFS de Google Cloud Storage, que permite usar Cloud Storage junto con HDFS. Se pueden ingresar y extraer datos de un clúster a través de cargas y descargas en HDFS o Cloud Storage.

¿Puedo usar Cloud Storage con Dataproc?

Sí, los clústeres de Cloud Dataproc instalan el conector de Cloud Storage de forma automática. Elegir Cloud Storage en lugar del HDFS tradicional tiene una serie de beneficios, incluidos la persistencia de datos, la confiabilidad y el rendimiento.

¿Qué tan confiable es Cloud Dataproc?

Debido a que Cloud Dataproc está basado en tecnologías confiables y probadas de Google Cloud Platform, entre ellas, Compute Engine, Cloud Storage y Monitoring, está diseñado para una confiabilidad y disponibilidad altas. Ya que es un producto disponible para el público general, puedes revisar la ANS de Cloud Dataproc.

¿Qué le sucede a mis datos cuando se cierra un clúster?

Todos los datos en Cloud Storage se conservan después del apagado de tu clúster. Esta es una de las razones para elegir Cloud Storage en lugar de HDFS, ya que los datos de este último se quitan cuando se cierra un clúster (a menos que se transfiera a una ubicación persistente antes del apagado).

Registro, supervisión y depuración

¿Qué clase de registro y supervisión hay disponible?

De manera predeterminada, los clústeres de Cloud Dataproc están integrados a Monitoring y Logging. Monitoring y Logging facilitan la obtención de información detallada sobre la salud, el rendimiento y el estado de tus clústeres de Cloud Dataproc. Los registros del sistema de las aplicaciones (YARN, Spark, etc.) se reenvían a Logging.

¿Cómo puedo ver registros desde Cloud Dataproc?

Puedes ver registros desde Cloud Dataproc de varias maneras. Puedes visitar Logging para ver registros de clústeres agregados en un navegador web. Además, puedes usar la línea de comandos (SSH) para ver registros o supervisar los resultados de la aplicación de manera manual. Por último, los detalles también están disponibles a través de las IU web de aplicaciones de Hadoop, como la interfaz web de YARN.

¿Cómo se pueden supervisar los clústeres?

Los clústeres pueden supervisarse con facilidad con Monitoring o la sección de Cloud Dataproc de Google Cloud Platform Console. También puedes supervisar tus clústeres a través del acceso a la línea de comandos (SSH) o las interfaces web de las aplicaciones (Spark, YARN, etcétera).

Seguridad y acceso

¿Cómo se mantienen seguros mis datos?

Google Cloud Platform emplea un modelo de seguridad rico que también se aplica a Cloud Dataproc. Cloud Dataproc proporciona mecanismos de autenticación, autorización y encriptación, como SSL, para mantener seguros los datos. Los datos pueden ser encriptados por el usuario en el tránsito de entrada y de salida de un clúster, después de la creación de uno o cuando se envía un trabajo.

¿Cómo puedo controlar el acceso a mi clúster de Cloud Dataproc?

Google Cloud Platform ofrece mecanismos de autenticación que pueden usarse con Cloud Dataproc. El acceso a los trabajos y clústeres de Cloud Dataproc pueden otorgarse a los usuarios a nivel de proyecto.

Facturación

¿Cómo se factura Cloud Dataproc?

Cloud Dataproc se factura por segundo y se basa en el tamaño de un clúster y en el tiempo que este está operativo. Cuando se calcula la parte del clúster en la tarifa, Cloud Dataproc cobra una tasa fija basada en la cantidad de CPU virtuales en un clúster. Esta tasa fija es la misma sin importar el tipo de máquina o el tamaño de los recursos de Compute Engine usados. La facturación de Cloud Dataproc no incluye los cargos de Compute Engine o de otros recursos de Cloud usados con un clúster.

¿Se me cobra por otros recursos de Google Cloud?

Sí, cuando se ejecuta un clúster de Cloud Dataproc se cobran otros recursos de Google Cloud usados en el clúster, como Compute Engine y Cloud Storage. Cada artículo se indica por separado en tu factura, para que sepas con exactitud cómo se calculan y asignan tus costos.

¿Hay un tiempo mínimo o máximo para la facturación?

Los cargos de Google Cloud se calculan por segundo, no por hora. Compute Engine tiene un aumento de facturación mínimo de 1 minuto. Por lo tanto, Cloud Dataproc también tiene ese aumento mínimo.

Disponibilidad

¿Quién puede crear un clúster de Cloud Dataproc?

Cloud Dataproc está disponible al público general, lo que significa que todos los clientes de Google Cloud Platform pueden usarlo.

¿En qué regiones está disponible Cloud Dataproc?

Cloud Dataproc está disponible en todas las regiones y zonas de Google Cloud Platform.

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Documentación de Cloud Dataproc
Si necesitas ayuda, visita nuestra página de asistencia.