Preguntas frecuentes sobre Dataproc

General

¿Qué es Dataproc?

Dataproc es un servicio rápido, fácil de usar, de bajo costo y completamente administrado que te permite ejecutar el ecosistema Apache Spark y Apache Hadoop en Google Cloud Platform. Dataproc aprovisiona clústeres grandes o pequeños con rapidez, es compatible con muchos tipos de trabajos populares y está integrado a otros servicios de Google Cloud Platform, como Cloud Storage y Cloud Logging, lo que te ayuda a reducir el costo total de propiedad.

¿En qué se diferencia Dataproc de los clústeres tradicionales de Hadoop?

Dataproc es un servicio administrado y diseñado con el objetivo de hacer que Spark y Hadoop sean más simples, rápidos y potentes. En una implementación tradicional de Hadoop, incluso una basada en la nube, debes instalar, configurar, administrar y organizar el trabajo en el clúster. En comparación, Dataproc se encarga de la creación de clústeres, la administración, la supervisión y la organización de trabajos por ti.

¿Cómo puedo usar Dataproc?

Hay varias formas de usar un clúster de Dataproc según tus necesidades y capacidades. Puedes usar la consola de Google Cloud basada en el navegador para interactuar con Dataproc. Otra opción es usar Google Cloud CLI, ya que Dataproc está integrado en Google Cloud CLI. Para acceder de manera programática a los clústeres, usa la API de REST de Dataproc. También puedes establecer conexiones SSH con nodos principales o trabajadores en tu clúster.

¿Cómo funciona Dataproc?

Dataproc es un marco de trabajo administrado que se ejecuta en Google Cloud Platform y reúne varias herramientas de procesamiento de datos populares, entre ellas, Apache Hadoop, Spark, Hive y Pig. Dataproc tiene un conjunto de mecanismos de control y de integración que coordina el ciclo de vida, la administración y la coordinación de los clústeres. Dataproc está integrado al administrador de aplicaciones YARN para facilitar la administración y el uso de tus clústeres.

¿Qué tipos de trabajos puedo ejecutar?

Dataproc proporciona asistencia inmediata y de extremo a extremo a muchos de los tipos de trabajo más populares, entre ellos, trabajos de Spark, Spark SQL, PySpark, MapReduce, Hive y Pig.

¿Qué administrador de clústeres usa Dataproc con Spark?

Dataproc ejecuta Spark en YARN.

¿Con qué frecuencia se actualizan los componentes de Dataproc?

Dataproc se actualiza cuando se realizan actualizaciones importantes en componentes subyacentes (Hadoop, Spark, Hive y Pig). Cada actualización importante de Dataproc es compatible con versiones específicas de cada componente (consulta las versiones compatibles de Dataproc).

¿Dataproc está integrado a otros productos de Google Cloud Platform?

Sí, Dataproc tiene integraciones nativas y automáticas con Compute Engine, Cloud Storage, Bigtable, BigQuery, Logging y Cloud Monitoring. Además, Dataproc está integrado en herramientas que interactúan con Cloud Platform, incluidas la CLI de gcloud y la consola de Google Cloud.

¿Puedo ejecutar un clúster persistente?

Una vez iniciados, los clústeres de Dataproc continúan ejecutándose hasta que se apaguen. Puedes ejecutar un clúster de Dataproc durante el tiempo que necesites.

Administración de clústeres

¿Puedo ejecutar más de un clúster a la vez?

Sí, puedes ejecutar más de un clúster de Dataproc por proyecto de manera simultánea. De manera predeterminada, todos los proyectos están sujetos a las cuotas de recursos de Google Cloud. Puedes verificar el uso de tu cuota de manera sencilla y solicitar un aumento de esta. Para obtener más información, consulta Cuotas de recursos de Dataproc.

¿Cómo puedo crear o destruir un clúster?

Puedes crear y destruir clústeres de varias maneras. Las secciones de Dataproc en la consola de Google Cloud facilitan la administración de clústeres desde tu navegador. Los clústeres también se pueden administrar con la línea de comandos a través de gcloud CLI. En casos prácticos avanzados o más complejos, se puede usar la API de REST de Cloud Dataproc para administrar clústeres de manera programática.

¿Puedo aplicar una configuración personalizada cuando creo un clúster?

Dataproc admite acciones de inicialización que se ejecutan cuando se crea un clúster. Estas acciones de inicialización pueden ser secuencias de comandos o ejecutables que Dataproc ejecuta cuando aprovisiona tu clúster para personalizar la configuración, instalar aplicaciones o realizar otras modificaciones en tu clúster.

¿Cómo ajusto el tamaño de un clúster a mis necesidades?

Ajustar el tamaño de tu clúster está sujeto a varios factores, incluidos el tipo de trabajo que se realiza, las restricciones de costos, los requisitos de velocidad y tu cuota de recursos. Dataproc puede implementarse en varios tipos de máquinas, por lo que tienes la flexibilidad de elegir los recursos que necesitas y cuándo los necesitas.

¿Puedo cambiar el tamaño de mi clúster?

Sí, puedes cambiar el tamaño de tu clúster con facilidad, incluso durante el procesamiento de trabajos. Puedes cambiar el tamaño de tu clúster con la consola de Google Cloud o con la línea de comandos. Cambiar el tamaño puede aumentar o disminuir la cantidad de trabajadores de un clúster. Los trabajadores que se agregan a un clúster serán del mismo tipo y tamaño que los existentes. Cambiar el tamaño de clústeres es aceptable y compatible excepto en casos especiales, como cuando se reduce el número de trabajadores a uno o cuando se reduce la capacidad de HDFS por debajo de la cantidad necesaria para completar un trabajo.

Administración de trabajos y flujo de trabajo

¿Cómo puedo enviar trabajos en mi clúster?

Hay varias formas de enviar trabajos en un clúster de Dataproc. La forma más fácil es usar la página Envía un trabajo de Dataproc en la consola de Google Cloud o el comando gcloud dataproc jobs submit de gcloud CLI. Para obtener más información sobre el envío de trabajos de manera programática, consulta la referencia de la API de Dataproc.

¿Puedo ejecutar más de un trabajo a la vez?

Sí, puedes ejecutar más de un trabajo a la vez en un clúster de Dataproc. Cloud Dataproc usa un administrador de recursos (YARN) y configuraciones específicas de aplicaciones, como el escalamiento con Spark, para optimizar el uso de recursos en un clúster. El rendimiento de los trabajos escalará con el tamaño del clúster y la cantidad de trabajos activos.

¿Puedo cancelar trabajos en mi clúster?

Por supuesto. Los trabajos se pueden cancelar con la interfaz web de la consola de Google Cloud o la línea de comandos. Dataproc usa la cancelación de aplicaciones de YARN para detener trabajos si es necesario.

¿Puedo automatizar trabajos en mi clúster?

Hay varios mecanismos para automatizar la ejecución de los trabajos en clústeres. Puedes usar Google Cloud CLI de la gcloud CLI o las APIs de REST de Dataproc para automatizar la administración y el flujo de trabajo de clústeres y trabajos.

Desarrollo

¿Qué lenguajes de desarrollo son compatibles?

Puedes usar lenguajes compatibles con el ecosistema de Spark y Hadoop, incluidos Java, Scala, Python y R.

¿Dataproc tiene una API?

Sí, Dataproc tiene un conjunto de API de RESTful que te permiten interactuar de manera programática con clústeres y trabajos.

¿Puedo establecer una conexión SSH con un clúster?

Sí, puedes establecer una conexión SSH con todas las máquinas (de nodo principal o trabajador) dentro de un clúster. Puedes establecer una conexión SSH desde un navegador o la línea de comandos.

¿Puedo acceder a las IU web de Spark y Hadoop?

Sí, las IU de Hadoop y Spark (IU de Spark, Hadoop y YARN) son accesibles dentro de un clúster. En lugar de abrir puertos para las IU, recomendamos usar un túnel SSH que reenviará tráfico de forma segura desde clústeres a través de la conexión SSH.

¿Puedo instalar o administrar software en mi clúster?

Sí, al igual que con un clúster o servidor de Hadoop, puedes instalar y administrar software en un clúster de Dataproc.

¿Cuál es el factor de replicación predeterminado?

Debido a consideraciones del rendimiento, así como a la alta confiabilidad del almacenamiento adjunto a los clústeres de Dataproc, el factor de replicación predeterminado es 2.

¿Qué sistema operativo (SO) se usa con Dataproc?

Dataproc se basa en Debian y Ubuntu. Las últimas imágenes se basan en Debian 10 Buster y Ubuntu 18.04 LTS.

¿Dónde puedo obtener más información sobre la transmisión de Hadoop?

Puedes revisar la documentación del proyecto de Apache.

¿Cómo instalo el comando gcloud dataproc?

Cuando instalas la gcloud CLI, se instala la herramienta de línea de comandos estándar gcloud, incluidos los comandos gcloud dataproc.

Disponibilidad y acceso a los datos

¿Cómo puedo ingresar y extraer datos de un clúster?

Dataproc usa el sistema de archivos distribuidos de Hadoop (HDFS) para el almacenamiento. Además, Dataproc instala de forma automática el conector de Google Cloud Storage compatible con HDFS, lo que permite el uso de Cloud Storage en paralelo con HDFS. Se pueden ingresar y extraer datos de un clúster a través de cargas y descargas en HDFS o Cloud Storage.

¿Puedo usar Cloud Storage con Dataproc?

Sí, los clústeres de Dataproc instalan de forma automática el conector de Cloud Storage. Elegir Cloud Storage en lugar del HDFS tradicional tiene una serie de beneficios, incluidos la persistencia de datos, la confiabilidad y el rendimiento.

¿Puedo obtener compatibilidad con el conector de Cloud Storage?

Sí, cuando se usa con Dataproc, el conector de Cloud Storage es compatible en el mismo nivel que Dataproc (consulta la documentación sobre cómo obtener asistencia). Todos los usuarios de conectores pueden usar la etiqueta google-cloud-dataproc en Stack Overflow para las preguntas y las respuestas de los conectores.

¿Cuál es el tamaño de archivo ideal para conjuntos de datos en HDFS y Cloud Storage?

Para mejorar el rendimiento, almacena los datos en archivos de mayor tamaño, por ejemplo, en el rango de 256 MB a 512 MB.

¿Qué tan confiable es Dataproc?

Dataproc se basa en tecnologías confiables y probadas de Google Cloud Platform, entre ellas, Compute Engine, Cloud Storage y Monitoring, por lo que está diseñado para brindar disponibilidad y confiabilidad altas. Se trata de un producto disponible para el público general, por lo que puedes revisar la ANS de Dataproc.

¿Qué le sucede a mis datos cuando se cierra un clúster?

Todos los datos en Cloud Storage se conservan después del apagado de tu clúster. Esta es una de las razones para elegir Cloud Storage en lugar de HDFS, ya que los datos de este último se quitan cuando se cierra un clúster (a menos que se transfiera a una ubicación persistente antes del apagado).

Registro, supervisión y depuración

¿Qué clase de registro y supervisión hay disponible?

De forma predeterminada, los clústeres de Dataproc están integrados a Monitoring y Logging. Monitoring y Logging facilitan la obtención de información detallada sobre la condición, el rendimiento y el estado de los clústeres de Dataproc. Los registros de la aplicación (YARN, Spark, etc.) y de los sistemas se reenvían a Logging.

¿Cómo puedo ver los registros desde Dataproc?

Puedes ver los registros desde Dataproc de varias maneras. Puedes visitar Logging para ver registros de clústeres agregados en un navegador web. Además, puedes usar la línea de comandos (SSH) para ver registros o supervisar los resultados de la aplicación de manera manual. Por último, los detalles también están disponibles a través de las IU web de aplicaciones de Hadoop, como la interfaz web de YARN.

¿Cómo se pueden supervisar los clústeres?

Los clústeres se pueden supervisar con facilidad a través de Monitoring o la sección de Cloud Dataproc de la consola de Google Cloud. También puedes supervisar tus clústeres a través del acceso a la línea de comandos (SSH) o las interfaces web de las aplicaciones (Spark, YARN, etcétera).

Seguridad y acceso

¿Cómo se mantienen seguros mis datos?

Google Cloud Platform emplea un modelo de seguridad rico que también se aplica a Cloud Dataproc. Dataproc proporciona mecanismos de autenticación, autorización y encriptación, como SSL, para proteger los datos. Los datos pueden ser encriptados por el usuario en el tránsito de entrada y de salida de un clúster, después de la creación de uno o cuando se envía un trabajo.

¿Cómo puedo controlar el acceso a mi clúster de Dataproc?

Google Cloud Platform ofrece mecanismos de autenticación que pueden usarse con Dataproc. El acceso a los clústeres y los trabajos de Dataproc puede otorgarse a los usuarios a nivel de proyecto.

Facturación

¿Cómo se factura Dataproc?

Dataproc se factura por segundo y se basa en el tamaño de los clústeres y en el tiempo que están operativos. Cuando se calcula la parte del clúster en la tarifa, Dataproc cobra una tarifa fija según la cantidad de CPU virtuales en el clúster. Esta tasa fija es la misma sin importar el tipo de máquina o el tamaño de los recursos de Compute Engine usados.

¿Se me cobra por otros recursos de Google Cloud?

Sí, cuando se ejecuta un clúster de Dataproc se cobran otros recursos de Google Cloud que se usaron en el clúster, como Compute Engine y Cloud Storage. Cada artículo se indica por separado en tu factura, para que sepas con exactitud cómo se calculan y asignan tus costos.

¿Hay un tiempo mínimo o máximo para la facturación?

Los cargos de Google Cloud se calculan por segundo, no por hora. Compute Engine tiene un aumento de facturación mínimo de 1 minuto. Por lo tanto, Dataproc también tiene ese aumento mínimo.

Disponibilidad

¿Quién puede crear un clúster de Dataproc?

Dataproc está disponible al público general, lo que significa que todos los clientes de Google Cloud Platform pueden usarlo.

¿En qué regiones está disponible Dataproc?

Dataproc está disponible en todas las regiones y las zonas de Google Cloud Platform.