Ir a

¿Qué es Apache Hadoop?

El software Apache Hadoop es un framework de código abierto que permite usar modelos sencillos de programación para almacenar y procesar de forma distribuida grandes conjuntos de datos de distintos clústeres de ordenadores. Hadoop se ha diseñado para facilitar el escalado vertical de un solo ordenador a miles de ordenadores agrupados en clústeres, cada uno de ellos con funciones locales de computación y almacenamiento. Gracias a ese diseño, Hadoop puede almacenar y procesar conjuntos de datos de muchos gigabytes o incluso petabytes de manera eficiente.

Aprende a utilizar Dataproc para ejecutar clústeres de Apache Hadoop en Google Cloud de una manera más sencilla, integrada y más rentable.

Información general sobre Apache Hadoop

El framework principal de Hadoop consta de cuatro módulos que funcionan de manera conjunta para constituir el ecosistema de Hadoop:

HDFS: es el componente principal del ecosistema de Hadoop. Este sistema de archivos distribuidos franquea el acceso de alto rendimiento a los datos de las aplicaciones sin tener que definir esquemas con antelación.

YARN: esta plataforma gestiona los recursos de computación de los clústeres y los utiliza para programar las aplicaciones de los usuarios. Se encarga de programar y asignar los recursos de todo el sistema de Hadoop.

MapReduce: este modelo de programación permite procesar los datos a gran escala. Emplea algoritmos de computación distribuida y en paralelo para trasladar la lógica de procesamiento y facilitar la escritura de aplicaciones que transformen los conjuntos de datos grandes en un conjunto fácil de gestionar.

Hadoop Common: incluye las bibliotecas y las utilidades que emplean y comparten otros módulos de Hadoop.

El diseño de todos los módulos de Hadoop parte del supuesto de que, en algún momento, fallan el hardware, las máquinas o los bastidores y de que el framework debe solucionarlo automáticamente en el software. Los componentes MapReduce y HDFS de Apache Hadoop tienen su origen en las publicaciones sobre Google MapReduce y Google File System (GFS).

Más allá de HDFS, YARN y MapReduce, el ecosistema de código abierto de Hadoop se está ampliando continuamente. Además, incluye infinidad de herramientas y aplicaciones para recoger, almacenar, procesar, analizar y gestionar Big Data, como Apache Pig, Apache Hive, Apache HBase, Apache Spark, Presto y Apache Zeppelin.

¿Cuáles son las ventajas de Hadoop?

Tolerancia a fallos

En el ecosistema de Hadoop, por mucho que los nodos, discos o bastidores fallen al ejecutar tareas en clústeres grandes, los recuperas fácilmente, ya que los datos se replican en otras partes de los clústeres.

Control de costes

Para mantener los costes a raya, el precio por terabyte de datos almacenados es menor en Hadoop que en otras plataformas. No malgastes miles ni decenas de miles de dólares en espacio de hardware. Hadoop ofrece las funciones de computación y almacenamiento en un hardware básico estándar más asequible, apenas unos cientos de dólares por terabyte.

Innovación con el framework de código abierto

Hadoop tiene el respaldo de comunidades de todo el mundo cuyo afán común es presentar funciones y conceptos nuevos con más rapidez y eficacia que los equipos internos de las empresas que trabajan en soluciones propias. La ventaja de estas comunidades de software libre es el potencial colectivo para aportar más ideas, desarrollarlas más rápido y solucionar los problemas en cuanto aparecen. Todo ello se traduce en un tiempo de lanzamiento más corto.

¿Por qué necesitas Hadoop?

Apache Hadoop surgió de la necesidad de procesar de forma más rápida y fiable una avalancha de Big Data. Hadoop habilita un ecosistema entero de software libre que despliegan cada vez más empresas con estrategias basadas en datos para almacenar y analizar Big Data. La alta disponibilidad ya no es una opción. Por eso, el entorno distribuido de Hadoop no depende del hardware, sino que está diseñado para detectar y gestionar los fallos en la capa de las aplicaciones. Al ofrecer un servicio de alta disponibilidad en un clúster de ordenadores, se reducen los riesgos que implican los fallos de máquinas independientes.

Hadoop no emplea un ordenador muy potente para almacenar y procesar los datos, sino clústeres compuestos por varios ordenadores que permiten analizar enormes conjuntos de datos en paralelo. Además, como admite formatos diversos de datos estructurados y sin estructurar, a la hora de recoger, procesar y analizar Big Data, las empresas disfrutan de más rapidez y flexibilidad que las que les ofrecen las bases de datos relacionales y los almacenes de datos.

¿Para qué se usa Apache Hadoop?

Estos son algunos de los usos más habituales de Apache Hadoop:

Analíticas y Big Data

Hadoop permite que empresas y organizaciones de toda clase hagan investigaciones o analíticas y procesen los datos de producción, es decir, tareas que exigen procesar terabytes o petabytes de Big Data, a veces en paralelo, y almacenar conjuntos de datos diversos.

Sectores verticales

Las empresas de innumerables sectores (entre otros, tecnología, educación, sanidad y servicios financieros) confían en Hadoop para ejecutar tareas que tienen en común la gran diversidad, volumen y velocidad de los datos estructurados y sin estructurar que emplean.  

IA y aprendizaje automático

Los ecosistemas de Hadoop también son fundamentales para facilitar el desarrollo de aplicaciones de inteligencia artificial (IA) y aprendizaje automático.

Cloud computing

Por lo general, las empresas prefieren ejecutar los clústeres de Hadoop en recursos de nubes públicas, privadas o híbridas antes que en hardware on‑premise porque no solo se benefician de más flexibilidad y disponibilidad, sino que también mantienen los costes bajo control. Muchos proveedores de soluciones en la nube ofrecen servicios totalmente gestionados para Hadoop, como Dataproc de Google Cloud. Gracias a este tipo de servicios empaquetados previamente para Hadoop nativo de la nube, las operaciones que antes llevaban horas o días tardan apenas unos segundos o minutos. Además, las empresas solo pagan por los recursos que se utilizan.

Dataproc es un servicio en la nube rápido, fácil de usar y totalmente gestionado para ejecutar clústeres de Apache Spark y Apache Hadoop de una manera más sencilla, integrada y más que rentable. Se integra a la perfección con otros servicios de Google Cloud que satisfacen los requisitos esenciales de seguridad, gobierno y asistencia, de modo que tienes a tu disposición una plataforma completa y potente para procesar datos, hacer analíticas y ejecutar tareas de aprendizaje automático.

Google Cloud ofrece herramientas de analíticas de Big Data, como Dataproc, BigQuery, Notebooks y Dataflow, que te permiten desarrollar aplicaciones adaptadas al contexto, crear soluciones de analíticas y convertir los datos en información valiosa con utilidad práctica.