Ir para

O que é Apache Hadoop?

O software Apache Hadoop é um framework de código aberto que permite o armazenamento e processamento distribuídos de grandes conjuntos de dados em clusters de computadores usando modelos de programação simples. O Hadoop foi projetado para ser escalonado verticalmente de um único computador para milhares de computadores em cluster, com cada máquina oferecendo computação e armazenamento locais. Dessa forma, o Hadoop pode armazenar e processar com eficiência grandes conjuntos de dados, variando em tamanho de gigabytes a petabytes de dados.

Saiba como usar o Dataproc para executar clusters do Apache Hadoop, no Google Cloud, de maneira mais simples, integrada e econômica.

Visão geral do Apache Hadoop

Quatro módulos compreendem o framework principal do Hadoop e funcionam coletivamente para formar o ecossistema Hadoop:

Hadoop Distributed File System (HDFS): como o principal componente do ecossistema Hadoop, o HDFS é um sistema de arquivos distribuídos que fornece acesso de alta capacidade aos dados do aplicativo sem a necessidade de definir esquemas antecipadamente.

Yet Another Resource Negotiator (YARN): o YARN é uma plataforma de gerenciamento de recursos responsável por gerenciar recursos de computação em clusters e usá-los para programar os aplicativos dos usuários. Ele realiza programação e alocação de recursos em todo o sistema Hadoop.

MapReduce: o MapReduce é um modelo de programação para processamento de dados em grande escala. Usando algoritmos de computação distribuída e paralela, o MapReduce possibilita a transferência da lógica de processamento e ajuda a gravar aplicativos que transformam grandes conjuntos de dados em um conjunto gerenciável.

Hadoop Common: o Hadoop Common inclui as bibliotecas e utilitários usados e compartilhados por outros módulos do Hadoop. 

Todos os módulos do Hadoop são projetados com a suposição fundamental de que as falhas de hardware de máquinas individuais ou racks de máquinas são comuns e devem ser tratadas automaticamente no software pelo framework. Os componentes Apache Hadoop MapReduce e HDFS derivaram originalmente dos documentos Google MapReduce e Google File System (GFS).

Além de HDFS, YARN e MapReduce, todo o ecossistema de código aberto Hadoop continua a crescer e inclui muitas ferramentas e aplicativos para ajudar a coletar, armazenar, processar, analisar e gerenciar Big Data. Eles incluem Apache Pig, Apache Hive, Apache HBase, Apache Spark, Presto e Apache Zeppelin.

Quais são os benefícios do Hadoop?

Tolerância a falhas

No ecossistema Hadoop, mesmo se nós individuais tiverem altas taxas de falha ao executar jobs em um cluster grande, os dados são replicados em um cluster para que possam ser recuperados facilmente caso ocorram falhas de disco, nó ou rack.

Controle de custo

O Hadoop controla os custos ao armazenar os dados de forma mais acessível por terabyte do que as outras plataformas. Em vez de milhares a dezenas de milhares de dólares por terabyte sendo gastos em hardware, o Hadoop oferece computação e armazenamento em hardware comum padrão acessível por centenas de dólares por terabyte.

Inovações do framework de código aberto

O Hadoop é apoiado por comunidades globais unidas pela introdução de novos conceitos e recursos de forma mais rápida e eficaz do que equipes internas que trabalham em soluções proprietárias. O poder coletivo de uma comunidade de código aberto oferece mais ideias, desenvolvimento mais rápido e solução imediata de problemas, o que possibilita um tempo de lançamento mais rápido.

Por que você precisa do Hadoop?

O Apache Hadoop nasceu da necessidade de processar de forma mais rápida e confiável uma avalanche de Big Data. O Hadoop ativa todo um ecossistema de software de código aberto que as empresas orientadas a dados estão implantando cada vez mais para armazenar e analisar Big Data. Em vez de depender de hardware para fornecer alta disponibilidade crítica, a natureza distribuída do Hadoop é projetada para detectar e lidar com falhas na camada de aplicativo, oferecendo um serviço altamente disponível em cima de um cluster de computadores para reduzir os riscos de falhas de máquinas independentes. 

Em vez de usar um grande computador para armazenar e processar dados, o Hadoop usa clusters de vários computadores para analisar conjuntos de dados massivos em paralelo. O Hadoop pode lidar com várias formas de dados estruturados e não estruturados, o que dá às empresas maior velocidade e flexibilidade para coletar, processar e analisar Big Data do que pode ser alcançado com bancos de dados relacionais e armazenamentos de dados.

Qual é a função do Apache Hadoop?

Veja a seguir alguns casos de uso comuns para Apache Hadoop:

Analytics e Big Data

Uma ampla variedade de empresas e organizações usam o Hadoop para pesquisa, processamento de dados de produção e análises que exigem o processamento de terabytes ou petabytes de Big Data, armazenamento de diversos conjuntos de dados e processamento paralelo de dados.

Setores industriais

Empresas em uma infinidade de setores, incluindo tecnologia, educação, saúde e serviços financeiros, contam com o Hadoop para tarefas que compartilham um tema comum de alta variedade, volume e velocidade de dados estruturados e não estruturados.  

IA e machine learning

Os ecossistemas Hadoop também desempenham um papel fundamental no suporte ao desenvolvimento de aplicativos de inteligência artificial e machine learning.

Computação em nuvem

As empresas frequentemente optam por executar clusters Hadoop em recursos de nuvem pública, privada ou híbrida em vez de hardware local para garantir flexibilidade, disponibilidade e controle de custos. Muitos provedores de soluções em nuvem oferecem serviços totalmente gerenciados para Hadoop, como Dataproc do Google Cloud. Com esse tipo de serviço predefinido para Hadoop nativo da nuvem, as operações que costumavam levar horas ou dias podem ser concluídas em segundos ou minutos, com as empresas pagando apenas pelos recursos usados.

O Dataproc é um serviço de nuvem rápido, fácil de usar e totalmente gerenciado para executar clusters Apache Spark e Apache Hadoop de uma maneira mais simples, integrada e econômica. Ele se integra totalmente a outros serviços do Google Cloud que atendem às principais necessidades de segurança, governança e suporte, permitindo que você tenha uma plataforma completa e eficiente para processamento de dados, análises e machine learning.

As ferramentas de análise de Big Data do Google Cloud, como Dataproc, BigQuery, Notebooks, e Dataflow, podem permitir que você crie aplicativos ricos em contexto, crie novas soluções de análise e transforme dados em insights úteis.