O conector do Cloud Storage é uma biblioteca Java de código aberto que permite executar os jobs do Apache Hadoop ou do Apache Spark diretamente em dados no Cloud Storage e oferece um número de benefícios em relação à escolha do Hadoop Distributed File System (HDFS).
Benefícios do conector do Cloud Storage
- Acesso direto a dados: armazene seus dados no Cloud Storage e acesse-os diretamente. Não é necessário transferi-lo antes para o HDFS.
- Compatibilidade com HDFS: você pode acessar facilmente seus dados no Cloud Storage usando o prefixo
gs://
em vez dehdfs://
. - Interoperabilidade: armazenar dados no Cloud Storage permite interoperabilidade ininterrupta entre os serviços do Spark, do Hadoop e outros do Google.
- Acessibilidade de dados: ao encerrar um cluster do Hadoop, ao contrário do HDFS, você continua tendo acesso aos seus dados no Cloud Storage.
- Alta disponibilidade de dados: dados armazenados no Cloud Storage estão amplamente disponíveis e são replicados globalmente sem perda de desempenho.
- Não há sobrecarga de gerenciamento de armazenamento: diferentemente do HDFS, o Cloud Storage não exige uma rotina de manutenção, como verificação do sistema de arquivos, upgrade ou downgrade para versões anteriores do sistema de arquivos.
- Inicialização rápida: no HDFS, um job do MapReduce não pode iniciar até que o
NameNode
esteja fora do modo de segurança, um processo que pode levar de alguns segundos ou muitos minutos, dependendo do tamanho e do estado dos seus dados. Com o Cloud Storage, inicie o job assim que os nós de tarefa começarem, o que gera uma economia significativa no longo prazo.
Como adquirir o conector
Clusters do Dataproc
O conector do Cloud Storage é instalado por padrão em todos os nós do cluster do Dataproc no diretório /usr/local/share/google/dataproc/lib/
.
Outros clusters do Spark/Hadoop
Para fazer o download do conector do Cloud Storage para Hadoop:
- versão mais recente localizada no bucket do Cloud Storage (não recomendado para uso em produção):
- versão específica do bucket do Cloud Storage substituindo as versões do conector do Hadoop e do Cloud Storage no padrão de nome
gcs-connector-HADOOP_VERSION-CONNECTOR_VERSION.jar
:gs://hadoop-lib/gcs/gcs-connector-hadoop2-2.1.1.jar
- versão específica do repositório do Apache Maven (faça o download de um jar sombreado com o sufixo
-shaded
no nome):
Consulte Como instalar o conector do Cloud Storage para instalar e configurar o conector.
Como usar o conector
Há várias maneiras de acessar dados armazenados no Cloud Storage:
- Em um aplicativo Spark ou PySpark ou Hadoop usando o prefixo
gs://
. - O shell do hadoop:
hadoop fs -ls gs://bucket/dir/file
. - O navegador Cloud Storage do Cloud Console.
- Usando os comandos
gsutil cp
ougsutil rsync
.
Recursos
Versão do Java
O conector do Cloud Storage requer o Java 8.
Informações de dependências do Apache Maven
<dependency> <groupId>com.google.cloud.bigdataoss</groupId> <artifactId>gcs-connector</artifactId> <version>insert "hadoopX-X.X.X" connector version number here</version> <scope>provided</scope> </dependency>
Para saber informações mais detalhadas, consulte as Notas de lançamento do conector do Cloud Storage e a referência do Javadoc.
A seguir
- Saiba mais sobre o Cloud Storage