Conector do Cloud Storage

O conector do Cloud Storage é uma biblioteca Java de código aberto que permite executar os jobs do Apache Hadoop ou do Apache Spark diretamente em dados no Cloud Storage e oferece um número de benefícios em relação à escolha do Hadoop Distributed File System (HDFS).

Benefícios do conector do Cloud Storage

  • Acesso direto a dados: armazene seus dados no Cloud Storage e acesse-os diretamente. Não é necessário transferi-lo antes para o HDFS.
  • Compatibilidade com HDFS: você pode acessar facilmente seus dados no Cloud Storage usando o prefixo gs:// em vez de hdfs://.
  • Interoperabilidade: armazenar dados no Cloud Storage permite interoperabilidade ininterrupta entre os serviços do Spark, do Hadoop e outros do Google.
  • Acessibilidade de dados: ao encerrar um cluster do Hadoop, ao contrário do HDFS, você continua tendo acesso aos seus dados no Cloud Storage.
  • Alta disponibilidade de dados: dados armazenados no Cloud Storage estão amplamente disponíveis e são replicados globalmente sem perda de desempenho.
  • Não há sobrecarga de gerenciamento de armazenamento: diferentemente do HDFS, o Cloud Storage não exige uma rotina de manutenção, como verificação do sistema de arquivos, upgrade ou downgrade para versões anteriores do sistema de arquivos.
  • Inicialização rápida: no HDFS, um job do MapReduce não pode iniciar até que o NameNode esteja fora do modo de segurança, um processo que pode levar de alguns segundos ou muitos minutos, dependendo do tamanho e do estado dos seus dados. Com o Cloud Storage, inicie o job assim que os nós de tarefa começarem, o que gera uma economia significativa no longo prazo.

Como adquirir o conector

Clusters do Dataproc

O conector do Cloud Storage é instalado por padrão em todos os nós do cluster do Dataproc no diretório /usr/local/share/google/dataproc/lib/.

Outros clusters do Spark/Hadoop

Para fazer o download do conector do Cloud Storage para Hadoop:

Consulte Como instalar o conector do Cloud Storage para instalar e configurar o conector.

Como usar o conector

Há várias maneiras de acessar dados armazenados no Cloud Storage:

Recursos

Versão do Java

O conector do Cloud Storage requer o Java 8.

Informações de dependências do Apache Maven

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>insert "hadoopX-X.X.X" connector version number here</version>
    <scope>provided</scope>
</dependency>

Para saber informações mais detalhadas, consulte as Notas de lançamento do conector do Cloud Storage e a referência do Javadoc.

A seguir