Conector do Cloud Storage

O conector do Cloud Storage é uma biblioteca Java de código aberto que permite executar jobs do Apache Hadoop ou do Apache Spark diretamente nos dados no Cloud Storage.

Benefícios do conector do Cloud Storage

  • Acesso direto a dados:armazene seus dados no Cloud Storage e acesse-os diretamente. Não é necessário transferi-lo antes para o HDFS.
  • Compatibilidade com HDFS:você pode acessar seus dados no Cloud Storage usando o prefixo gs:// em vez de hdfs://.
  • Interoperabilidade:armazenar dados no Cloud Storage permite interoperabilidade ininterrupta entre o Spark, o Hadoop e outros serviços do Google.
  • Acessibilidade de dados:ao encerrar um cluster do Hadoop, ao contrário do HDFS, você continua tendo acesso aos seus dados no Cloud Storage.
  • Alta disponibilidade de dados:os dados armazenados no Cloud Storage estão amplamente disponíveis e são replicados globalmente sem perda de desempenho.
  • Não há sobrecarga de gerenciamento de armazenamento:diferentemente do HDFS, o Cloud Storage não exige uma rotina de manutenção, como verificação do sistema de arquivos, upgrade ou downgrade para versões anteriores do sistema de arquivos.
  • Inicialização rápida:no HDFS, um job do MapReduce não pode iniciar até que o NameNode esteja fora do modo de segurança, um processo que pode levar de alguns segundos a muitos minutos, dependendo do tamanho e do estado dos seus dados. Com o Cloud Storage, inicie o job assim que os nós de tarefa começarem, o que gera uma economia significativa no longo prazo.

Configuração do conector em clusters do Dataproc

O conector do Cloud Storage é instalado por padrão em todos os nós do cluster do Dataproc no diretório /usr/local/share/google/dataproc/lib/. As subseções a seguir descrevem as etapas que você pode seguir para concluir a configuração do conector nos clusters do Dataproc.

Conta de serviço da VM

Ao executar o conector em nós de cluster do Dataproc e outras VMs do Compute Engine, a propriedade google.cloud.auth.service.account.enable é definida como false por padrão, o que significa que não é necessário configurar as credenciais da conta de serviço do VM para o conector. As credenciais da conta de serviço do VM são fornecidas pelo servidor de metadados do VM.

A conta de serviço da VM do Dataproc precisa ter permissão para acessar o bucket do Cloud Storage.

Versões de conector selecionadas pelo usuário

As versões padrão do conector do Cloud Storage usadas nas imagens mais recentes instaladas nos clusters do Dataproc estão listadas nas páginas de versões de imagem. Se o aplicativo depender de uma versão de conector não padrão implantada no cluster, você poderá realizar uma das seguintes ações para usar a versão de conector selecionada:

  • Crie um cluster com a flag --metadata=GCS_CONNECTOR_VERSION=x.y.z, que atualiza o conector usado pelos aplicativos em execução no cluster para a versão especificada do conector.
  • Inclua e reloque as classes e dependências do conector para a versão que você está usando no jar do aplicativo.A realocação é necessária para evitar um conflito entre a versão implantada do conector e a versão padrão do conector instalada no cluster do Dataproc. Consulte também o exemplo de realocação de dependências do Maven.

Configuração do conector em clusters que não são do Dataproc

Siga as etapas abaixo para configurar o conector do Cloud Storage em um cluster que não seja do Dataproc, como um cluster do Apache Hadoop ou Spark que você usa para mover dados do HDFS local para o Cloud Storage.

  1. Fazer o download do conector

  2. Instalar o conector.

    Siga as instruções do GitHub (em inglês) para instalar, configurar e testar o conector do Cloud Storage.

Uso do conector

É possível usar o conector para acessar os dados do Cloud Storage das seguintes maneiras:

Uso do Java

O conector do Cloud Storage requer o Java 8.

Confira a seguir um exemplo de seção de gerenciamento de dependências do POM do Maven para o conector do Cloud Storage. Para mais informações, consulte Gerenciamento de dependências.

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>hadoopX-X.X.XCONNECTOR VERSION</version>
    <scope>provided</scope>
</dependency>

Para uma versão sombreada:

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>hadoopX-X.X.XCONNECTOR VERSION</version>
    <scope>provided</scope>
    <classifier>shaded</classifier>
</dependency>

Suporte a conectores

O conector do Cloud Storage tem o suporte do Google Cloud para uso com Google Cloud produtos e casos de uso. Quando usado com o Dataproc, ele tem o mesmo suporte que o Dataproc. Para mais informações, consulte Receber suporte.

Conectar-se ao Cloud Storage usando o gRPC

Por padrão, o conector do Cloud Storage no Dataproc usa a API JSON do Cloud Storage. Esta seção mostra como ativar o conector do Cloud Storage para usar o gRPC.

Considerações de uso

O uso do conector do Cloud Storage com o gRPC inclui as considerações a seguir:

  • Local do bucket regional:o gRPC só pode melhorar as latências de leitura quando as VMs do Compute Engine e os buckets do Cloud Storage estão localizados na mesma região do Compute Engine.
  • Jobs de leitura intensiva:o gRPC pode oferecer latências de leitura aprimoradas para leitura demorada e pode ajudar cargas de trabalho de leitura intensiva. Não é recomendado para aplicativos que criam um canal gRPC, executam uma pequena computação e fecham o canal.
  • Solicitações não autenticadas:o gRPC não oferece suporte a solicitações não autenticadas.

Requisitos

Os requisitos a seguir se aplicam ao usar o gRPC com o conector do Cloud Storage:

  • A rede VPC do cluster do Dataproc precisa oferecer suporte à conexão direta. Isso significa que as rotas e as regras de firewall da rede precisam permitir que o tráfego de saída chegue a 34.126.0.0/18 e 2001:4860:8040::/42.

  • Ao criar um cluster do Dataproc, use a versão 2.2.23 ou mais recente do conector do Cloud Storage com a versão 2.1.56+ da imagem ou a versão v3.0.0 ou mais recente do conector do Cloud Storage com a versão 2.2.0 ou mais recente da imagem. A versão do conector do Cloud Storage instalada em cada versão da imagem do Dataproc está listada nas páginas de versão da imagem do Dataproc.

    • Se você criar e usar um Dataproc em um cluster virtual do GKE para suas solicitações do gRPC do Cloud Storage, recomendamos a versão 1.28.5-gke.1199000 do GKE com gke-metadata-server 0.4.285. Essa combinação oferece suporte à conectividade direta.
  • Você ou o administrador da organização precisam conceder papéis do Identity and Access Management que incluam as permissões necessárias para configurar e fazer solicitações gRPC ao conector do Cloud Storage. Essas funções podem incluir:

    • Função do usuário: Editor do Dataproc, função concedida aos usuários para permitir a criação de clusters e a submissão de jobs
    • Função da conta de serviço: função Usuário de objeto do armazenamento concedida à conta de serviço da VM do Dataproc para permitir que aplicativos em execução nas VMs do cluster visualizem, leiam, criem e gravem objetos do Cloud Storage.

Ativar o gRPC no conector do Cloud Storage

É possível ativar o gRPC no conector do Cloud Storage no nível do cluster ou do job. Depois de ativadas no cluster, as solicitações de leitura do conector do Cloud Storage usam o gRPC. Se a ativação for feita em um job em vez de no nível do cluster, as solicitações de leitura do conector do Cloud Storage vão usar o gRPC apenas para o job.

Ativar um cluster

Para ativar o gRPC no conector do Cloud Storage no nível do cluster, defina a propriedade core:fs.gs.client.type=STORAGE_CLIENT ao criar um cluster do Dataproc. Quando o gRPC é ativado no cluster, as solicitações de leitura do conector do Cloud Storage feitas por trabalhos em execução no cluster usam o gRPC.

Exemplo da CLI gcloud:

gcloud dataproc clusters create CLUSTER_NAME \
    --project=PROJECT_ID \
    --region=REGION \
    --properties=core:fs.gs.client.type=STORAGE_CLIENT

Substitua:

  • CLUSTER_NAME: especifique um nome para o cluster.
  • PROJECT_NAME: o ID do projeto em que o cluster está localizado. Os IDs de projeto estão listados na seção Informações do projeto no painel do console do Google Cloud .
  • REGION: especifique uma região do Compute Engine em que o cluster será localizado.

Ativar um job

Para ativar o gRPC no conector do Cloud Storage para um job específico, inclua --properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENT ao enviar um job.

Exemplo: execute um job em um cluster que usa o gRPC para ler do Cloud Storage.

  1. Crie um script /tmp/line-count.py PySpark local que use o gRPC para ler um arquivo de texto do Cloud Storage e gerar o número de linhas no arquivo.

    cat <<EOF >"/tmp/line-count.py"
    #!/usr/bin/python
    import sys
    from pyspark.sql import SparkSession
    path = sys.argv[1]
    spark = SparkSession.builder.getOrCreate()
    rdd = spark.read.text(path)
    lines_counter = rdd.count()
    print("There are {} lines in file: {}".format(lines_counter,path))
    EOF
    
  2. Crie um arquivo de texto /tmp/line-count-sample.txt local.

    cat <<EOF >"/tmp/line-count-sample.txt"
    Line 1
    Line 2
    line 3
    EOF
    
  3. Faça upload de /tmp/line-count.py e /tmp/line-count-sample.txt locais para seu bucket no Cloud Storage.

    gcloud storage cp /tmp/line-count* gs://BUCKET
    
  4. Execute o job line-count.py no cluster. Defina --properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENT para ativar o gRPC para solicitações de leitura do conector do Cloud Storage.

    gcloud dataproc jobs submit pyspark gs://BUCKET/line-count.py \
    --cluster=CLUSTER_NAME \
    --project=PROJECT_ID  \
    --region=REGION \
    --properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENT \
    -- gs://BUCKET/line-count-sample.txt
    

    Substitua:

    • CLUSTER_NAME: o nome de um cluster existente.
    • PROJECT_NAME: o ID do projeto. Os IDs de projeto estão listados na seção Informações do projeto no console do Google Cloud Painel.
    • REGION: a região do Compute Engine em que o cluster está localizado.
    • BUCKET: seu bucket do Cloud Storage.

Gerar métricas do lado do cliente gRPC

É possível configurar o conector do Cloud Storage para gerar métricas relacionadas ao gRPC no Cloud Monitoring. As métricas relacionadas ao gRPC podem ajudar você a fazer o seguinte:

  • Monitorar e otimizar a performance das solicitações gRPC para o Cloud Storage
  • Resolver problemas e depurar
  • Receba insights sobre o uso e o comportamento do aplicativo

Para saber como configurar o conector do Cloud Storage para gerar métricas relacionadas ao gRPC, consulte Usar métricas do lado do cliente do gRPC.

Recursos