Esta página foi traduzida pela API Cloud Translation.

Exportar bancos de dados do Spanner para o Avro

Esta página descreve como exportar bancos de dados do Spanner com o consoleGoogle Cloud .

Para exportar um banco de dados do Spanner usando a API REST ou a CLI do Google Cloud, conclua as etapas na seção Antes de começar nesta página e consulte as instruções detalhadas em Spanner para Avro do Cloud Storage na documentação do Dataflow. O processo de exportação usa o Dataflow e grava dados em uma pasta em um bucket do Cloud Storage. A pasta resultante contém um conjunto de arquivos Avro e arquivos de manifesto JSON.

Antes de começar

Para exportar um banco de dados do Spanner, primeiro você precisa ativar as APIs Spanner, Cloud Storage, Compute Engine e Dataflow:

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

É preciso também ter cota suficiente e as permissões obrigatórias do IAM.

Requisitos de cota

Estes são os requisitos de cota para jobs de exportação:

Spanner: nenhuma capacidade extra de computação é necessária para exportar um banco de dados, embora seja necessário adicionar mais capacidade de computação para que o job seja concluído em um período razoável. Consulte Otimizar jobs para mais detalhes.
Cloud Storage: para exportar, crie um bucket para os arquivos exportados, caso ainda não tenha um. Faça isso no console do Google Cloud , por meio da página do Cloud Storage ou ao criar sua exportação pela página do Spanner. Não é necessário definir um tamanho para o bucket.
Cloud Dataflow: os jobs de exportação estão sujeitos às mesmas cotas do Compute Engine para endereço IP, uso da CPU e do disco aplicadas a outros jobs do Dataflow.
Compute Engine: antes de executar um job de exportação, é necessário configurar cotas iniciais para o Compute Engine, que serão usadas pelo Dataflow. Essas cotas representam o número máximo de recursos que você permite que o Dataflow use para seu job. Os valores iniciais recomendados são:
- CPUs: 200
- Endereços IP em uso: 200
- Disco permanente padrão: 50 TB
Geralmente, não é necessário fazer nenhum outro ajuste. O Dataflow fornece escalonamento automático para que você pague apenas pelos recursos efetivamente utilizados durante a exportação. Se seu job puder usar mais recursos, a IU do Dataflow exibirá um ícone de aviso. O job será concluído, mesmo que um ícone de aviso seja exibido.

Funções exigidas

Para receber as permissões necessárias para exportar um banco de dados, peça ao administrador para conceder a você os seguintes papéis do IAM na conta de serviço do worker do Dataflow:

Leitor do Cloud Spanner (roles/spanner.viewer)
Worker do Dataflow (roles/dataflow.worker)
Administrador do Storage (roles/storage.admin)
Leitor de banco de dados do Spanner (roles/spanner.databaseReader)
Administrador de banco de dados (roles/spanner.databaseAdmin)

Para usar os recursos de computação independentes do Data Boost do Spanner durante uma exportação, você também precisa da permissão spanner.databases.useDataBoost do IAM. Para mais informações, consulte Visão geral do Data Boost.

Exportar um banco de dados

Depois de atender aos requisitos de cota e do Cloud IAM descritos anteriormente, é possível exportar um banco de dados do Spanner.

Para exportar seu banco de dados do Spanner para um bucket do Cloud Storage, siga estas etapas:

Acesse a página Instâncias do Spanner.

Acesse "Instâncias"
Clique no nome da instância que contém o banco de dados.
Clique no item de menu Importar/Exportar no painel esquerdo e depois no botão Exportar.
Em Escolha onde armazenar sua exportação, clique em Procurar.
Se você ainda não tiver um bucket do Cloud Storage para sua exportação:
1. Clique em Novo bucket .
2. Digite um nome para o bucket. Os nomes de intervalos precisam ser exclusivos no Cloud Storage.
3. Selecione uma classe e um local de armazenamento padrão e clique em Criar.
4. Clique no bucket para selecioná-lo.
Se você já tiver um bucket, selecione-o na lista inicial ou clique em Pesquisar para filtrar a lista. Depois, clique no seu bucket para selecioná-lo.
Clique em Selecionar.
Selecione o banco de dados que você quer exportar no menu suspenso Escolher um banco de dados para exportar.
Opcional: para exportar o banco de dados de um momento mais antigo, marque a caixa e insira um carimbo de data/hora.
Selecione uma região no menu suspenso Escolha uma região para o job de exportação.

Observação: para evitar cobranças de transferência de dados, escolha uma região que se sobreponha à configuração da instância. Para mais informações, consulte Escolher uma região.
Opcional: para criptografar o estado do pipeline do Dataflow com uma chave de criptografia gerenciada pelo cliente:
1. Clique em Mostrar opções de criptografia.
2. Selecione Usar uma chave de criptografia gerenciada pelo cliente (CMEK).
3. Selecione a chave na lista suspensa.
Essa opção não afeta a criptografia no nível do bucket do Cloud Storage de destino. Para ativar o CMEK no bucket do Cloud Storage, consulte Usar CMEK com o Cloud Storage.
Opcional: para exportar usando o Data Boost do Spanner, marque a caixa de seleção Usar o Data Boost do Spanner. Para mais informações, consulte Visão geral do Data Boost.
Marque a caixa de seleção em Confirmar cobranças para confirmar que há cobranças além das referentes à sua instância atual do Spanner.
Clique em Exportar.

O console Google Cloud mostra a página Importação/exportação de banco de dados, que agora mostra um item de linha para o job de exportação na lista de jobs de importação/exportação, incluindo o tempo decorrido do job:

Quando o job é concluído ou encerrado, o status é atualizado na lista de importação/exportação. Se o job for bem-sucedido, o status Concluído será exibido:

Mensagem de sucesso do job de exportação

Se o job falhar, o status Concluído será exibido:

Mensagem de falha do job de exportação

Para ver os detalhes da operação do Dataflow, clique no nome do job na coluna Nome do job do Dataflow.

Se o job falhar, verifique os registros do Dataflow do job para ter acesso aos detalhes do erro.

Para evitar cobranças do Cloud Storage por arquivos criados por um job que falhou, exclua a pasta e seus arquivos. Consulte Como visualizar sua exportação para informações sobre como encontrar a pasta.

Observação sobre a exportação de colunas geradas e fluxos de mudanças

Os valores em uma coluna gerada armazenada não são exportados. A definição da coluna é exportada para o esquema do Avro como um campo de registro do tipo nulo, com a definição da coluna como propriedades personalizadas do campo. Até que a operação de preenchimento de uma coluna gerada recentemente seja concluída, ela será ignorada como se não existisse no esquema.

Os fluxos de alterações exportados como arquivos Avro contêm apenas o esquema dos fluxos de alterações, e não registros de alterações de dados.

Observação sobre a exportação de sequências

Sequências (GoogleSQL, PostgreSQL) são objetos de esquema usados para gerar valores inteiros exclusivos. O Spanner exporta cada objeto de esquema para o esquema do Avro como um campo de registro, com o tipo de sequência, o intervalo ignorado e o contador como propriedades do campo. Para evitar que uma sequência seja redefinida e gere valores duplicados após a importação, durante a exportação do esquema, a função GET_INTERNAL_SEQUENCE_STATE() (GoogleSQL, PostgreSQL) captura o contador de sequência. O Spanner adiciona um buffer de 1.000 ao contador e grava o novo valor no campo de registro. Essa abordagem evita erros de valores duplicados que podem ocorrer após a importação. Se houver mais gravações no banco de dados de origem durante a exportação de dados, ajuste o contador de sequência real usando a instrução ALTER SEQUENCE (GoogleSQL, PostgreSQL).

Na importação, a sequência começa com esse novo contador em vez do contador encontrado no esquema. Como alternativa, use a instrução ALTER SEQUENCE (GoogleSQL, PostgreSQL) para atualizar a sequência com um novo contador.

Conferir sua exportação no Cloud Storage

Para visualizar a pasta que contém o banco de dados exportado no console doGoogle Cloud , acesse o navegador do Cloud Storage e escolha o bucket selecionado anteriormente:

Acesse Navegador do Storage

O bucket agora contém uma pasta com o banco de dados exportado. O nome da pasta começa com o código da instância, o nome do banco de dados e o carimbo de data e hora do seu job de exportação. A pasta contém:

Um arquivo spanner-export.json
Um arquivo TableName-manifest.json para cada tabela do banco de dados exportado
Um ou mais arquivos TableName.avro-#####-of-##### O primeiro número na extensão .avro-#####-of-##### representa o índice do arquivo Avro, a partir de zero. O segundo representa o número de arquivos Avro gerados para cada tabela.

Por exemplo, Songs.avro-00001-of-00002 é o segundo de dois arquivos que contêm os dados da tabela Songs.
Um arquivo ChangeStreamName-manifest.json para cada fluxo de alterações no banco de dados exportado.
Um arquivo ChangeStreamName.avro-00000-of-00001 para cada fluxo de mudanças. Esse arquivo contém dados vazios com apenas o esquema Avro do fluxo de alterações.

Escolher uma região para o job de importação

Convém escolher uma região diferente com base na localização do bucket do Cloud Storage. Para evitar cobranças de transferência de dados de saída, escolha uma região que corresponda ao local do seu bucket do Cloud Storage.

Se o local do bucket do Cloud Storage for uma região, você poderá aproveitar o uso gratuito da rede escolhendo a mesma região para o job de importação, desde que ela esteja disponível.
Se o local do bucket do Cloud Storage for uma birregião, aproveite o uso gratuito da rede escolhendo uma das duas regiões que compõem a birregião para o job de importação, desde que uma das regiões esteja disponível.

Se uma região de colocalização não estiver disponível para seu job de importação ou se o local do bucket do Cloud Storage for multirregional, serão aplicadas cobranças de transferência de dados de saída. Consulte os preços de transferência de dados do Cloud Storage para escolher uma região que incorra nas menores tarifas de transferência de dados.

Exportar um subconjunto de tabelas

Se você quiser exportar apenas os dados de determinadas tabelas, e não o banco de dados inteiro, especifique essas tabelas durante a exportação. Nesse caso, o Spanner exporta todo o esquema do banco de dados, incluindo os dados das tabelas especificadas, e deixa todas as outras tabelas presentes, mas vazias, no arquivo exportado.

É possível especificar um subconjunto de tabelas para exportar usando a página do Dataflow no console do Google Cloud ou a CLI gcloud. A página do Spanner não oferece essa ação.

Se você exportar os dados de uma tabela filha de outra, também precisará exportar os dados da tabela principal. Se os familiares responsáveis não forem exportados, o job de exportação vai falhar.

Para exportar um subconjunto de tabelas, inicie a exportação usando o modelo do Spanner para Avro do Cloud Storage do Dataflow e especifique as tabelas usando a página do Dataflow no console Google Cloud ou a CLI gcloud, conforme descrito:

Console

Se você estiver usando a página do Dataflow no console do Google Cloud , o parâmetro Nomes das tabelas do Cloud Spanner estará localizado na seção Parâmetros opcionais da página Criar job com base em modelo. É possível especificar várias tabelas em um formato separado por vírgulas.

Acessar o Dataflow

gcloud

Execute o comando gcloud dataflow jobs run e especifique o argumento tableNames. Exemplo:

gcloud dataflow jobs run my-export-job \
--gcs-location='gs://dataflow-templates/latest/Cloud_Spanner_to_GCS_Avro' \
--region=us-central1 \
--parameters='instanceId=test-instance,databaseId=example-db,tableNames=table1,outputDir=gs://my-gcs-bucket' \
--max-workers=10 \
--network=network-123

Para especificar várias tabelas na gcloud, é necessário usar o escape de argumentos do tipo dicionário. O exemplo a seguir usa "|" como caractere de escape:

 gcloud dataflow jobs run my-export-job \
--gcs-location='gs://dataflow-templates/latest/Cloud_Spanner_to_GCS_Avro' \
--region=us-central1 \
--parameters='^|^instanceId=test-instance|databaseId=example-db|tableNames=table1,table2|outputDir=gs://my-gcs-bucket' \
--max-workers=10 \
--network=network-123

O parâmetro shouldExportRelatedTables é uma opção conveniente para exportar automaticamente todas as tabelas principais das tabelas escolhidas. Por exemplo, nesta hierarquia de esquema com as tabelas Singers, Albums e Songs, basta especificar Songs. A opção shouldExportRelatedTables também exporta Singers e Albums porque Songs é um descendente de ambos.

gcloud dataflow jobs run my-export-job \
--gcs-location='gs://dataflow-templates/latest/Cloud_Spanner_to_GCS_Avro' \
--region=us-central1 \
--parameters='instanceId=test-instance,databaseId=example-db,tableNames=Songs,shouldExportRelatedTables=true,outputDir=gs://my-gcs-bucket' \
--max-workers=10 \
--network=network-123

Visualizar ou resolver problemas de jobs na interface do Dataflow

Depois de iniciar um job de exportação, é possível ver os detalhes dele, incluindo registros, na seção do Dataflow do console Google Cloud .

Ver detalhes do job do Dataflow

Para ver os detalhes de qualquer job de importação ou exportação executado na última semana, incluindo os jobs em execução no momento:

Navegue até a página Detalhes do banco de dados.
Clique no item de menu do painel esquerdo Importar/Exportar. A página Importar/Exportar do banco de dados exibe uma lista de jobs recentes.
Na página Importar/Exportar do banco de dados, clique no nome do job na coluna Nome do job do Dataflow:

O console Google Cloud mostra detalhes do job do Dataflow.

Para visualizar um job executado há mais de uma semana, siga estas etapas:

Acesse a página de jobs do Dataflow no console Google Cloud .

Acessar "Jobs"
Encontre seu job na lista e clique no nome dele.

O console Google Cloud mostra detalhes do job do Dataflow.

Ver registros do Dataflow para seu job

Para visualizar os registros de um job do Dataflow, navegue até a página de detalhes do job e clique em Registros à direita do nome do job.

Se um job falhar, procure erros nos registros. Se houver erros, a contagem de erros será exibida ao lado de Registros:

Exemplo de contagem de erros ao lado do botão Registros

Para ver os erros do job, siga estas etapas:

Clique na contagem de erros ao lado de Registros.

O console Google Cloud mostra os registros do job. Pode ser necessário rolar para visualizar os erros.
Localize entradas com o ícone de erro .
Clique em uma entrada de registro individual para expandir o conteúdo dela.

Para mais informações sobre como solucionar problemas de jobs do Dataflow, consulte Solução de problemas do pipeline.

Solução de problemas de jobs de exportação com falha

Se você vir os seguintes erros nos registros do job:

com.google.cloud.spanner.SpannerException: NOT_FOUND: Session not found

--or--

com.google.cloud.spanner.SpannerException: DEADLINE_EXCEEDED: Deadline expired before operation could complete.

Verifique a latência de leitura de 99% na guia Monitoramento do banco de dados do Spanner no console doGoogle Cloud . Se ele mostra valores altos (vários segundos), indica que a instância está sobrecarregada, fazendo com que as leituras atinjam o tempo limite e falhem.

Uma causa da alta latência é que o job do Dataflow está sendo executado usando muitos workers, colocando muita carga na instância do Spanner.

Para especificar um limite no número de workers do Dataflow, em vez de usar a guia "Importar/Exportar" na página de detalhes da instância do banco de dados do Spanner no console do Google Cloud , inicie a exportação usando o modelo Avro do Spanner para o Cloud Storage e especifique o número máximo de workers, conforme descrito:

Console

Se você estiver usando o console do Dataflow, o parâmetro Workers máximos estará localizado na seção Parâmetros opcionais da página Criar job usando um modelo.

Acessar o Dataflow

gcloud

Execute o comando gcloud dataflow jobs run e especifique o argumento max-workers. Exemplo:

  gcloud dataflow jobs run my-export-job \
    --gcs-location='gs://dataflow-templates/latest/Cloud_Spanner_to_GCS_Avro' \
    --region=us-central1 \
    --parameters='instanceId=test-instance,databaseId=example-db,outputDir=gs://my-gcs-bucket' \
    --max-workers=10 \
    --network=network-123

Resolver erros de rede

O seguinte erro pode ocorrer ao exportar seus bancos de dados do Spanner:

Workflow failed. Causes: Error: Message: Invalid value for field
'resource.properties.networkInterfaces[0].subnetwork': ''. Network interface
must specify a subnet if the network resource is in custom subnet mode.
HTTP Code: 400

Esse erro ocorre porque o Spanner presume que você quer usar uma rede VPC de modo automático chamada default no mesmo projeto do job do Dataflow. Se você não tiver uma rede VPC padrão no projeto ou se ela estiver no modo personalizado, será necessário criar um job do Dataflow e especificar uma rede ou sub-rede alternativa.

Otimizar jobs de exportação de execução lenta

Se as sugestões das configurações iniciais forem seguidas, geralmente não será necessário fazer nenhum outro ajuste. Se o job estiver sendo executado lentamente, é possível tentar outras otimizações:

Otimize o local do job e dos dados: execute o job do Dataflow na mesma região em que estão localizados o bucket do Cloud Storage e a instância do Spanner.
Garanta recursos suficientes do Dataflow: se as cotas relevantes do Compute Engine limitarem os recursos do job do Dataflow, a página do Dataflow no console do Google Cloud vai mostrar um ícone de aviso e mensagens de registro:

Nessa situação, é possível reduzir o ambiente de execução do job aumentando as cotas (em inglês) para CPUs, endereços IP em uso e disco permanente padrão. Porém, isso pode resultar em mais cobranças do Compute Engine.
Verifique a utilização da CPU do Spanner: se você perceber que a utilização da CPU para a instância é superior a 65%, é possível aumentar a capacidade de computação nessa instância. A capacidade adiciona mais recursos do Spanner e o job precisa acelerar, mas você gera mais cobranças do Spanner.

Fatores que afetam o desempenho do job de exportação

Vários fatores influenciam o tempo necessário para concluir um job de exportação.

Tamanho do banco de dados do Spanner: o processamento de mais dados leva mais tempo e exige mais recursos.
Esquema do banco de dados do Spanner, incluindo:
- O número de tabelas
- O tamanho das linhas
- O número de índices secundários
- O número de chaves externas
- O número de streams de mudanças

Localização dos dados: os dados são transferidos entre o Spanner e o Cloud Storage usando o Dataflow. O ideal é que os três componentes estejam localizados na mesma região. Se não estiverem, a movimentação dos dados pelas regiões prejudica a velocidade de execução do job.
Número de workers do Dataflow: o número ideal de workers do Dataflow é necessário para um bom desempenho. Ao usar o escalonamento automático, o Dataflow escolhe o número de workers para o job, dependendo da quantidade de trabalho que precisa ser feita. O número de workers, no entanto, será limitado pelas cotas para CPUs, endereços IP em uso e disco permanente padrão. A IU do Dataflow exibirá um ícone de aviso caso encontre limites de cotas. Nessa situação, o progresso será mais lento, mas ainda assim o job será concluído.
Carga atual no Spanner: um job de exportação normalmente adiciona uma carga leve a uma instância do Spanner. Se a instância já tiver uma carga atual substancial, a execução do job será mais lenta.
Quantidade de capacidade de computação do Spanner: se a utilização da CPU para a instância for superior a 65%, o job será executado mais lentamente.