Esta página foi traduzida pela API Cloud Translation.

Importar arquivos Avro do Spanner

Nesta página, descrevemos como importar bancos de dados do Spanner para o Spanner usando no console do Google Cloud. Para importar arquivos Avro de outra fonte, consulte Importar dados de bancos de dados que não são do Spanner.

O processo usa o Dataflow. Ele importa dados de uma pasta de bucket do Cloud Storage que contém um conjunto de arquivos Avro (em inglês) e arquivos de manifesto JSON. O processo de importação oferece suporte apenas a arquivos Avro exportados do Spanner.

Para importar um banco de dados do Spanner usando a API REST ou o gcloud CLI, conclua as etapas na seção Antes de começar desta página e consulte as instruções detalhadas em Avro do Cloud Storage para Spanner.

Antes de começar

Para importar um banco de dados do Spanner, primeiro você precisa ativar as instâncias do Spanner, Cloud Storage Compute Engine e APIs Dataflow:

Enable the APIs

É preciso também ter cota suficiente e as permissões obrigatórias do IAM.

Requisitos de cota

Os requisitos de cota para jobs de importação são os seguintes:

Spanner: você precisa ter capacidade de computação suficiente para dar suporte à quantidade de dados que você está importando. Nenhuma capacidade de computação extra é necessária para importar um banco de dados, mas talvez seja necessário adicionar mais capacidade de computação para que o job seja concluído em um período razoável. Consulte Otimizar tarefas para mais detalhes.
Cloud Storage: para importar, é preciso ter um bucket contendo os arquivos exportados anteriormente. Não é necessário definir um tamanho para o bucket.
Dataflow: os jobs de importação estão sujeitos às mesmas cotas do Compute Engine para endereço IP, uso da CPU e do disco aplicadas a outros jobs do Dataflow.
Compute Engine: antes de executar um job de importação, é necessário configurar cotas iniciais para o Compute Engine, que serão usadas pelo Dataflow. Essas cotas representam o número máximo de recursos que você permite que o Dataflow use para seu job. Os valores iniciais recomendados são:
- CPUs: 200
- Endereços IP em uso: 200
- Disco permanente padrão: 50 TB
Geralmente, não é necessário fazer nenhum outro ajuste. O Dataflow fornece escalonamento automático para que você pague apenas pelos recursos efetivamente utilizados durante a importação. Se seu job puder usar mais recursos, a IU do Dataflow exibirá um ícone de aviso. O job será concluído, mesmo que um ícone de aviso seja exibido.

Funções exigidas

Para ter as permissões necessárias para exportar um banco de dados, peça ao administrador para conceder a você os seguintes papéis do IAM na conta de serviço do worker do Dataflow:

Leitor do Cloud Spanner (roles/spanner.viewer)
Worker do Dataflow (roles/dataflow.worker)
Administrador de armazenamento (roles/storage.admin)
Leitor de banco de dados do Spanner (roles/spanner.databaseReader)
Administrador de banco de dados (roles/spanner.databaseAdmin)

Opcional: encontre a pasta do banco de dados no Cloud Storage

Para localizar a pasta que contém seu banco de dados exportado na console do Google Cloud, acesse o navegador do Cloud Storage e clique em no bucket que contém a pasta exportada.

Acessar o navegador do Cloud Storage

O nome da pasta que contém os dados exportados começa com o código da instância, o nome do banco de dados e o carimbo de data/hora do job de exportação. A pasta contém:

Um arquivo spanner-export.json
Um arquivo TableName-manifest.json para cada tabela do banco de dados exportado
Um ou mais arquivos TableName.avro-#####-of-##### O primeiro número na extensão .avro-#####-of-##### representa o índice do arquivo Avro, a partir de zero. O segundo representa o número de arquivos Avro gerados para cada tabela.

Por exemplo, Songs.avro-00001-of-00002 é o segundo de dois arquivos que contêm os dados da tabela Songs.
Um arquivo ChangeStreamName-manifest.json para cada fluxo de alterações no banco de dados que você exportados.
Um arquivo ChangeStreamName.avro-00000-of-00001 para cada fluxo de mudanças. Este arquivo contém dados vazios apenas com o esquema Avro do fluxo de alterações.

Importar um banco de dados

Para importar o banco de dados do Spanner do Cloud Storage para a instância, siga estas etapas.

Acesse a página Instâncias do Spanner.

Acesse a página "Instâncias".
Clique no nome da instância que conterá o banco de dados importado.
Clique no item de menu Import/Export no painel esquerdo e clique no botão Import.
Em Escolher uma pasta de origem, clique em Procurar.
Encontre o bucket que contém a exportação na lista inicial ou clique em Pesquisar para filtrar a lista e localizar o bucket. Clique duas vezes no bucket para ver as pastas dele.
Encontre a pasta com os arquivos exportados e clique para selecioná-la.
Observação: certifique-se de selecionar a pasta criada pelo job de exportação, e não uma de nível superior que contenha a pasta exportada.
Clique em Selecionar.
Digite um nome para o novo banco de dados que o Spanner cria durante o processo de importação. O nome escolhido para o banco de dados não pode ser um que já exista em sua instância.
Escolha o dialeto para o novo banco de dados (GoogleSQL ou PostgreSQL).
(Opcional) Para proteger o novo banco de dados com uma chave de criptografia gerenciada pelo cliente, clique em Mostrar opções de criptografia e selecione Usar uma chave de criptografia gerenciada pelo cliente (CMEK). Em seguida, selecione uma chave na lista suspensa.
Selecione uma região no menu suspenso Escolha uma região para o job de importação.

Observação: para evitar cobranças de transferência de dados de saída, escolha uma região que se sobreponha à localização do seu bucket do Cloud Storage. Consulte Escolha uma região abaixo para mais informações.
Opcional: para criptografar o estado do pipeline do Dataflow com uma chave de criptografia gerenciada pelo cliente, clique em Mostrar opções de criptografia e selecione Usar. uma chave de criptografia gerenciada pelo cliente (CMEK). Em seguida, selecione uma chave na lista suspensa.
Marque a caixa de seleção em Confirmar cobranças para confirmar que há além das cobranças da sua instância atual do Spanner.
Clique em Importar.

O console do Google Cloud exibe a página Detalhes do banco de dados, que agora mostra uma caixa que descreve seu job de importação, incluindo o tempo decorrido horário:

Quando o job é finalizado ou encerrado, o console do Google Cloud mostra uma mensagem na página Detalhes do banco de dados. Se o job for bem-sucedido, será exibida uma mensagem de sucesso:

Mensagem de sucesso do job de importação

Se o job não for bem-sucedido, será exibida uma mensagem de falha:

Mensagem de falha do job de importação

Se o job falhar, verifique se há erros nos registros do Dataflow do job e consulte Resolver problemas em jobs de importação com falha.

Observação sobre a importação de colunas geradas e fluxos de mudanças

O Spanner usa a definição de cada coluna gerada no esquema Avro para recriar essa coluna. Spanner. calcula automaticamente os valores de coluna gerados durante a importação.

Da mesma forma, o Spanner usa a definição de cada fluxo de mudanças no esquema Avro para recriar o fluxo durante a importação. Alterar os dados de stream não são exportados nem importados pelo Avro. os fluxo de alterações associados a um banco de dados recém-importado terão sem registros de alteração de dados.

Observação sobre a importação de sequências

Cada sequência (GoogleSQL, PostgreSQL) que o Spanner exporta usa o método GET_INTERNAL_SEQUENCE_STATE() (GoogleSQL, PostgreSQL) para capturar o estado atual dela. O Spanner adiciona um buffer de 1.000 ao contador e grava o novo valor do contador nas propriedades do campo de registro. Essa é apenas uma abordagem melhor para evitar erros de valor duplicado que podem acontecer após a importação. Ajuste o contador de sequência real se houver mais gravações no banco de dados de origem durante a exportação de dados.

Na importação, a sequência começa nesse novo contador e não no contador encontrados no esquema. Se necessário, use a instrução ALTER SEQUENCE (GoogleSQL, PostgreSQL) para atualizar para um novo contador.

Observação sobre a importação de tabelas intercaladas e chaves estrangeiras

O job do Dataflow pode importar tabelas intercaladas, o que permite reterá relacionamentos pai-filho do arquivo de origem. No entanto, a chave externa ou restrições não são aplicadas durante o carregamento de dados. O Dataflow cria todas as chaves estrangeiras necessárias após a conclusão do carregamento de dados.

Se você tiver restrições de chave estrangeira no banco de dados do Spanner antes do início da importação, poderá encontrar erros de gravação devido a violações de integridade referencial. Para evitar erros de gravação, considere excluir todas as chaves estrangeiras antes de iniciar o processo de importação.

Escolha uma região para o job de importação

Você pode escolher uma região diferente com base na localização do bucket do Cloud Storage. Para evitar taxas de transferência de dados de saída, escolha uma região que corresponde ao local do bucket do Cloud Storage.

Se o local do bucket do Cloud Storage for uma região, você poderá aproveitar o uso gratuito da rede escolhendo a mesma região para o job de importação, se ela estiver disponível.
Se o local do bucket do Cloud Storage for uma região dupla, aproveite o uso gratuito da rede escolhendo uma das duas regiões que compõem a região dupla para o job de importação, assumindo que uma das regiões esteja disponível.
Se uma região colocalizada não estiver disponível para o job de importação ou se o local do bucket do Cloud Storage for uma multirregional, serão aplicadas cobranças de transferência de dados de saída. Consulte o Cloud Storage os preços de transferência de dados para escolher uma região que incorre no as tarifas mais baixas de transferência de dados.

Visualizar ou solucionar problemas de jobs na IU do Dataflow

Depois de iniciar um job de importação, é possível visualizar detalhes do job, incluindo: registros, na seção "Dataflow" do console do Google Cloud.

Conferir os detalhes do job do Dataflow

Para conferir os detalhes de qualquer job de importação ou exportação executado na última semana, incluindo os jobs que estão em execução no momento:

Navegue até a página Detalhes do banco de dados.
Clique no item de menu do painel esquerdo Importar/Exportar. A página Importar/Exportar do banco de dados exibe uma lista de jobs recentes.
Na página Importar/Exportar do banco de dados, clique no nome do job na coluna Nome do job do Dataflow:

O console do Google Cloud exibe detalhes da API Dataflow trabalho.

Para visualizar um job executado há mais de uma semana, siga estas etapas:

Acesse a página de jobs do Dataflow no console do Google Cloud.

Acessar "Jobs"
Encontre seu job na lista e clique no nome dele.

O console do Google Cloud exibe detalhes da API Dataflow trabalho.

Conferir os registros do Dataflow para seu job

Para acessar os registros de um job do Dataflow, acesse os detalhes dele e clique em Registros à direita do nome do job.

Se um job falhar, procure erros nos registros. Se houver erros, a contagem de erros será exibida ao lado de Registros:

Exemplo de contagem de erros ao lado do botão Registros

Para ver os erros do job, siga estas etapas:

Clique na contagem de erros ao lado de Registros.

O console do Google Cloud exibe os registros do job. Pode ser necessário rolar para visualizar os erros.
Localize entradas com o ícone de erro .
Clique em uma entrada de registro individual para expandir o conteúdo dela.

Para mais informações sobre como solucionar problemas de jobs do Dataflow, consulte Solucionar problemas do pipeline.

Resolver problemas de jobs de importação

Se você vir os seguintes erros nos registros do job:

com.google.cloud.spanner.SpannerException: NOT_FOUND: Session not found

--or--

com.google.cloud.spanner.SpannerException: DEADLINE_EXCEEDED: Deadline expired before operation could complete.

Verifique a latência de gravação de 99% na guia Monitoramento do banco de dados do Spanner no console do Google Cloud. Se estiver exibindo valores altos (vários segundos), isso indicará que a instância está sobrecarregada, fazendo com que as gravações expirem e falhem.

Uma das causas de alta latência é a execução do job do Dataflow usar workers demais e sobrecarregar o Spanner instância.

Para especificar um limite no número de workers do Dataflow, em vez de usar a guia Importar/Exportar na página de detalhes da instância do seu banco de dados do Spanner no console do Google Cloud, inicie a importação usando o modelo Avro do Cloud Storage para Spanner do Dataflow e especifique o número máximo de workers, conforme descrito:

Console

No console do Dataflow, o Número máximo de workers está localizado na seção Parâmetros opcionais do Página Criar job usando um modelo.

Acessar o Dataflow

gcloud

Execute o gcloud dataflow jobs run. e especifique o argumento max-workers. Exemplo:

  gcloud dataflow jobs run my-import-job \
    --gcs-location='gs://dataflow-templates/latest/GCS_Avro_to_Cloud_Spanner' \
    --region=us-central1 \
    --parameters='instanceId=test-instance,databaseId=example-db,inputDir=gs://my-gcs-bucket' \
    --max-workers=10 \
    --network=network-123

Resolver erros de rede

O seguinte erro pode ocorrer ao exportar seus bancos de dados do Spanner:

Workflow failed. Causes: Error: Message: Invalid value for field
'resource.properties.networkInterfaces[0].subnetwork': ''. Network interface
must specify a subnet if the network resource is in custom subnet mode.
HTTP Code: 400

Esse erro ocorre porque o Spanner supõe que você pretende usar uma rede VPC de modo automático chamada default no mesmo projeto da job do Dataflow. Se você não tiver uma rede VPC padrão na projeto ou, caso sua rede VPC esteja em uma rede VPC de modo personalizado, criar um job do Dataflow e especifique uma rede ou sub-rede alternativa.

Otimizar jobs de importação de execução lenta

Se as sugestões das configurações iniciais forem seguidas, geralmente não será necessário fazer nenhum outro ajuste. Se o job estiver sendo executado lentamente, é possível tentar outras otimizações:

Otimize o local do job e dos dados: execute o job do Dataflow na mesma região em que a instância do Spanner e do bucket do Cloud Storage estão localizados.
Garanta recursos suficientes do Dataflow: se o cotas relevantes do Compute Engine limitar os recursos do job do Dataflow, Página do Dataflow no console do Google Cloud exibe um ícone de aviso e registrar mensagens:

Nessa situação, é possível reduzir o ambiente de execução do job aumentando as cotas (em inglês) para CPUs, endereços IP em uso e disco permanente padrão. Porém, isso pode resultar em mais cobranças do Compute Engine.
Verifique o uso da CPU do Spanner: caso a CPU uso da instância for superior a 65%, é possível aumentar a capacidade de computação da instância. A capacidade aumenta Os recursos do Spanner e o job devem acelerar, mas você incorre em mais Cobranças do Spanner.

Fatores que afetam o desempenho do job de importação

Vários fatores influenciam o tempo necessário para concluir um job de importação.

Tamanho do banco de dados do Spanner: o processamento de mais dados leva mais tempo e recursos.
Esquema do banco de dados do Spanner, incluindo:
- O número de tabelas
- o tamanho das linhas;
- O número de índices secundários
- O número de chaves estrangeiras
- O número de fluxos de mudança

A criação de índice e chave externa continua após a conclusão do job de importação do Dataflow. Os fluxos de alterações são criados antes da conclusão do job de importação. mas após a importação de todos os dados.

Local dos dados: os dados são transferidos entre o Spanner e o Cloud Storage usando o Dataflow. O ideal é que os três componentes estejam localizados na mesma região. Se não estiverem, a movimentação dos dados pelas regiões prejudica a velocidade de execução do job.
Número de workers do Dataflow: o número ideal de workers do Dataflow é necessário para um bom desempenho. Ao usar o escalonamento automático, o Dataflow escolhe o número de workers para o job, dependendo da quantidade de trabalho que precisa ser feita. O número de workers, no entanto, será limitado pelas cotas para CPUs, endereços IP em uso e disco permanente padrão. A IU do Dataflow exibirá um ícone de aviso caso encontre limites de cotas. Nessa situação, o progresso será mais lento, mas ainda assim o job será concluído. O escalonamento automático pode sobrecarregar o Spanner, levando a erros quando há uma uma grande quantidade de dados para importar.
Carga atual no Spanner: um job de importação adiciona carga de CPU significativa em uma instância do Spanner. Se a instância já tiver uma carga atual substancial, a execução do job será mais lenta.
Quantidade de capacidade de computação do Spanner: se a utilização da CPU para a instância for superior a 65%, o job será executado mais lentamente.

Ajustar workers para ter um bom desempenho de importação

Ao iniciar um job de importação do Spanner, os workers do Dataflow precisam ser definidos como um valor ideal para um bom desempenho. Muitos workers sobrecarrega o Spanner e o número de workers é insuficiente desempenho de importação.

O número máximo de workers depende muito do tamanho dos dados, mas o ideal é que a utilização total da CPU do Spanner esteja entre 70% e 90%. Isso fornece um bom equilíbrio entre a eficiência do Spanner e a conclusão de jobs sem erros.

Para atingir essa meta de utilização na maioria dos esquemas e cenários, recomendamos um número máximo de vCPUs de trabalho entre 4 e 6 vezes o número de nós do Spanner.

Por exemplo, para uma instância do Spanner de 10 nós, usando workers n1-standard-2, defina o máximo de workers como 25, fornecendo 50 vCPUs.