Como criar uma lista de URLs

Esta página explica como criar uma lista de URLs e testar o processo de geração de hashes MD5. Você pode usar o serviço de transferência do Cloud Storage para transferir dados de uma lista de locais de dados públicos para um bucket do Cloud Storage. Quando você configura sua transferência, simplesmente consulta a lista de URLs.

Requisitos

Veja a seguir os requisitos das listas de URLs:

  • A lista de URLs precisa ser um arquivo de valores separados por tabulação (TSV).

  • Os URLs precisam ser classificados em ordem lexicográfica UTF-8.

  • O servidor define um cabeçalho Etag forte na resposta HTTP quando retorna a lista de URLs.

  • A lista de URLs pode ser acessada a partir de um URL que começa com http ou https.

Para garantir que seus dados sejam transferíveis, verifique se os itens abaixo são verdadeiros:

  • Cada URL especificado por você é acessível publicamente.

    Por exemplo, no Cloud Storage, você pode compartilhar um objeto publicamente e gerar um link para ele.

  • O arquivo robots.txt do servidor permite acesso a cada URL.

  • O servidor que hospeda cada objeto:

    • Aceita solicitações Range.
    • Retorna um cabeçalho Content-Length em cada resposta.

Como formatar a lista de URLs

Faça o seguinte para formatar uma lista de URLs:

  1. Crie um arquivo de valores separados por tabulação (TSV).

  2. Insira o especificador de formato TsvHttpData-1.0 na primeira linha.

  3. Adicione mais linhas para cada objeto a ser transferido. Inclua os seguintes campos separados por tabulação, por ordem, em cada linha:

    • O URL HTTP ou HTTPS de um objeto de origem.

      Quando um objeto localizado em http(s)://[HOSTNAME]:[PORT]/[URL_PATH] é transferido para o Cloud Storage, o nome do objeto no Cloud Storage é [HOSTNAME]/[URL_PATH].

    • Tamanho do objeto em bytes.

      Certifique-se de que o tamanho especificado corresponda ao tamanho real do objeto quando ele for buscado. Se o tamanho do objeto recebido pelo Cloud Storage não corresponder ao tamanho especificado, a transferência do objeto falhará.

    • A soma de verificação MD5 codificada em Base64 do objeto.

      Verifique se a soma de verificação MD5 especificada corresponde à soma de verificação MD5 calculada a partir dos bytes transferidos. Se a soma de verificação MD5 do objeto recebido pelo Cloud Storage não corresponder à soma de verificação MD5 especificada, a transferência do objeto falhará.

      Consulte Como gerar somas de verificação MD5 para informações sobre como gerar somas de verificação MD5.

    Veja a seguir um arquivo TSV de amostra que especifica dois objetos a serem transferidos:

    TsvHttpData-1.0
    https://example.com/buckets/obj1      1357      wHENa08V36iPYAsOa2JAdw==
    https://example.com/buckets/obj2      2468      R9acAaveoPd2y8nniLUYbw==
    

Como gerar somas de verificação de MD5

O Cloud Storage usa a soma de verificação MD5 que você fornece para cada um deles para verificar a integridade dos dados.

Use o objeto público a seguir para verificar se você está gerando a soma de verificação MD5 corretamente:

https://storage.googleapis.com/md5-test/md5-test

Este objeto tem uma soma de verificação MD5 codificada em Base64 de BfnRTwvHpofMOn2Pq7EVyQ==.

Copie o objeto para um arquivo local chamado md5-test e verifique a soma de verificação usando o OpenSSL:

openssl md5 -binary md5-test | openssl enc -base64

A seguir