Início rápido: crie e configure um lago

Este início rápido mostra como começar a usar o catálogo universal do Dataplex na Google Cloud consola, explicando como criar um lago, adicionar uma zona e anexar um recurso.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. Make sure that you have the following role or roles on the project: roles/dataplex.admin, roles/dataplex.editor

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Aceder ao IAM
    2. Selecione o projeto.
    3. Clique em Conceder acesso.
    4. No campo Novos responsáveis, introduza o identificador do utilizador. Normalmente, este é o endereço de email de uma Conta Google.

    5. Na lista Selecionar uma função, selecione uma função.
    6. Para conceder funções adicionais, clique em Adicionar outra função e adicione cada função adicional.
    7. Clique em Guardar.
  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. Verify that billing is enabled for your Google Cloud project.

  8. Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  9. Make sure that you have the following role or roles on the project: roles/dataplex.admin, roles/dataplex.editor

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Aceder ao IAM
    2. Selecione o projeto.
    3. Clique em Conceder acesso.
    4. No campo Novos responsáveis, introduza o identificador do utilizador. Normalmente, este é o endereço de email de uma Conta Google.

    5. Na lista Selecionar uma função, selecione uma função.
    6. Para conceder funções adicionais, clique em Adicionar outra função e adicione cada função adicional.
    7. Clique em Guardar.
  10. Crie um contentor do Cloud Storage:
    1. In the Google Cloud console, go to the Cloud Storage Buckets page.

      Go to Buckets

    2. Click Create.
    3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
      1. For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
      2. In the Choose where to store your data section, do the following:
        1. Select a Location type.
        2. Choose a location where your bucket's data is permanently stored from the Location type drop-down menu.
        3. To set up cross-bucket replication, select Add cross-bucket replication via Storage Transfer Service and follow these steps:

          Set up cross-bucket replication

          1. In the Bucket menu, select a bucket.
          2. In the Replication settings section, click Configure to configure settings for the replication job.

            The Configure cross-bucket replication pane appears.

            • To filter objects to replicate by object name prefix, enter a prefix that you want to include or exclude objects from, then click Add a prefix.
            • To set a storage class for the replicated objects, select a storage class from the Storage class menu. If you skip this step, the replicated objects will use the destination bucket's storage class by default.
            • Click Done.
      3. In the Choose how to store your data section, do the following:
        1. In the Set a default class section, select the following: Standard.
        2. To enable hierarchical namespace, in the Optimize storage for data-intensive workloads section, select Enable hierarchical namespace on this bucket.
      4. In the Choose how to control access to objects section, select whether or not your bucket enforces public access prevention, and select an access control method for your bucket's objects.
      5. In the Choose how to protect object data section, do the following:
        • Select any of the options under Data protection that you want to set for your bucket.
          • To enable soft delete, click the Soft delete policy (For data recovery) checkbox, and specify the number of days you want to retain objects after deletion.
          • To set Object Versioning, click the Object versioning (For version control) checkbox, and specify the maximum number of versions per object and the number of days after which the noncurrent versions expire.
          • To enable the retention policy on objects and buckets, click the Retention (For compliance) checkbox, and then do the following:
            • To enable Object Retention Lock, click the Enable object retention checkbox.
            • To enable Bucket Lock, click the Set bucket retention policy checkbox, and choose a unit of time and a length of time for your retention period.
        • To choose how your object data will be encrypted, expand the Data encryption section (), and select a Data encryption method.
    4. Click Create.
  11. Crie um lago

    Um lago é uma construção lógica que representa um domínio de dados ou uma unidade empresarial. Por exemplo, se precisar de organizar os dados com base na utilização de grupos, criaria um lake para cada departamento (por exemplo, retalho, vendas e finanças).

    Os passos seguintes mostram como criar um lake usando a Google Cloud consola.

    1. Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.

      Aceda a Lagos

    2. Clique em Criar.

    3. Introduza um Nome a apresentar.

    4. O ID do lago é gerado automaticamente.

    5. Especifique a região na qual criar o lago.

      Para lagos criados numa determinada região (por exemplo, us-central1), é possível anexar dados de região única (us-central1) e dados de várias regiões (us multi-region), dependendo das definições de zona.

    6. Clique em Criar.

    Adicione uma zona ao seu lago

    Depois de criar o lago, pode adicionar zonas ao lago. As zonas são agrupamentos lógicos num lago, que são úteis para categorizar dados estruturados e não estruturados.

    1. Na vista Gerir, clique no nome do lago ao qual quer adicionar uma zona.

    2. Clique em Adicionar zona.

    3. Introduza um Nome a apresentar para a sua zona.

    4. Clique no menu pendente Tipo. Escolha Zona não processada ou Zona organizada. Saiba mais acerca dos tipos de zonas.

    5. Em Localizações de dados, selecione Regional ou Multirregional. Não pode alterar a sua escolha mais tarde. Não é possível misturar dados de região única e de várias regiões na mesma zona.

    6. Clique em Criar.

    A criação da zona pode demorar alguns minutos.

    Anexe um recurso

    Os dados podem ser armazenados em contentores do Cloud Storage ou conjuntos de dados do BigQuery e podem ser anexados como recursos a zonas de dados num lago do Dataplex Universal Catalog.

    Para anexar o seu contentor do Cloud Storage como um recurso, siga estes passos:

    1. Na vista Gerir, clique no nome do seu lake ao qual quer anexar um contentor do Cloud Storage.

    2. No separador Zonas, clique na zona à qual quer adicionar o recurso.

    3. No separador Recursos, clique em Adicionar recursos.

    4. Clique em Adicionar um recurso.

    5. Em Tipo, selecione Bucket de armazenamento.

    6. Em Nome a apresentar, introduza um nome para o recurso.

    7. No campo Bucket, clique em Procurar. Se tiver um contentor do Cloud Storage, encontre-o e clique em Selecionar. Se não tiver um contentor do Cloud Storage, pode criar um clicando no botão .

      1. Introduza um nome exclusivo para o contentor. Clique em Continuar.

      2. Escolha um Tipo de localização. Clique em Continuar.

      3. Escolha uma classe de armazenamento predefinida para os seus dados. Clique em Continuar.

      4. Escolha um nível de controlo de acesso. Clique em Continuar.

      5. Escolha uma opção de proteção de dados ou Nenhuma. Clique em Continuar.

      6. Clique em Criar.

      7. Clique em Selecionar

    8. Clique em Concluído.

    9. Clique em Continuar.

    10. Em Definições de descoberta, selecione Herdar para herdar as definições de descoberta do nível da zona.

    11. Clique em Continuar.

    12. Em Adicionar recursos, clique em Enviar.

    Aguarde a conclusão da criação do recurso.

    Para usar o seu lago, consulte a secção O que se segue. Caso contrário, elimine os recursos que criou seguindo os passos de limpeza.

    Limpar

    Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

    1. In the Google Cloud console, go to the Manage resources page.

      Go to Manage resources

    2. If the project that you plan to delete is attached to an organization, expand the Organization list in the Name column.
    3. In the project list, select the project that you want to delete, and then click Delete.
    4. In the dialog, type the project ID, and then click Shut down to delete the project.

    Em alternativa, pode eliminar os recursos usados neste tutorial. Um lago não é eliminado até eliminar todos os respetivos recursos da zona de dados. Da mesma forma, uma zona de dados não é eliminada, a menos que elimine todos os respetivos recursos de ativos.

    Desassocie o contentor de armazenamento

    Para desanexar o recurso do catálogo universal do Dataplex que criou, siga estes passos:

    1. Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.

      Aceda a Lagos

    2. Clique no nome do lake que criou.

    3. No separador Zonas, clique no nome da zona que criou.

    4. No separador Recursos, selecione o recurso a desanexar selecionando a caixa à esquerda do nome do conjunto.

    5. Clique em Eliminar recurso.

    6. Clique em Eliminar para confirmar a desassociação.

    Elimine a zona

    Para eliminar a zona do catálogo universal do Dataplex que criou, siga estes passos:

    1. Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.

      Aceda a Lagos

    2. Clique no lago que criou.

    3. No separador Zonas, selecione a zona a eliminar selecionando a caixa à esquerda do nome da zona de dados.

    4. Clique em Eliminar zona.

    5. Clique em Eliminar para confirmar a eliminação.

    Elimine o lago

    Os passos seguintes mostram como eliminar o lake do catálogo universal do Dataplex que criou.

    1. Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.

      Aceda a Lagos

    2. Clique no lago que criou.

    3. Na parte superior da página, clique em Eliminar.

    4. Confirme a eliminação escrevendo "delete" no campo.

    5. Clique em Eliminar lago para confirmar a eliminação.

    O que se segue?