Início rápido: crie e configure um lago
Este início rápido mostra como começar a usar o catálogo universal do Dataplex na Google Cloud consola, explicando como criar um lago, adicionar uma zona e anexar um recurso.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Make sure that you have the following role or roles on the project:
roles/dataplex.admin
,roles/dataplex.editor
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Aceder ao IAM - Selecione o projeto.
- Clique em Conceder acesso.
-
No campo Novos responsáveis, introduza o identificador do utilizador. Normalmente, este é o endereço de email de uma Conta Google.
- Na lista Selecionar uma função, selecione uma função.
- Para conceder funções adicionais, clique em Adicionar outra função e adicione cada função adicional.
- Clique em Guardar.
-
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Make sure that you have the following role or roles on the project:
roles/dataplex.admin
,roles/dataplex.editor
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Aceder ao IAM - Selecione o projeto.
- Clique em Conceder acesso.
-
No campo Novos responsáveis, introduza o identificador do utilizador. Normalmente, este é o endereço de email de uma Conta Google.
- Na lista Selecionar uma função, selecione uma função.
- Para conceder funções adicionais, clique em Adicionar outra função e adicione cada função adicional.
- Clique em Guardar.
-
- Crie um contentor do Cloud Storage:
- In the Google Cloud console, go to the Cloud Storage Buckets page.
- Click Create.
- On the Create a bucket page, enter your bucket information. To go to the next
step, click Continue.
- For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
-
In the Choose where to store your data section, do the following:
- Select a Location type.
- Choose a location where your bucket's data is permanently stored from the Location type drop-down menu.
- If you select the dual-region location type, you can also choose to enable turbo replication by using the relevant checkbox.
- To set up cross-bucket replication, select
Add cross-bucket replication via Storage Transfer Service and
follow these steps:
Set up cross-bucket replication
- In the Bucket menu, select a bucket.
In the Replication settings section, click Configure to configure settings for the replication job.
The Configure cross-bucket replication pane appears.
- To filter objects to replicate by object name prefix, enter a prefix that you want to include or exclude objects from, then click Add a prefix.
- To set a storage class for the replicated objects, select a storage class from the Storage class menu. If you skip this step, the replicated objects will use the destination bucket's storage class by default.
- Click Done.
-
In the Choose how to store your data section, do the following:
- In the Set a default class section, select the following: Standard.
- To enable hierarchical namespace, in the Optimize storage for data-intensive workloads section, select Enable hierarchical namespace on this bucket.
- In the Choose how to control access to objects section, select whether or not your bucket enforces public access prevention, and select an access control method for your bucket's objects.
-
In the Choose how to protect object data section, do the
following:
- Select any of the options under Data protection that you
want to set for your bucket.
- To enable soft delete, click the Soft delete policy (For data recovery) checkbox, and specify the number of days you want to retain objects after deletion.
- To set Object Versioning, click the Object versioning (For version control) checkbox, and specify the maximum number of versions per object and the number of days after which the noncurrent versions expire.
- To enable the retention policy on objects and buckets, click the Retention (For compliance) checkbox, and then do the following:
- To enable Object Retention Lock, click the Enable object retention checkbox.
- To enable Bucket Lock, click the Set bucket retention policy checkbox, and choose a unit of time and a length of time for your retention period.
- To choose how your object data will be encrypted, expand the Data encryption section (Data encryption method. ), and select a
- Select any of the options under Data protection that you
want to set for your bucket.
- Click Create.
Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.
Clique em
Criar.Introduza um Nome a apresentar.
O ID do lago é gerado automaticamente.
Especifique a região na qual criar o lago.
Para lagos criados numa determinada região (por exemplo,
us-central1
), é possível anexar dados de região única (us-central1
) e dados de várias regiões (us multi-region
), dependendo das definições de zona.Clique em Criar.
Na vista Gerir, clique no nome do lago ao qual quer adicionar uma zona.
Clique em
Adicionar zona.Introduza um Nome a apresentar para a sua zona.
Clique no menu pendente Tipo. Escolha Zona não processada ou Zona organizada. Saiba mais acerca dos tipos de zonas.
Em Localizações de dados, selecione Regional ou Multirregional. Não pode alterar a sua escolha mais tarde. Não é possível misturar dados de região única e de várias regiões na mesma zona.
Clique em Criar.
Na vista Gerir, clique no nome do seu lake ao qual quer anexar um contentor do Cloud Storage.
No separador Zonas, clique na zona à qual quer adicionar o recurso.
No separador Recursos, clique em
Adicionar recursos.Clique em Adicionar um recurso.
Em Tipo, selecione Bucket de armazenamento.
Em Nome a apresentar, introduza um nome para o recurso.
No campo Bucket, clique em Procurar. Se tiver um contentor do Cloud Storage, encontre-o e clique em Selecionar. Se não tiver um contentor do Cloud Storage, pode criar um clicando no botão
.Introduza um nome exclusivo para o contentor. Clique em Continuar.
Escolha um Tipo de localização. Clique em Continuar.
Escolha uma classe de armazenamento predefinida para os seus dados. Clique em Continuar.
Escolha um nível de controlo de acesso. Clique em Continuar.
Escolha uma opção de proteção de dados ou Nenhuma. Clique em Continuar.
Clique em Criar.
Clique em Selecionar
Clique em Concluído.
Clique em Continuar.
Em Definições de descoberta, selecione Herdar para herdar as definições de descoberta do nível da zona.
Clique em Continuar.
Em Adicionar recursos, clique em Enviar.
- In the Google Cloud console, go to the Manage resources page.
- If the project that you plan to delete is attached to an organization, expand the Organization list in the Name column.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.
Clique no nome do lake que criou.
No separador Zonas, clique no nome da zona que criou.
No separador Recursos, selecione o recurso a desanexar selecionando a caixa à esquerda do nome do conjunto.
Clique em Eliminar recurso.
Clique em Eliminar para confirmar a desassociação.
Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.
Clique no lago que criou.
No separador Zonas, selecione a zona a eliminar selecionando a caixa à esquerda do nome da zona de dados.
Clique em Eliminar zona.
Clique em Eliminar para confirmar a eliminação.
Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.
Clique no lago que criou.
Na parte superior da página, clique em Eliminar.
Confirme a eliminação escrevendo "delete" no campo.
Clique em Eliminar lago para confirmar a eliminação.
Crie um lago
Um lago é uma construção lógica que representa um domínio de dados ou uma unidade empresarial. Por exemplo, se precisar de organizar os dados com base na utilização de grupos, criaria um lake para cada departamento (por exemplo, retalho, vendas e finanças).
Os passos seguintes mostram como criar um lake usando a Google Cloud consola.
Adicione uma zona ao seu lago
Depois de criar o lago, pode adicionar zonas ao lago. As zonas são agrupamentos lógicos num lago, que são úteis para categorizar dados estruturados e não estruturados.
A criação da zona pode demorar alguns minutos.
Anexe um recurso
Os dados podem ser armazenados em contentores do Cloud Storage ou conjuntos de dados do BigQuery e podem ser anexados como recursos a zonas de dados num lago do Dataplex Universal Catalog.
Para anexar o seu contentor do Cloud Storage como um recurso, siga estes passos:
Aguarde a conclusão da criação do recurso.
Para usar o seu lago, consulte a secção O que se segue. Caso contrário, elimine os recursos que criou seguindo os passos de limpeza.
Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.
Em alternativa, pode eliminar os recursos usados neste tutorial. Um lago não é eliminado até eliminar todos os respetivos recursos da zona de dados. Da mesma forma, uma zona de dados não é eliminada, a menos que elimine todos os respetivos recursos de ativos.
Desassocie o contentor de armazenamento
Para desanexar o recurso do catálogo universal do Dataplex que criou, siga estes passos:
Elimine a zona
Para eliminar a zona do catálogo universal do Dataplex que criou, siga estes passos:
Elimine o lago
Os passos seguintes mostram como eliminar o lake do catálogo universal do Dataplex que criou.