Guía de inicio rápido: crear y configurar un lago
En esta guía de inicio rápido se explica cómo empezar a usar Dataplex Universal Catalog en laGoogle Cloud consola. Para ello, se te guiará por el proceso de creación de un lago, la adición de una zona y la vinculación de un recurso.
Antes de empezar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Make sure that you have the following role or roles on the project:
roles/dataplex.admin
,roles/dataplex.editor
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Ir a IAM - Selecciona el proyecto.
- Haz clic en Conceder acceso.
-
En el campo Nuevos principales, introduce tu identificador de usuario. Normalmente, se trata de la dirección de correo de una cuenta de Google.
- En la lista Selecciona un rol, elige un rol.
- Para conceder más roles, haz clic en Añadir otro rol y añade cada rol adicional.
- Haz clic en Guardar.
-
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Make sure that you have the following role or roles on the project:
roles/dataplex.admin
,roles/dataplex.editor
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Ir a IAM - Selecciona el proyecto.
- Haz clic en Conceder acceso.
-
En el campo Nuevos principales, introduce tu identificador de usuario. Normalmente, se trata de la dirección de correo de una cuenta de Google.
- En la lista Selecciona un rol, elige un rol.
- Para conceder más roles, haz clic en Añadir otro rol y añade cada rol adicional.
- Haz clic en Guardar.
-
- Crea un segmento de Cloud Storage:
- In the Google Cloud console, go to the Cloud Storage Buckets page.
- Click Create.
- On the Create a bucket page, enter your bucket information. To go to the next
step, click Continue.
- For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
-
In the Choose where to store your data section, do the following:
- Select a Location type.
- Choose a location where your bucket's data is permanently stored from the Location type drop-down menu.
- If you select the dual-region location type, you can also choose to enable turbo replication by using the relevant checkbox.
- To set up cross-bucket replication, select
Add cross-bucket replication via Storage Transfer Service and
follow these steps:
Set up cross-bucket replication
- In the Bucket menu, select a bucket.
In the Replication settings section, click Configure to configure settings for the replication job.
The Configure cross-bucket replication pane appears.
- To filter objects to replicate by object name prefix, enter a prefix that you want to include or exclude objects from, then click Add a prefix.
- To set a storage class for the replicated objects, select a storage class from the Storage class menu. If you skip this step, the replicated objects will use the destination bucket's storage class by default.
- Click Done.
-
In the Choose how to store your data section, do the following:
- In the Set a default class section, select the following: Standard.
- To enable hierarchical namespace, in the Optimize storage for data-intensive workloads section, select Enable hierarchical namespace on this bucket.
- In the Choose how to control access to objects section, select whether or not your bucket enforces public access prevention, and select an access control method for your bucket's objects.
-
In the Choose how to protect object data section, do the
following:
- Select any of the options under Data protection that you
want to set for your bucket.
- To enable soft delete, click the Soft delete policy (For data recovery) checkbox, and specify the number of days you want to retain objects after deletion.
- To set Object Versioning, click the Object versioning (For version control) checkbox, and specify the maximum number of versions per object and the number of days after which the noncurrent versions expire.
- To enable the retention policy on objects and buckets, click the Retention (For compliance) checkbox, and then do the following:
- To enable Object Retention Lock, click the Enable object retention checkbox.
- To enable Bucket Lock, click the Set bucket retention policy checkbox, and choose a unit of time and a length of time for your retention period.
- To choose how your object data will be encrypted, expand the Data encryption section (Data encryption method. ), and select a
- Select any of the options under Data protection that you
want to set for your bucket.
- Click Create.
En la Google Cloud consola, ve a la página Lagos de Dataplex Universal Catalog.
Haz clic en
Crear.Introduce un nombre visible.
El ID del lago se genera automáticamente.
Especifique la región en la que se creará el lake.
En los lagos creados en una región determinada (por ejemplo,
us-central1
), se pueden adjuntar datos de una sola región (us-central1
) y de varias regiones (us multi-region
), en función de la configuración de la zona.Haz clic en Crear.
En la vista Gestionar, haz clic en el nombre del lake al que quieras añadir una zona.
Haz clic en
Añadir zona.Introduzca un nombre visible para la zona.
Haga clic en el desplegable Tipo. Elige Zona sin procesar o Zona seleccionada. Más información sobre los tipos de zonas
En Ubicaciones de datos, selecciona Regional o Multirregional. No podrás cambiar tu elección más adelante. Los datos de una sola región y de varias regiones no se pueden mezclar en la misma zona.
Haz clic en Crear.
En la vista Gestionar, haga clic en el nombre del lago al que quiera adjuntar un segmento de Cloud Storage.
En la pestaña Zonas, haga clic en la zona a la que quiera añadir el recurso.
En la pestaña Recursos, haga clic en
Añadir recursos.Haz clic en Añadir un recurso.
En Type (Tipo), selecciona Storage bucket (Contenedor de almacenamiento).
En Nombre visible, escribe un nombre para el recurso.
En el campo Bucket (Contenedor), haz clic en Browse (Explorar). Si tienes un segmento de Cloud Storage, búscalo y haz clic en Seleccionar. Si no tienes un contenedor de Cloud Storage, puedes crear uno haciendo clic en el botón
.Introduce un nombre único para el segmento. Haz clic en Continuar.
Elige un Tipo de ubicación. Haz clic en Continuar.
Elige una clase de almacenamiento predeterminada para tus datos. Haz clic en Continuar.
Elige un nivel de control de acceso. Haz clic en Continuar.
Elige una opción de protección de datos o Ninguna. Haz clic en Continuar.
Haz clic en Crear.
Haz clic en Select (Seleccionar).
Haz clic en Listo.
Haz clic en Continuar.
En Ajustes de descubrimiento, selecciona Heredar para heredar los ajustes de descubrimiento del nivel de zona.
Haz clic en Continuar.
En Añadir recursos, haga clic en Enviar.
- In the Google Cloud console, go to the Manage resources page.
- If the project that you plan to delete is attached to an organization, expand the Organization list in the Name column.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
En la Google Cloud consola, ve a la página Lagos de Dataplex Universal Catalog.
Haz clic en el nombre del lago que has creado.
En la pestaña Zonas, haga clic en el nombre de la zona que ha creado.
En la pestaña Recursos, seleccione el recurso que quiera desvincular marcando la casilla situada a la izquierda del nombre del contenedor.
Haz clic en Eliminar recurso.
Haz clic en Eliminar para confirmar la acción.
En la Google Cloud consola, ve a la página Lagos de Dataplex Universal Catalog.
Haz clic en el lago que has creado.
En la pestaña Zonas, seleccione la zona que quiera eliminar marcando la casilla situada a la izquierda del nombre de la zona de datos.
Haz clic en Eliminar zona.
Haz clic en Eliminar para confirmar la acción.
En la Google Cloud consola, ve a la página Lagos de Dataplex Universal Catalog.
Haz clic en el lago que has creado.
En la parte superior de la página, haz clic en Eliminar.
Para confirmar la eliminación, escribe "delete" en el campo.
Haz clic en Eliminar lago para confirmar la eliminación.
Crear un lago
Un lago es una estructura lógica que representa un dominio de datos o una unidad de negocio. Por ejemplo, si necesitas organizar los datos en función del uso de los grupos, crearías un lago para cada departamento (por ejemplo, ventas, finanzas y comercio).
En los pasos siguientes se explica cómo crear un lago con la consola de Google Cloud .
Añadir una zona a un lago
Una vez que hayas creado el lago, podrás añadirle zonas. Las zonas son agrupaciones lógicas dentro de un lake que resultan útiles para categorizar datos estructurados y sin estructurar.
La creación de la zona puede tardar unos minutos.
Adjuntar un recurso
Los datos se pueden almacenar en cubos de Cloud Storage o en conjuntos de datos de BigQuery, y se pueden adjuntar como recursos a zonas de datos de un lago de Universal Catalog de Dataplex.
Para adjuntar tu contenedor de Cloud Storage como recurso, sigue estos pasos:
Espera a que termine de crearse el recurso.
Para usar tu lake, consulta la sección Pasos siguientes. De lo contrario, elimina los recursos que hayas creado siguiendo los pasos de la sección Limpieza.
Limpieza
Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.
También puedes eliminar los recursos utilizados en este tutorial. Un lago no se elimina hasta que se eliminan todos sus recursos de zona de datos. Del mismo modo, una zona de datos no se elimina a menos que elimine todos sus recursos de activos.
Desasociar el segmento de almacenamiento
Para separar el recurso de Universal Catalog de Dataplex que has creado, sigue estos pasos:
Eliminar la zona
Para eliminar la zona de Universal Catalog de Dataplex que has creado, sigue estos pasos:
Eliminar el lago
En los siguientes pasos se muestra cómo eliminar el lago de Universal Catalog de Dataplex que has creado.