Etiqueta una tabla de BigQuery con Data Catalog
Esta guía de inicio rápido te ayudará a completar las siguientes tareas:
Crea un conjunto de datos y una tabla de BigQuery.
Crea una plantilla de etiqueta con un esquema que defina cinco campos de etiquetas de tipos distintos. Estos son
string
,double
,boolean
,enumerated
yrichtext
.Busque la entrada del Data Catalog para su tabla.
En la consola de Google Cloud, crea metadatos empresariales para tu entrada, que incluyan una descripción general, un administrador de datos y una etiqueta.
Data Catalog te permite buscar y etiquetar entradas como Tablas de BigQuery con metadatos. Algunos ejemplos de metadatos que puedes para etiquetar incluyen etiquetas públicas y privadas, administradores de datos y texto enriquecido descripción general.
Antes de comenzar
- Configurar tu proyecto
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Data Catalog and BigQuery APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Data Catalog and BigQuery APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Agrega una entrada de datos públicos a tu proyecto
Las entradas de Data Catalog incluyen recursos de datos, como un conjunto de datos de BigQuery o un tema de Pub/Sub.
Agrega un conjunto de datos públicos a tu proyecto.
En la consola de Google Cloud, ve a la página de BigQuery.
En la sección Explorer, haz clic en Explorer y selecciona Público. conjuntos de datos de la lista.
En el panel Marketplace, busca
New York taxi trips
y haz clic en resultado de la búsqueda relevante.Haz clic en Ver conjunto de datos.
Crea un conjunto de datos y una tabla
Crea un conjunto de datos.
En la consola de Google Cloud, abre la página de BigQuery.
En el panel Explorador, selecciona el proyecto en el que deseas crear el conjunto de datos.
Haz clic en el ícono
Acciones y, luego, en Crear conjunto de datos.En la página Crear conjunto de datos, completa los siguientes detalles:
- En ID del conjunto de datos, ingresa
demo_dataset
. - En Ubicación de los datos, selecciona
us (multiple regions in United States)
. - Habilita el vencimiento de la tabla y especifica la cantidad de días.
- En Encriptación, deja seleccionada la opción Clave de encriptación administrada por Google.
Haz clic en Crear conjunto de datos.
- En ID del conjunto de datos, ingresa
Copia una tabla de acceso público en
demo_dataset
.En la consola de Google Cloud, abre la página de BigQuery.
En el panel Explorer, busca tablas de
tlc_yellow_trips
. (haz clic en Ampliar búsqueda a todos los proyectos si es necesario) y selecciona una de ellas, comotlc_yellow_trips_2017
. Luego, haz clic en Copiar.En el panel Copiar tabla, completa la siguiente información:
- Selecciona tu proyecto en la lista desplegable Nombre del proyecto.
- En la lista desplegable Nombre del conjunto de datos, selecciona
demo_dataset
. - Para el Nombre de la tabla, ingresa
trips
y, luego, haz clic en Copiar.
En el panel Explorer, confirma que la tabla
trips
aparezca endemo_dataset
.
Agregarás etiquetas de Data Catalog a la tabla en la siguiente sección.
Crea una plantilla de etiqueta pública y adjunta una etiqueta a tu entrada
Debes ser el propietario del conjunto de datos para adjuntar una etiqueta a una tabla del conjunto. Para obtener más información sobre las etiquetas públicas y privadas, consulta Etiquetas públicas y privadas.
En una plantilla de etiqueta, los campos de etiqueta son opcionales. No es necesario proporcionar un valor para un campo cuando se adjunta una etiqueta a una entrada de Data Catalog Sin embargo, si una plantilla define un campo como obligatorio, debes proporcionar un valor para el campo. Si no se proporciona el valor, se genera un error.
Puedes utilizar letras minúsculas y guiones bajos para definir nombres de campo. Los campos de plantilla de etiqueta creados en este ejemplo son solo campos de demostración y no se actualizan automáticamente ni se sincronizan con BigQuery.
Console
Ve a Dataplex >. Plantillas de etiquetas.
Haz clic en Crear plantilla de etiqueta y, luego, ingresa los siguientes detalles:
- Ingresa el Nombre de la plantilla como
Demo Tag Template
. - Mantén la ubicación predeterminada.
- Mantén la visibilidad de la plantilla de etiqueta como Pública.
Haz clic en Agregar campo para agregar 5 campos. Utiliza la siguiente tabla y deja vacío el campo Descripción del campo.
Nombre visible de campo ID del campo Campo obligatorio Tipo Fuente del recurso de datos source Sí String Filas del recurso num_rows No Doble Contiene PII has_pii No Booleano Tipo de PII pii_type No Enumerado Agrega los valores
EMAIL_ADDRESS
,US_SOCIAL_SECURITY_NUMBER
yNONE
.Contexto contexto No Texto enriquecido
- Ingresa el Nombre de la plantilla como
Haz clic en Crear.
En la página Detalles de la plantilla, se muestra toda la información sobre la plantilla de etiqueta.
Para adjuntar una etiqueta a
demo_dataset
, ve a la página de búsqueda de Dataplex.En Elegir plataforma de búsqueda, selecciona Data Catalog como modo de búsqueda.
En el cuadro de búsqueda, ingresa
demo_dataset
. En el resultado de la búsqueda, verás el conjunto de datosdemo_dataset
y la tablatrips
.Haz clic en la tabla
trips
. Se abrirá una página de detalles de la tabla de BigQuery.Haz clic en Adjuntar etiquetas.
En el panel Adjuntar etiquetas, ingresa los siguientes detalles:
- Selecciona el destino como
trips
. - Selecciona la plantilla de etiqueta
Demo Tag Template
. - Para los valores de etiqueta, ingresa los siguientes detalles:
- Fuente del recurso de datos:
Copied from tlc_yellow_trips_2017
- Cantidad de filas en el recurso de datos:
113496874
- Has PII:
FALSE
- Tipo de PII:
NONE
- Fuente del recurso de datos:
Haz clic en Guardar.
Los campos de etiqueta ahora se muestran en la sección Etiquetas de los detalles de la tabla de BigQuery.
- Selecciona el destino como
gcloud
Ejecuta el gcloud data-catalog tag-templates create que se muestra a continuación para crear una plantilla de etiqueta con los siguientes cinco campos de etiqueta:
display_name:
Source of data assetid:
sourcerequired:
TRUEtype:
Stringdisplay_name:
Number of rows in the data assetid:
num_rowsrequired:
FALSEtype:
Doubledisplay_name:
Has PIIid:
has_piirequired:
FALSEtype:
Booleandisplay_name:
PII typeid:
pii_typerequired:
FALSEtype:
Enumeratedvalues:
- Dirección de correo electrónico
- US_SOCIAL_SECURITY_NUMBER
- NINGUNO
# ------------------------------- # Create a Tag Template. # ------------------------------- gcloud data-catalog tag-templates create demo_template \ --location=us-central1 \ --display-name="Demo Tag Template" \ --field=id=source,display-name="Source of data asset",type=string,required=TRUE \ --field=id=num_rows,display-name="Number of rows in the data asset",type=double \ --field=id=has_pii,display-name="Has PII",type=bool \ --field=id=pii_type,display-name="PII type",type='enum(EMAIL_ADDRESS|US_SOCIAL_SECURITY_NUMBER|NONE)' # ------------------------------- # Lookup the Data Catalog entry for the table. # ------------------------------- ENTRY_NAME=$(gcloud data-catalog entries lookup '//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET/tables/TABLE' --format="value(name)") # ------------------------------- # Attach a Tag to the table. # ------------------------------- # Create the Tag file. cat > tag_file.json << EOF { "source": "BigQuery", "num_rows": 1000, "has_pii": true, "pii_type": "EMAIL_ADDRESS" } EOF gcloud data-catalog tags create --entry=${ENTRY_NAME} \ --tag-template=demo_template --tag-template-location=us-central1 --tag-file=tag_file.json
Go
Antes de probar esta muestra, sigue las instrucciones de configuración de Go que se encuentran en el Guía de inicio rápido de Data Catalog con bibliotecas cliente. Para obtener más información, consulta la API de Go de Data Catalog documentación de referencia.
Para autenticarte en Data Catalog, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Java
Antes de probar esta muestra, sigue las instrucciones de configuración de Java que se encuentran en el Guía de inicio rápido de Data Catalog con bibliotecas cliente. Para obtener más información, consulta la API de Java de Data Catalog documentación de referencia.
Para autenticarte en Data Catalog, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Node.js
Antes de probar esta muestra, sigue las instrucciones de configuración de Node.js que se encuentran en el Guía de inicio rápido de Data Catalog con bibliotecas cliente. Para obtener más información, consulta la API de Node.js de Data Catalog documentación de referencia.
Para autenticarte en Data Catalog, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Antes de probar esta muestra, sigue las instrucciones de configuración de Python que se encuentran en el Guía de inicio rápido de Data Catalog con bibliotecas cliente. Para obtener más información, consulta la API de Python de Data Catalog documentación de referencia.
Para autenticarte en Data Catalog, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
LÍNEA DE REST Y CMD
REST
Si no tienes acceso a las bibliotecas cliente de Cloud en tu idioma o quieres probar la API con solicitudes de REST, consulta los siguientes ejemplos y la documentación de la API de REST de Data Catalog.
1. Crea una plantilla de etiqueta.
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- project-id: El ID del proyecto de Google Cloud.
Método HTTP y URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/tagTemplates?tagTemplateId=demo_tag_template
Cuerpo JSON de la solicitud:
{ "displayName":"Demo Tag Template", "fields":{ "source":{ "displayName":"Source of data asset", "isRequired": "true", "type":{ "primitiveType":"STRING" } }, "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" }, { "displayName":"NONE" } ] } } } } }
Para enviar tu solicitud, expande una de estas opciones:
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
{ "name":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "displayName":"Demo Tag Template", "fields":{ "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"NONE" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" } ] } } }, "source":{ "displayName":"Source of data asset", "isRequired":"true", "type":{ "primitiveType":"STRING" } } } }
2 Busca el Data Catalog entry-id
para tu tabla de BigQuery.
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- project-id: ID del proyecto de Google Cloud
Método HTTP y URL:
GET https://datacatalog.googleapis.com/v1/entries:lookup?linkedResource=//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips
Cuerpo JSON de la solicitud:
Request body is empty.
Para enviar tu solicitud, expande una de estas opciones:
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
{ "name": "projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id", "type": "TABLE", "schema": { "columns": [ { "type": "STRING", "description": "A code indicating the TPEP provider that provided the record. 1= ", "mode": "REQUIRED", "column": "vendor_id" }, ... ] }, "sourceSystemTimestamps": { "createTime": "2019-01-25T01:45:29.959Z", "updateTime": "2019-03-19T23:20:26.540Z" }, "linkedResource": "//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips", "bigqueryTableSpec": { "tableSourceType": "BIGQUERY_TABLE" } }
3. Crea una etiqueta a partir de la plantilla y adjúntala a tu tabla BigQuery.
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- project-id: ID del proyecto de Google Cloud
- entry-id: ID de entrada de Data Catalog para la tabla de viajes del conjunto de datos de demostración (que se muestra en los resultados de la búsqueda en el paso anterior).
Método HTTP y URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/entryGroups/@bigquery/entries/entry-id/tags
Cuerpo JSON de la solicitud:
{ "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "source":{ "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "doubleValue":113496874 }, "has_pii":{ "boolValue":false }, "pii_type":{ "enumValue":{ "displayName":"NONE" } } } }
Para enviar tu solicitud, expande una de estas opciones:
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
{ "name":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id/tags/tag-id", "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "pii_type":{ "displayName":"PII type", "enumValue":{ "displayName":"NONE" } }, "has_pii":{ "displayName":"Has PII", "boolValue":false }, "source":{ "displayName":"Source of data asset", "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "displayName":"Number of rows in data asset", "doubleValue":113496874 } }, "templateDisplayName":"Demo Tag Template" }
Crea una descripción general de tu entrada
Dentro de la consola de Google Cloud, puedes usar texto enriquecido para describir una entrada de tu proyecto de Data Catalog.
Para crear una descripción general de la tabla
trips
, ve a la página de búsqueda de Dataplex.En Elegir plataforma de búsqueda, selecciona Data Catalog como modo de búsqueda.
En el cuadro de búsqueda, ingresa
demo_dataset
.En el resultado de la búsqueda, verás el conjunto de datos
demo_dataset
y la tablatrips
.Haz clic en la tabla
trips
.Se abrirá una página de detalles de la tabla de BigQuery.
Haz clic en Agregar descripción general y, luego, ingresa texto. Además, puedes incluir imágenes y texto con formato enriquecido.
Haz clic en Guardar.
Agrega un administrador de datos para tu entrada
En la consola de Google Cloud, puedes agregar uno o más administradores de datos a una entrada en tu proyecto de Data Catalog. Un administrador de datos para una entrada de datos nos podemos comunicar para solicitar más información sobre la entrada de datos.
Para crear una descripción general de la tabla
trips
, repite los primeros 3 pasos de la sección anterior.Haz clic en el ícono de Edit Steward y agrega una o más direcciones de correo electrónico.
Puedes agregar un usuario con una cuenta de correo electrónico que no sea de Google.
Haz clic en Guardar.
Limpia
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
Borra el proyecto
La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.
Para borrar el proyecto, sigue estos pasos:
- En la consola de Google Cloud, ve a la página Administrar recursos.
- En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
- En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
Borra el conjunto de datos
Si es necesario, ve a la página de BigQuery.
En el panel Explorer, busca el conjunto de datos
demo_dataset
que creaste.Haz clic en la opción
Acciones y, luego, en Borrar conjunto de datos.Confirma la acción de borrar.
Borrar la plantilla de etiqueta
Ve a Data Catalog > Plantillas.
Selecciona Plantilla de etiqueta de demostración.
En la fila, haz clic en la opción
Acciones y, luego, en Borrar esta plantilla.Confirma la acción de borrar.
¿Qué sigue?
Obtén información sobre Data Catalog en Descripción general de Data Catalog.
Obtén más información sobre los metadatos técnicos y los metadatos empresariales.
Obtén más información sobre las plantillas de etiquetas, las etiquetas públicas y las privadas en Etiquetas y plantillas de etiquetas.
Explore la Descripción general de las API y las bibliotecas del cliente.