BigQuery-Tabelle mithilfe von Data Catalog taggen
In dieser Kurzanleitung erfahren Sie, wie Sie die folgenden Aufgaben ausführen:
Erstellen Sie ein BigQuery-Dataset und eine Tabelle.
Erstellen Sie eine Tag-Vorlage mit einem Schema, das fünf Tag-Felder unterschiedlicher Typen definiert. Das sind
string
,double
,boolean
,enumerated
undrichtext
.Sie suchen den Data Catalog-eintrag für Ihre Tabelle.
Erstellen Sie in der Google Cloud Console Geschäftsmetadaten für Ihren Eintrag, die eine Übersicht, einen Datenbetreuer und ein Tag enthalten.
Mit Data Catalog können Sie Einträge wie BigQuery-Tabellen mit Metadaten durchsuchen und taggen. Beispiele für Metadaten, die Sie zum Tagging verwenden können, sind öffentliche und private Tags, Datenbetreuer und eine Übersicht mit Rich Text.
Hinweis
- Ihr Projekt einrichten
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Data Catalog and BigQuery APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Data Catalog and BigQuery APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Öffentlichen Dateneintrag zum Projekt hinzufügen
Data Catalog-Einträge umfassen Datenressourcen wie ein BigQuery-Dataset oder ein Pub/Sub-Thema.
Fügen Sie Ihrem Projekt ein öffentliches Dataset hinzu.
Öffnen Sie in der Google Cloud Console die Seite „BigQuery“.
Klicken Sie im Bereich Explorer auf + DATEN HINZUFÜGEN und wählen Sie in der Liste Öffentliche Datasets aus.
Suchen Sie im Bereich Marketplace nach
New York taxi trips
und klicken Sie auf das entsprechende Suchergebnis.Klicken Sie auf Dataset aufrufen.
Dataset und Tabelle erstellen
Dataset erstellen
Öffnen Sie in der Google Cloud Console die Seite „BigQuery“.
Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.
Klicken Sie auf das
Symbol Aktionen und dann auf Dataset erstellen.Machen Sie auf der Seite Dataset erstellen die folgenden Angaben:
- Geben Sie unter Dataset-ID
demo_dataset
ein. - Wählen Sie als Speicherort der Daten die Option
us (multiple regions in United States)
aus. - Aktivieren Sie den Tabellenablauf und geben Sie die Anzahl der Tage an.
- Lassen Sie unter Verschlüsselung die Option Von Google verwalteter Verschlüsselungsschlüssel ausgewählt.
Klicken Sie auf Dataset erstellen.
- Geben Sie unter Dataset-ID
Kopieren Sie eine öffentlich zugängliche Tabelle in
demo_dataset
.Öffnen Sie in der Google Cloud Console die Seite „BigQuery“.
Suchen Sie im Bereich Explorer nach
tlc_yellow_trips
-Tabellen (klicken Sie bei Bedarf auf Suche auf alle Projekte ausweiten) und wählen Sie eine aus, z. B.tlc_yellow_trips_2017
. Klicken Sie dann auf Kopieren.Geben Sie im Bereich Copy table (Tabelle kopieren) die folgenden Informationen ein:
- Wählen Sie in der Drop-down-Liste Projektname Ihr Projekt aus.
- Wählen Sie in der Drop-down-Liste Dataset-Name die Option
demo_dataset
aus. - Geben Sie als Tabellenname
trips
ein und klicken Sie dann auf Kopieren.
Prüfen Sie im Bereich Explorer, ob die Tabelle
trips
indemo_dataset
aufgeführt ist.
Im nächsten Abschnitt fügen Sie der Tabelle Data Catalog-Tags hinzu.
Öffentliche Tag-Vorlage erstellen und ein Tag für Ihren Eintrag anhängen
Sie müssen der Inhaber des Datasets sein, um ein Tag an eine Tabelle im Dataset anzuhängen. Weitere Informationen zu öffentlichen und privaten Tags finden Sie unter Öffentliche und private Tags.
In einer Tag-Vorlage sind Tag-Felder optional. Sie müssen keinen Wert für ein Feld angeben, wenn Sie einem Data Catalog-Eintrag ein Tag hinzufügen. Wenn eine Vorlage jedoch ein Feld als erforderlich definiert, müssen Sie einen Wert für das Feld angeben. Wenn der Wert nicht angegeben wird, wird ein Fehler generiert.
Sie können Kleinbuchstaben und Unterstriche verwenden, um Feldnamen zu definieren. Die in diesem Beispiel erstellten Tag-Vorlagenfelder sind nur Demofelder und werden nicht automatisch aktualisiert oder mit BigQuery synchronisiert.
Console
Rufen Sie die Seite Dataplex > Tag-Vorlagen auf.
Klicken Sie auf Tag-Vorlage erstellen und geben Sie die folgenden Details ein:
- Geben Sie unter Vorlagenname
Demo Tag Template
ein. - Behalten Sie den Standardspeicherort bei.
- Behalten Sie die Sichtbarkeit der Tag-Vorlage bei Öffentlich.
Klicken Sie auf Feld hinzufügen, um fünf Felder hinzuzufügen. Verwenden Sie die folgende Tabelle und lassen Sie das Feld Feldbeschreibung leer.
Anzeigename des Feldes Feld-ID Pflichtfeld Typ Quelle des Datenassets source Ja String Zeilen im Asset num_rows Nein Doppelt Enthält personenidentifizierbare Informationen has_pii Nein Boolesch PII-Typ pii_type Nein Aufgezählt Fügen Sie die Werte
EMAIL_ADDRESS
,US_SOCIAL_SECURITY_NUMBER
undNONE
hinzu.Kontext context Nein RTF
- Geben Sie unter Vorlagenname
Klicken Sie auf Erstellen.
Auf der Seite Vorlagendetails werden alle Informationen zur Tag-Vorlage aufgeführt.
Wenn Sie
demo_dataset
ein Tag zuweisen möchten, rufen Sie die Dataplex-Suchseite auf.Wählen Sie unter Suchplattform auswählen als Suchmodus Data Catalog aus.
Geben Sie
demo_dataset
in das Suchfeld ein. In den Suchergebnissen werden das Datasetdemo_dataset
und die Tabelletrips
angezeigt.Klicken Sie auf die Tabelle
trips
. Die Seite BigQuery-Tabellendetails wird geöffnet.Klicken Sie auf Tags anhängen.
Geben Sie im Bereich Tags anhängen die folgenden Details ein:
- Wählen Sie das Ziel als
trips
aus. - Wählen Sie die Tag-Vorlage als
Demo Tag Template
aus. - Geben Sie für Tag-Werte die folgenden Details ein:
- Quelle des Datenassets:
Copied from tlc_yellow_trips_2017
- Anzahl der Zeilen im Daten-Asset:
113496874
- PII vorhanden:
FALSE
- PII-Typ:
NONE
- Quelle des Datenassets:
Klicken Sie auf Speichern.
Die Tag-Felder werden nun im Abschnitt Tags in den BigQuery-Tabellendetails aufgeführt.
- Wählen Sie das Ziel als
gcloud
Führen Sie den gcloud data-catalog tag-templates create unten gezeigt, um eine Tag-Vorlage mit den folgenden fünf Tag-Feldern zu erstellen:
-
display_name:
Source of data assetid:
sourcerequired:
TRUEtype:
String -
display_name:
Number of rows in the data assetid:
num_rowsrequired:
FALSEtype:
Double -
display_name:
Has PIIid:
has_piirequired:
FALSEtype:
Boolean -
display_name:
PII typeid:
pii_typerequired:
FALSEtype:
Enumeratedvalues:
- EMAIL_ADDRESS
- US_SOCIAL_SECURITY_NUMBER
- KEINE
# ------------------------------- # Create a Tag Template. # ------------------------------- gcloud data-catalog tag-templates create demo_template \ --location=us-central1 \ --display-name="Demo Tag Template" \ --field=id=source,display-name="Source of data asset",type=string,required=TRUE \ --field=id=num_rows,display-name="Number of rows in the data asset",type=double \ --field=id=has_pii,display-name="Has PII",type=bool \ --field=id=pii_type,display-name="PII type",type='enum(EMAIL_ADDRESS|US_SOCIAL_SECURITY_NUMBER|NONE)' # ------------------------------- # Lookup the Data Catalog entry for the table. # ------------------------------- ENTRY_NAME=$(gcloud data-catalog entries lookup '//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET/tables/TABLE' --format="value(name)") # ------------------------------- # Attach a Tag to the table. # ------------------------------- # Create the Tag file. cat > tag_file.json << EOF { "source": "BigQuery", "num_rows": 1000, "has_pii": true, "pii_type": "EMAIL_ADDRESS" } EOF gcloud data-catalog tags create --entry=${ENTRY_NAME} \ --tag-template=demo_template --tag-template-location=us-central1 --tag-file=tag_file.json
Go
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Go in der Data Catalog-Kurzanleitung mit Clientbibliotheken. Weitere Informationen finden Sie in der Data Catalog Go API Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Data Catalog zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Java in der Data Catalog-Kurzanleitung mit Clientbibliotheken. Weitere Informationen finden Sie in der Data Catalog Java API Referenzdokumentation.
Richten Sie Standardanmeldedaten für Anwendungen ein, um sich bei Data Catalog zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Node.js in der Data Catalog-Kurzanleitung mit Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Data Catalog Node.js API.
Richten Sie Standardanmeldedaten für Anwendungen ein, um sich bei Data Catalog zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Python in der Data Catalog-Kurzanleitung mit Clientbibliotheken. Weitere Informationen finden Sie in der Data Catalog Python API Referenzdokumentation.
Richten Sie Standardanmeldedaten für Anwendungen ein, um sich bei Data Catalog zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
REST UND BEFEHLSZEILE
REST
Wenn Sie keinen Zugriff auf Cloud Client-Bibliotheken für Ihre Sprache haben oder das API mithilfe von REST-Anforderungen testen möchten, sehen Sie sich die folgenden Beispiele an und lesen Sie die Dokumentation zur Data Catalog REST API.
1 Tag-Vorlage erstellen.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- project-id: Ihre Google Cloud-Projekt-ID
HTTP-Methode und URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/tagTemplates?tagTemplateId=demo_tag_template
JSON-Text anfordern:
{ "displayName":"Demo Tag Template", "fields":{ "source":{ "displayName":"Source of data asset", "isRequired": "true", "type":{ "primitiveType":"STRING" } }, "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" }, { "displayName":"NONE" } ] } } } } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "displayName":"Demo Tag Template", "fields":{ "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"NONE" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" } ] } } }, "source":{ "displayName":"Source of data asset", "isRequired":"true", "type":{ "primitiveType":"STRING" } } } }
2. Suchen Sie die Data Catalog-entry-id
Ihrer BigQuery-Tabelle heraus.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- project-id: ID des Google Cloud-Projekts.
HTTP-Methode und URL:
GET https://datacatalog.googleapis.com/v1/entries:lookup?linkedResource=//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips
JSON-Text anfordern:
Request body is empty.
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id", "type": "TABLE", "schema": { "columns": [ { "type": "STRING", "description": "A code indicating the TPEP provider that provided the record. 1= ", "mode": "REQUIRED", "column": "vendor_id" }, ... ] }, "sourceSystemTimestamps": { "createTime": "2019-01-25T01:45:29.959Z", "updateTime": "2019-03-19T23:20:26.540Z" }, "linkedResource": "//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips", "bigqueryTableSpec": { "tableSourceType": "BIGQUERY_TABLE" } }
3. Ein Tag aus der Vorlage erstellen und hängen an Ihre BigQuery-Tabelle anhängen
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- project-id: ID des Google Cloud-Projekts.
- entry-id: Data Catalog-Eintrags-ID für die Demo-Dataset-trips-Tabelle, die in den Nachschlag-Ergebnissen im vorherigen Schritt zurückgegeben wurde.
HTTP-Methode und URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/entryGroups/@bigquery/entries/entry-id/tags
JSON-Text anfordern:
{ "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "source":{ "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "doubleValue":113496874 }, "has_pii":{ "boolValue":false }, "pii_type":{ "enumValue":{ "displayName":"NONE" } } } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id/tags/tag-id", "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "pii_type":{ "displayName":"PII type", "enumValue":{ "displayName":"NONE" } }, "has_pii":{ "displayName":"Has PII", "boolValue":false }, "source":{ "displayName":"Source of data asset", "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "displayName":"Number of rows in data asset", "doubleValue":113496874 } }, "templateDisplayName":"Demo Tag Template" }
Übersicht über einen Eintrag erstellen
In der Google Cloud Console können Sie einen Eintrag in Ihrem Data Catalog-Projekt mithilfe von Rich Text beschreiben.
Rufen Sie die Dataplex-Suchseite auf, um eine Übersicht für die Tabelle
trips
zu erstellen.Wählen Sie unter Suchplattform auswählen als Suchmodus Data Catalog aus.
Geben Sie
demo_dataset
in das Suchfeld ein.In den Suchergebnissen werden das Dataset
demo_dataset
und die Tabelletrips
angezeigt.Klicken Sie auf die Tabelle
trips
.Die Seite BigQuery-Tabellendetails wird geöffnet.
Klicken Sie auf Übersicht hinzufügen und geben Sie Text ein. Außerdem können Sie Bilder und formatierten Text einfügen.
Klicken Sie auf Speichern.
Datenverwalter für einen Eintrag hinzufügen
In der Google Cloud Console können Sie einem Eintrag einen oder mehrere Data Stewards hinzufügen in Ihrem Data Catalog-Projekt. Sie können sich an den Datenbetreuer einer Dateneingabe wenden, um weitere Informationen zu erhalten.
Wiederholen Sie die ersten drei Schritte aus dem vorherigen Abschnitt, um eine Übersicht für die Tabelle
trips
zu erstellen.Klicken Sie auf das Symbol Verwalter bearbeiten und fügen Sie eine oder mehrere E-Mail-Adressen hinzu.
Sie können einen Nutzer mit einem Nicht-Google-E-Mail-Konto hinzufügen.
Klicken Sie auf Speichern.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:
Projekt löschen
Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.
So löschen Sie das Projekt:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Dataset löschen
Rufen Sie ggf. die BigQuery-Seite auf.
Suchen Sie im Bereich Explorer nach dem von Ihnen erstellten Dataset
demo_dataset
.Klicken Sie auf die Option
Aktionen und dann auf Dataset löschen.Bestätigen Sie den Löschvorgang.
Tag-Vorlage löschen
Rufen Sie Data Catalog > Vorlagen auf.
Wählen Sie Demo-Tag-Vorlage aus.
Klicken Sie in der Zeile auf die Option
Aktionen und dann auf Diese Vorlage löschen.Bestätigen Sie den Löschvorgang.
Nächste Schritte
Weitere Informationen zu Data Catalog finden Sie in der Data Catalog-Übersicht.
Weitere Informationen zu technischen Metadaten und Geschäftsmetadaten
Weitere Informationen zu Tag-Vorlagen, öffentlichen und privaten Tags finden Sie unter Tags und Tag-Vorlagen.
Übersicht über APIs und Clientbibliotheken durchgehen.