BigQuery-Tabellen mit Data Catalog taggen
Mit dieser Kurzanleitung können Sie die folgenden Aufgaben ausführen:
ein BigQuery-Dataset und eine Tabelle erstellen
Erstellen Sie eine Tag-Vorlage mit einem Schema, das fünf Tag-Felder verschiedener Typen definiert. Dies sind
string
,double
,boolean
,enumerated
undrichtext
.Sie suchen den Data Catalog-eintrag für Ihre Tabelle.
Erstellen Sie in der Google Cloud Console geschäftliche Metadaten für Ihren Eintrag, die eine Übersicht, einen Datenverwalter und ein Tag enthalten.
Mit Data Catalog können Sie Einträge wie BigQuery-Tabellen mit Metadaten suchen und taggen. Beispiele für Metadaten, die du für das Tagging verwenden kannst, sind öffentliche und private Tags, Datenverwalter und Übersicht über Rich Text.
Hinweis
- Ihr Projekt einrichten.
- Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Data Catalog and BigQuery APIs aktivieren.
- Installieren und initialisieren Sie Google Cloud CLI.
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Data Catalog and BigQuery APIs aktivieren.
- Installieren und initialisieren Sie Google Cloud CLI.
Öffentlichen Dateneintrag zum Projekt hinzufügen
Data Catalog-Einträge enthalten Datenressourcen wie ein BigQuery-Dataset oder ein Pub/Sub-Thema.
Fügen Sie Ihrem Projekt ein öffentliches Dataset hinzu.
Rufen Sie in der Cloud Console die BigQuery-Seite auf.
Klicken Sie im Bereich Explorer auf + DATEN HINZUFÜGEN und wählen Sie aus der Drop-down-Liste die Option Öffentliche Datasets ansehen aus.
Suchen Sie im Bereich Marktplatz nach
New York taxi trips
und klicken Sie auf das entsprechende Suchergebnis.Klicken Sie auf Dataset aufrufen.
Dataset und Tabelle erstellen
Erstellen Sie ein Dataset.
Öffnen Sie in der Cloud Console die BigQuery-Seite.
Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.
Klicken Sie auf das Symbol
Aktionen und dann auf Dataset erstellen.Geben Sie auf der Seite Dataset erstellen die folgenden Informationen ein:
- Geben Sie unter Dataset-ID
demo_dataset
ein. - Wählen Sie als Speicherort der Daten die Option
US multi-region
aus. - Aktivieren Sie die Tabellenablaufzeit und geben Sie die Anzahl der Tage an.
- Lassen Sie unter Verschlüsselung die Option Von Google verwalteter Schlüssel ausgewählt.
Klicken Sie auf Dataset erstellen.
- Geben Sie unter Dataset-ID
Kopieren Sie eine öffentlich zugängliche Tabelle in
demo_dataset
.Öffnen Sie in der Cloud Console die BigQuery-Seite.
Suchen Sie im Bereich Explorer nach
tlc_yellow_trips
Tabellen und wählen Sie eine davon aus, z. B.tlc_yellow_trips_2017
. Klicken Sie dann auf Kopieren.Machen Sie im Bereich Tabelle kopieren die folgenden Angaben:
- Wählen Sie in der Drop-down-Liste Projektname Ihr Projekt aus.
- Wählen Sie in der Drop-down-Liste Dataset-Name die Option
demo_dataset
aus. - Geben Sie als Tabellenname
trips
ein und klicken Sie dann auf Kopieren.
Prüfen Sie im Bereich Explorer, ob die Tabelle
trips
indemo_dataset
aufgeführt ist.
Sie fügen der Tabelle im nächsten Abschnitt Data Catalog-Tags hinzu.
Öffentliche Tag-Vorlage erstellen und ein Tag für Ihren Eintrag anhängen
Sie müssen der Inhaber des Datasets sein, um ein Tag an eine Tabelle im Dataset anhängen zu können. Weitere Informationen zu öffentlichen und privaten Tags finden Sie unter Öffentliche und private Tags.
In einer Tag-Vorlage sind Tag-Felder optional. Sie müssen keinen Wert für ein Feld angeben, wenn Sie ein Tag an einen Data Catalog-Eintrag anhängen. Wenn in einer Vorlage jedoch ein Feld nach Bedarf definiert wird, müssen Sie einen Wert für das Feld angeben. Wenn Sie keinen Wert angeben, wird ein Fehler ausgegeben.
Sie können Feldnamen mit Kleinbuchstaben und Unterstrichen definieren. Die in diesem Beispiel erstellten Tag-Vorlagenfelder sind nur Demofelder und werden nicht automatisch aktualisiert oder mit BigQuery synchronisiert.
Console
Rufen Sie die Seite Tag-Vorlagen und Data Catalog auf.
Klicken Sie auf Tag-Vorlage erstellen und geben Sie die folgenden Details ein:
- Geben Sie als Vorlagennamen
Demo Tag Template
ein. - Übernehmen Sie den Standardspeicherort.
- Behalten Sie die Sichtbarkeit der Tag-Vorlage als Öffentlich bei.
Klicken Sie auf Feld hinzufügen, um fünf Felder hinzuzufügen. Verwenden Sie die folgende Tabelle und lassen Sie die Feldbeschreibung leer.
Angezeigter Name des Feldes Feld-ID Pflichtfeld Typ Quelle der Daten-Assets Quelle Ja String Zeilen im Asset num_rows Nein Double Enthält personenidentifizierbare Informationen has_pii Nein Boolesch PII-Typ pii_Typ Nein Aufgezählt Fügen Sie die Werte
EMAIL_ADDRESS
,US_SOCIAL_SECURITY_NUMBER
undNONE
hinzu.Kontext context Nein RTF
- Geben Sie als Vorlagennamen
Klicken Sie auf Erstellen.
Auf der Seite Vorlagendetails finden Sie alle Informationen zur Tag-Vorlage.
Rufen Sie die Seite „Data Catalog“ auf, um ein Tag an
demo_dataset
anzuhängen.Geben Sie in das Suchfeld
demo_dataset
ein. Im Suchergebnis sehen Sie dasdemo_dataset
-Dataset und dietrips
-Tabelle.Klicken Sie auf die Tabelle
trips
. Die Seite BigQuery-Tabellendetails wird geöffnet.Klicken Sie auf Tags anhängen.
Geben Sie im Bereich Tags anhängen die folgenden Informationen ein:
- Wählen Sie das Ziel als
trips
aus. - Wählen Sie die Tag-Vorlage als
Demo Tag Template
aus. - Geben Sie für Tag-Werte die folgenden Details ein:
- Quelle des Datenassets:
Copied from tlc_yellow_trips_2017
- Anzahl der Zeilen im Daten-Asset:
113496874
- PII vorhanden:
FALSE
- PII-Typ:
NONE
- Quelle des Datenassets:
Klicken Sie auf Speichern.
Die Tag-Felder werden jetzt in den BigQuery-Tabellendetails im Bereich Tags aufgeführt.
- Wählen Sie das Ziel als
gcloud
Führen Sie den unten gezeigten Befehl gcloud data-catalog tag-template create aus, um eine Tag-Vorlage mit den folgenden fünf Tag-Feldern zu erstellen:
-
display_name:
Quelle der Daten-Assetid:
-Quellerequired:
-WAHRtype:
-String -
display_name:
Anzahl der Zeilen im Daten-Assetid:
num_rowsrequired:
FALSEtype:
Double -
display_name:
Hat personenidentifizierbare Informationenid:
has_piirequired:
FALSEtype:
Boolescher Wert -
display_name:
Typ der personenidentifizierbaren Informationenid:
pii_typerequired:
FALSEtype:
Aufgezähltvalues:
- EMAIL_ADDRESS
- US_SOCIAL_SECURITY_NUMBER
- –
# ------------------------------- # Create a Tag Template. # ------------------------------- gcloud data-catalog tag-templates create demo_template \ --location=us-central1 \ --display-name="Demo Tag Template" \ --field=id=source,display-name="Source of data asset",type=string,required=TRUE \ --field=id=num_rows,display-name="Number of rows in the data asset",type=double \ --field=id=has_pii,display-name="Has PII",type=bool \ --field=id=pii_type,display-name="PII type",type='enum(EMAIL_ADDRESS|US_SOCIAL_SECURITY_NUMBER|NONE)' # ------------------------------- # Lookup the Data Catalog entry for the table. # ------------------------------- ENTRY_NAME=$(gcloud data-catalog entries lookup '//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET/tables/TABLE' --format="value(name)") # ------------------------------- # Attach a Tag to the table. # ------------------------------- # Create the Tag file. cat > tag_file.json << EOF { "source": "BigQuery", "num_rows": 1000, "has_pii": true, "pii_type": "EMAIL_ADDRESS" } EOF gcloud data-catalog tags create --entry=${ENTRY_NAME} \ --tag-template=demo_template --tag-template-location=us-central1 --tag-file=tag_file.json
Go
Bevor Sie dieses Beispiel ausprobieren, folgen Sie den Schritten zur Einrichtung von Go in der Data Catalog-Kurzanleitung mit Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Data Catalog Go API.
Java
Bevor Sie dieses Beispiel anwenden, folgen Sie den Schritten zur Einrichtung von Java in der Data Catalog-Kurzanleitung mit Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Data Catalog Java API.
Node.js
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Node.js in der Data Catalog-Kurzanleitung mit Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Data Catalog Node.js API.
Python
Bevor Sie dieses Beispiel anwenden, folgen Sie den Schritten zur Einrichtung von Python in der Data Catalog-Kurzanleitung mit Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Data Catalog Python API.
REST UND BEFEHLSZEILE
REST UND BEFEHLSZEILE
Wenn Sie keinen Zugriff auf Cloud Client-Bibliotheken für Ihre Sprache haben oder das API mithilfe von REST-Anforderungen testen möchten, sehen Sie sich die folgenden Beispiele an und lesen Sie die Dokumentation zur Data Catalog REST API.
1. Tag-Vorlage erstellen.
Bevor Sie eine der Anfragedaten verwenden, nehmen Sie folgende Ersetzungen vor:
- project-id: ID Ihres GCP-Projekts
HTTP-Methode und URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/us-central1/tagTemplates?tagTemplateId=demo_tag_template
JSON-Text der Anfrage:
{ "displayName":"Demo Tag Template", "fields":{ "source":{ "displayName":"Source of data asset", "isRequired": "true", "type":{ "primitiveType":"STRING" } }, "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" }, { "displayName":"NONE" } ] } } } } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "displayName":"Demo Tag Template", "fields":{ "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"NONE" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" } ] } } }, "source":{ "displayName":"Source of data asset", "isRequired":"true", "type":{ "primitiveType":"STRING" } } } }
2. Suchen Sie die Data Catalog-entry-id
Ihrer BigQuery-Tabelle heraus.
Bevor Sie eine der Anfragedaten verwenden, nehmen Sie folgende Ersetzungen vor:
- project-id: GCP-Projekt-ID
HTTP-Methode und URL:
GET https://datacatalog.googleapis.com/v1/entries:lookup?linkedResource=//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips
JSON-Text der Anfrage:
Request body is empty.
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id", "type": "TABLE", "schema": { "columns": [ { "type": "STRING", "description": "A code indicating the TPEP provider that provided the record. 1= ", "mode": "REQUIRED", "column": "vendor_id" }, ... ] }, "sourceSystemTimestamps": { "createTime": "2019-01-25T01:45:29.959Z", "updateTime": "2019-03-19T23:20:26.540Z" }, "linkedResource": "//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips", "bigqueryTableSpec": { "tableSourceType": "BIGQUERY_TABLE" } }
3. Ein Tag aus der Vorlage erstellen und hängen an Ihre BigQuery-Tabelle anhängen
Bevor Sie eine der Anfragedaten verwenden, nehmen Sie folgende Ersetzungen vor:
- project-id: GCP-Projekt-ID
- entry-id: Data Catalog-Eintrags-ID für die Demo-Dataset-trips-Tabelle, die in den Nachschlag-Ergebnissen im vorherigen Schritt zurückgegeben wurde.
HTTP-Methode und URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/us-central1/entryGroups/@bigquery/entries/entry-id/tags
JSON-Text der Anfrage:
{ "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "source":{ "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "doubleValue":113496874 }, "has_pii":{ "boolValue":false }, "pii_type":{ "enumValue":{ "displayName":"NONE" } } } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id/tags/tag-id", "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "pii_type":{ "displayName":"PII type", "enumValue":{ "displayName":"NONE" } }, "has_pii":{ "displayName":"Has PII", "boolValue":false }, "source":{ "displayName":"Source of data asset", "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "displayName":"Number of rows in data asset", "doubleValue":113496874 } }, "templateDisplayName":"Demo Tag Template" }
Übersicht für Ihren Eintrag erstellen
In der Cloud Console können Sie Rich Data verwenden, um einen Eintrag in Ihrem Data Catalog-Projekt zu beschreiben.
Rufen Sie die Seite „Data Catalog“ auf, um eine Übersicht für die Tabelle „
trips
“ zu erstellen.Geben Sie in das Suchfeld
demo_dataset
ein.Im Suchergebnis sehen Sie das
demo_dataset
-Dataset und dietrips
-Tabelle.Klicken Sie auf die Tabelle
trips
.Die Seite BigQuery-Tabellendetails wird geöffnet.
Klicken Sie auf Übersicht und geben Sie einen Text ein. Sie haben auch die Möglichkeit, Bilder und Rich-Text-Text einzufügen.
Klicken Sie auf Speichern.
Datenverwalter für Ihren Eintrag hinzufügen
In der Cloud Console können Sie einem Eintrag in Ihrem Data Catalog-Projekt einen oder mehrere Datenverwalter hinzufügen. Ein Datenverwalter für einen Dateneintrag kann kontaktiert werden, um weitere Informationen über den Dateneintrag anzufordern.
Wenn Sie eine Übersicht für die Tabelle
trips
erstellen möchten, wiederholen Sie die ersten drei Schritte aus dem vorherigen Abschnitt.Klicken Sie auf das Symbol Verwalter bearbeiten und fügen Sie mindestens eine E-Mail-Adresse hinzu.
Sie können einen Nutzer mit einem E-Mail-Konto eines Drittanbieters hinzufügen.
Klicken Sie auf Speichern.
Bereinigen
So vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden.
Projekt löschen
Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.
So löschen Sie das Projekt:
- Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.
- Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
- Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.
Dataset löschen
Rufen Sie bei Bedarf die BigQuery-Seite auf.
Suchen Sie im Bereich Explorer nach dem
demo_dataset
-Dataset, das Sie erstellt haben.Klicken Sie auf die Option
Aktionen und dann auf Dataset löschen.Bestätigen Sie die Löschaktion.
Tag-Vorlage löschen
Rufen Sie die Seite Data Catalog > Vorlagen auf.
Wählen Sie Demo-Tag-Vorlage aus.
Klicken Sie in der Zeile auf die Option
Aktionen und dann auf Diese Vorlage löschen.Bestätigen Sie die Löschaktion.
Weitere Informationen
Informationen zu Data Catalog finden Sie unter Data Catalog-Übersicht.
Weitere Informationen zu technischen Metadaten und Geschäftsmetadaten
Weitere Informationen zu Tag-Vorlagen, öffentlichen Tags und privaten Tags
Übersicht über APIs und Clientbibliotheken durchgehen.