BigQuery-Tabelle mithilfe von Data Catalog taggen
In dieser Kurzanleitung können Sie die folgenden Aufgaben ausführen:
ein BigQuery-Dataset und eine Tabelle erstellen
Erstellen Sie eine Tag-Vorlage mit einem Schema, das fünf Tag-Felder unterschiedlicher Typen definiert. Dies sind
string
,double
,boolean
,enumerated
undrichtext
.Sie suchen den Data Catalog-eintrag für Ihre Tabelle.
Erstellen Sie in der Google Cloud Console geschäftliche Metadaten für Ihren Eintrag, die eine Übersicht, Data Steward und ein Tag enthalten.
Mit Data Catalog können Sie Einträge wie BigQuery-Tabellen mit Metadaten suchen und taggen. Beispiele für Metadaten, die Sie zum Tagging verwenden können, sind öffentliche und private Tags, Data Stewards und eine Rich-Text-Übersicht.
Hinweise
- Ihr Projekt einrichten
- Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Data Catalog and BigQuery APIs aktivieren.
- Installieren Sie die Google Cloud CLI.
-
Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Data Catalog and BigQuery APIs aktivieren.
- Installieren Sie die Google Cloud CLI.
-
Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:
gcloud init
Öffentlichen Dateneintrag zu Projekt hinzufügen
Data Catalog-Einträge enthalten Datenressourcen wie ein BigQuery-Dataset oder ein Pub/Sub-Thema.
Fügen Sie Ihrem Projekt ein öffentliches Dataset hinzu.
Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.
Klicken Sie im Bereich Explorer auf + DATEN HINZUFÜGEN und wählen Sie in der Liste Öffentliche Datasets aus.
Suchen Sie im Bereich Marktplatz nach
New York taxi trips
und klicken Sie auf das entsprechende Suchergebnis.Klicken Sie auf Dataset aufrufen.
Dataset und Tabelle erstellen
Erstellen Sie ein Dataset.
Öffnen Sie in der Google Cloud Console die Seite „BigQuery“.
Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.
Klicken Sie auf das Symbol
Aktionen und dann auf Dataset erstellen.Machen Sie auf der Seite Dataset erstellen folgende Angaben:
- Geben Sie unter Dataset-ID
demo_dataset
ein. - Wählen Sie für Speicherort der Daten die Option
us (multiple regions in United States)
aus. - Aktivieren Sie den Tabellenablauf und geben Sie die Anzahl der Tage an.
- Lassen Sie unter Verschlüsselung die Option Von Google verwalteter Verschlüsselungsschlüssel ausgewählt.
Klicken Sie auf Dataset erstellen.
- Geben Sie unter Dataset-ID
Kopieren Sie eine öffentlich zugängliche Tabelle in
demo_dataset
.Öffnen Sie in der Google Cloud Console die Seite „BigQuery“.
Suchen Sie im Bereich Explorer nach
tlc_yellow_trips
-Tabellen (klicken Sie bei Bedarf auf Suche auf alle Projekte ausweiten) und wählen Sie eine davon aus, z. B.tlc_yellow_trips_2017
. Klicken Sie dann auf Kopieren.Geben Sie im Bereich Tabelle kopieren die folgenden Informationen ein:
- Wählen Sie in der Drop-down-Liste Projektname Ihr Projekt aus.
- Wählen Sie in der Drop-down-Liste Dataset-Name die Option
demo_dataset
aus. - Geben Sie als Tabellenname
trips
ein und klicken Sie dann auf Kopieren.
Prüfen Sie im Bereich Explorer, ob die Tabelle
trips
indemo_dataset
aufgeführt ist.
Sie fügen der Tabelle im nächsten Abschnitt Data Catalog-Tags hinzu.
Erstellen Sie eine öffentliche Tag-Vorlage und hängen Sie ein Tag für Ihren Eintrag an
Nur Inhaber des Datasets können ein Tag an eine Tabelle im Dataset anhängen. Weitere Informationen zu öffentlichen und privaten Tags finden Sie unter Öffentliche und private Tags.
In einer Tag-Vorlage sind Tag-Felder optional. Sie müssen keinen Wert für ein Feld angeben, wenn Sie ein Tag an einen Data Catalog-Eintrag anhängen. Wenn ein Feld in einer Vorlage jedoch als erforderlich definiert wird, müssen Sie einen Wert für das Feld angeben. Wenn der Wert nicht angegeben wird, wird ein Fehler generiert.
Sie können Kleinbuchstaben und Unterstriche verwenden, um Feldnamen zu definieren. Die in diesem Beispiel erstellten Tag-Vorlagenfelder sind nur Demofelder und werden nicht automatisch aktualisiert oder mit BigQuery synchronisiert.
Console
Rufen Sie die Seite Dataplex > Tag-Vorlagen auf.
Klicken Sie auf Tag-Vorlage erstellen und geben Sie folgende Informationen ein:
- Geben Sie den Namen der Vorlage als
Demo Tag Template
ein. - Behalten Sie den Standardspeicherort bei.
- Behalten Sie die Sichtbarkeit der Tag-Vorlage auf Öffentlich bei.
Klicken Sie auf Feld hinzufügen, um fünf Felder hinzuzufügen. Verwenden Sie die folgende Tabelle und lassen Sie Feldbeschreibung leer.
Anzeigename des Feldes Feld-ID Pflichtfeld Typ Quelle des Daten-Assets source Yes String Zeilen im Asset num_rows Nein Double Enthält personenidentifizierbare Informationen has_pii Nein Boolesch PII-Typ pii_type Nein Aufgezählt Fügen Sie die Werte
EMAIL_ADDRESS
,US_SOCIAL_SECURITY_NUMBER
undNONE
hinzu.Kontext context Nein RTF
- Geben Sie den Namen der Vorlage als
Klicken Sie auf Erstellen.
Auf der Seite Vorlagendetails finden Sie alle Informationen zur Tag-Vorlage.
Rufen Sie die Dataplex-Suchseite auf, um ein Tag an
demo_dataset
anzuhängen.Geben Sie
demo_dataset
in das Suchfeld ein. Im Suchergebnis werden das Datasetdemo_dataset
und die Tabelletrips
angezeigt.Klicken Sie auf die Tabelle
trips
. Die Seite BigQuery-Tabellendetails wird geöffnet.Klicken Sie auf Tags anhängen.
Geben Sie im Bereich Tags anhängen die folgenden Informationen ein:
- Wählen Sie als Ziel
trips
aus. - Wählen Sie die Tag-Vorlage als
Demo Tag Template
aus. - Geben Sie für Tag-Werte die folgenden Informationen ein:
- Quelle des Datenassets:
Copied from tlc_yellow_trips_2017
- Anzahl der Zeilen im Daten-Asset:
113496874
- PII vorhanden:
FALSE
- PII-Typ:
NONE
- Quelle des Datenassets:
Klicken Sie auf Speichern.
Die Tag-Felder werden jetzt im Bereich Tags der BigQuery-Tabellendetails aufgelistet.
- Wählen Sie als Ziel
gcloud
Führen Sie den unten gezeigten Befehl gcloud data-catalog tag-templates create aus, um eine Tag-Vorlage mit den folgenden fünf Tag-Feldern zu erstellen:
-
display_name:
Quelle des Daten-Assetsid:
Quellerequired:
TRUEtype:
String -
display_name:
Anzahl der Zeilen im Daten-Assetid:
num_rowsrequired:
FALSEtype:
Double -
display_name:
Enthält personenidentifizierbare Informationenid:
has_piirequired:
FALSEtype:
Boolesch -
display_name:
Art der personenidentifizierbaren Informationenid:
pii_typerequired:
FALSEtype:
Aufzählungvalues:
- EMAIL_ADDRESS
- US_SOCIAL_SECURITY_NUMBER
- KEINE
# ------------------------------- # Create a Tag Template. # ------------------------------- gcloud data-catalog tag-templates create demo_template \ --location=us-central1 \ --display-name="Demo Tag Template" \ --field=id=source,display-name="Source of data asset",type=string,required=TRUE \ --field=id=num_rows,display-name="Number of rows in the data asset",type=double \ --field=id=has_pii,display-name="Has PII",type=bool \ --field=id=pii_type,display-name="PII type",type='enum(EMAIL_ADDRESS|US_SOCIAL_SECURITY_NUMBER|NONE)' # ------------------------------- # Lookup the Data Catalog entry for the table. # ------------------------------- ENTRY_NAME=$(gcloud data-catalog entries lookup '//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET/tables/TABLE' --format="value(name)") # ------------------------------- # Attach a Tag to the table. # ------------------------------- # Create the Tag file. cat > tag_file.json << EOF { "source": "BigQuery", "num_rows": 1000, "has_pii": true, "pii_type": "EMAIL_ADDRESS" } EOF gcloud data-catalog tags create --entry=${ENTRY_NAME} \ --tag-template=demo_template --tag-template-location=us-central1 --tag-file=tag_file.json
Einfach loslegen (Go)
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Go in der Data Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Data Catalog Go API.
Richten Sie Standardanmeldedaten für Anwendungen ein, um sich bei Data Catalog zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Java in der Data Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Data Catalog Java API.
Richten Sie Standardanmeldedaten für Anwendungen ein, um sich bei Data Catalog zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Node.js in der Data Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Data Catalog Node.js API.
Richten Sie Standardanmeldedaten für Anwendungen ein, um sich bei Data Catalog zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Einrichtungsanleitung für Python in der Data Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Data Catalog Python API.
Richten Sie Standardanmeldedaten für Anwendungen ein, um sich bei Data Catalog zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
REST UND BEFEHLSZEILE
REST
Wenn Sie keinen Zugriff auf Cloud Client-Bibliotheken für Ihre Sprache haben oder das API mithilfe von REST-Anforderungen testen möchten, sehen Sie sich die folgenden Beispiele an und lesen Sie die Dokumentation zur Data Catalog REST API.
1. Tag-Vorlage erstellen.
Bevor Sie die Anfragedaten verwenden, ersetzen Sie die folgenden Werte:
- project-id: Ihre Google Cloud-Projekt-ID
HTTP-Methode und URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/tagTemplates?tagTemplateId=demo_tag_template
JSON-Text der Anfrage:
{ "displayName":"Demo Tag Template", "fields":{ "source":{ "displayName":"Source of data asset", "isRequired": "true", "type":{ "primitiveType":"STRING" } }, "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" }, { "displayName":"NONE" } ] } } } } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "displayName":"Demo Tag Template", "fields":{ "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"NONE" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" } ] } } }, "source":{ "displayName":"Source of data asset", "isRequired":"true", "type":{ "primitiveType":"STRING" } } } }
2. Suchen Sie die Data Catalog-entry-id
Ihrer BigQuery-Tabelle heraus.
Bevor Sie die Anfragedaten verwenden, ersetzen Sie die folgenden Werte:
- project-id: ID des Google Cloud-Projekts.
HTTP-Methode und URL:
GET https://datacatalog.googleapis.com/v1/entries:lookup?linkedResource=//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips
JSON-Text der Anfrage:
Request body is empty.
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id", "type": "TABLE", "schema": { "columns": [ { "type": "STRING", "description": "A code indicating the TPEP provider that provided the record. 1= ", "mode": "REQUIRED", "column": "vendor_id" }, ... ] }, "sourceSystemTimestamps": { "createTime": "2019-01-25T01:45:29.959Z", "updateTime": "2019-03-19T23:20:26.540Z" }, "linkedResource": "//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips", "bigqueryTableSpec": { "tableSourceType": "BIGQUERY_TABLE" } }
3. Ein Tag aus der Vorlage erstellen und hängen an Ihre BigQuery-Tabelle anhängen
Bevor Sie die Anfragedaten verwenden, ersetzen Sie die folgenden Werte:
- project-id: ID des Google Cloud-Projekts.
- entry-id: Data Catalog-Eintrags-ID für die Demo-Dataset-trips-Tabelle, die in den Nachschlag-Ergebnissen im vorherigen Schritt zurückgegeben wurde.
HTTP-Methode und URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/entryGroups/@bigquery/entries/entry-id/tags
JSON-Text der Anfrage:
{ "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "source":{ "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "doubleValue":113496874 }, "has_pii":{ "boolValue":false }, "pii_type":{ "enumValue":{ "displayName":"NONE" } } } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id/tags/tag-id", "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "pii_type":{ "displayName":"PII type", "enumValue":{ "displayName":"NONE" } }, "has_pii":{ "displayName":"Has PII", "boolValue":false }, "source":{ "displayName":"Source of data asset", "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "displayName":"Number of rows in data asset", "doubleValue":113496874 } }, "templateDisplayName":"Demo Tag Template" }
Übersicht über einen Eintrag erstellen
In der Google Cloud Console können Sie RTF verwenden, um einen Eintrag in Ihrem Data Catalog-Projekt zu beschreiben.
Rufen Sie die Dataplex-Suchseite auf, um eine Übersicht für die Tabelle
trips
zu erstellen.Geben Sie
demo_dataset
in das Suchfeld ein.Im Suchergebnis werden das Dataset
demo_dataset
und die Tabelletrips
angezeigt.Klicken Sie auf die Tabelle
trips
.Die Seite BigQuery-Tabellendetails wird geöffnet.
Klicken Sie auf Übersicht hinzufügen und geben Sie Text ein. Zusätzlich können Sie Bilder und Rich-Text-Text einfügen.
Klicken Sie auf Speichern.
Datenverwalter für einen Eintrag hinzufügen
In der Google Cloud Console können Sie einem Eintrag in Ihrem Data Catalog-Projekt einen oder mehrere Data Stewards hinzufügen. Sie können sich an einen Data Steward für einen Dateneintrag wenden, um weitere Informationen dazu anzufordern.
Wiederholen Sie die ersten drei Schritte aus dem vorherigen Abschnitt, um eine Übersicht für die Tabelle
trips
zu erstellen.Klicken Sie auf das Symbol Steward bearbeiten und fügen Sie eine oder mehrere E-Mail-Adressen hinzu.
Sie können Nutzer mit einem E-Mail-Konto hinzufügen, das nicht zu Google gehört.
Klicken Sie auf Speichern.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden.
Projekt löschen
Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.
So löschen Sie das Projekt:
- Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.
- Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
- Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.
Dataset löschen
Rufen Sie gegebenenfalls die Seite „BigQuery“ auf.
Suchen Sie im Bereich Explorer nach dem von Ihnen erstellten Dataset
demo_dataset
.Klicken Sie auf die Option
Aktionen und dann auf Dataset löschen.Bestätigen Sie den Löschvorgang.
Tag-Vorlage löschen
Rufen Sie die Seite Data Catalog > Vorlagen auf.
Wählen Sie Demo-Tag-Vorlage aus.
Klicken Sie in der Zeile auf die Option
Aktionen und dann auf Diese Vorlage löschen.Bestätigen Sie den Löschvorgang.
Nächste Schritte
Weitere Informationen zu Data Catalog finden Sie in der Data Catalog-Übersicht.
Weitere Informationen zu technischen Metadaten und geschäftlichen Metadaten
Weitere Informationen zu Tag-Vorlagen, öffentlichen Tags und privaten Tags finden Sie unter Tags und Tag-Vorlagen.
Übersicht über APIs und Clientbibliotheken durchgehen.