Öffentliche BigQuery-Datasets

Ein öffentliches Dataset ist ein Dataset, das in BigQuery gespeichert ist und der Allgemeinheit über das Programm für öffentliche Datasets in Google Cloud zugänglich gemacht wird. Die öffentlichen Datasets werden für Sie von BigQuery gehostet, damit Sie auf sie zugreifen und sie in Ihre Anwendungen einbetten können. Google bezahlt die Speicherung dieser Datasets und bietet einen öffentlichen Zugriff auf die Daten über ein Projekt. Sie bezahlen nur für die Abfragen der Daten. Das erste TB pro Monat ist kostenlos. Weitere Informationen erhalten Sie unter Details der Abfragepreise.

Sie können öffentliche Datasets entweder mit Legacy-SQL- oder GoogleSQL-Abfragen analysieren. Verwenden Sie einen vollständig qualifizierten Tabellennamen für die Abfrage öffentlicher Datasets, z. B. bigquery-public-data.bbc_news.fulltext. Wenn Ihre Organisation den Datenzugriff einschränkt, z. B. mit Sicherheitsperimetern, müssen Sie sich möglicherweise an Ihren Administrator wenden, um die Berechtigung für den Zugriff auf öffentliche Datasets zu erhalten.

Um auf öffentliche BigQuery-Datasets zuzugreifen, verwenden Sie die Google Cloud Console unter Verwendung des bq-Befehlszeilentools oder durch Aufrufen der BigQuery REST API mit verschiedenen Clientbibliotheken, wie z. B. Java, .NET oder Python. Sie können auch öffentliche Datasets über Analytics Hub aufrufen und abfragen, eine Datenaustauschplattform, mit der Sie Datenbibliotheken erkennen und aufrufen können.

Auf öffentliche Datasets kann standardmäßig nicht innerhalb eines VPC Service Controls-Perimeters zugegriffen werden. Für das Public Dataset Program gibt es kein Service Level Agreement (SLA).

Zum Analytics Hub

Weitere Informationen zu jedem einzelnen Dataset erhalten Sie, wenn Sie im Abschnitt "Datasets" von Cloud Marketplace auf den Namen des Datasets klicken.

Zu den Datasets in Cloud Marketplace

Vorbereitung

Für den Einstieg in die Verwendung eines öffentlichen BigQuery-Datasets müssen Sie zuerst ein Projekt erstellen oder auswählen. Das erste pro Monat verarbeitete Terabyte Daten ist kostenlos, sodass Sie mit dem Abfragen von öffentlichen Datasets beginnen können, ohne die Abrechnung zu aktivieren. Wenn Sie jedoch beabsichtigen, das kostenlose Kontingent zu überschreiten, müssen Sie die Abrechnung aktivieren.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. BigQuery ist in neuen Projekten automatisch aktiviert. So aktivieren Sie BigQuery in einem vorhandenen Projekt:

    Enable the BigQuery API.

    Enable the API

Öffentliche Dataset-Standorte

Jedes öffentliche Dataset wird an einem bestimmten Standort wie US oder EU gespeichert. Derzeit werden BigQuery-Beispieltabellen am multiregionalen Standort US gespeichert. Wenn Sie eine Beispieltabelle abfragen, geben Sie das Flag --location=US in der Befehlszeile an, wählen US als Verarbeitungsstandort in der Google Cloud Console aus oder geben bei Verwendung der API das Attribut location im jobReference-Abschnitt der Jobressource an. Da die Beispieltabellen in den USA gespeichert werden, können Sie Abfrageergebnisse für Beispieltabellen nicht in eine Tabelle in einer anderen Region schreiben und Beispieltabellen nicht mit Tabellen in einer anderen Region zusammenführen.

Auf öffentliche Datasets in der Google Cloud Console zugreifen

Sie haben folgende Möglichkeiten, auf öffentliche Datasets in der Google Cloud Console zuzugreifen:

Wenn Sie wissen möchten, wann eine Datentabelle zuletzt aktualisiert wurde, wechseln Sie zum Abschnitt Details der Tabelle, wie unter Tabelleninformationen abrufen beschrieben, und sehen Sie sich das Feld Zuletzt geändert an. Weitere Informationen zum Auswählen und Entfernen von Projekten finden Sie unter Mit Projekten arbeiten.

Weitere öffentliche Datasets

Es sind viele andere öffentliche Datasets vorhanden, die Sie abfragen können. Einige dieser Datasets werden auch von Google gehostet, viele andere jedoch von Drittanbietern. Zu den anderen Datasets gehören:

Dataset für die Öffentlichkeit freigeben

Sie können jedes Ihrer Datasets für die Öffentlichkeit freigeben. Ändern Sie dafür die Zugriffssteuerungen des Datasets, um den Zugriff durch "Alle authentifizierten Nutzer" zu erlauben. Weitere Informationen zur Einstellung der Zugriffssteuerungen von Datasets finden Sie unter Zugriff auf Datasets steuern.

Wenn Sie ein Dataset für die Öffentlichkeit freigeben, passiert Folgendes:

  • Speichergebühren werden über das Rechnungskonto abgerechnet, das an das Projekt angehängt wurde, welches das öffentlich freigegebene Dataset enthält.
  • Abfragegebühren werden über das Rechnungskonto abgerechnet, das an das Projekt angehängt wurde, in dem die Abfragejobs ausgeführt werden.

Weitere Informationen finden Sie unter BigQuery-Preisübersicht.

Beispieltabellen

Zusätzlich zu den öffentlichen Datasets stellt BigQuery eine begrenzte Anzahl von Beispieltabellen bereit, die Sie abfragen können. Diese Tabellen sind im Dataset bigquery-public-data:samples enthalten.

Die Anforderungen für die Abfrage der BigQuery-Beispieltabellen sind mit denen für die Abfrage der öffentlichen Datasets identisch.

Das Dataset bigquery-public-data:samples enthält die folgenden Tabellen:

Name Beschreibung
gsod Enthält von der NOAA gesammelte Wetterdaten, wie z. B. Niederschlagsmengen und Windgeschwindigkeiten von Ende 1929 bis Anfang 2010.
github_nested Enthält eine Zeitachse mit Aktionen, wie z. B. Pull-Anfragen und Kommentare, zu GitHub-Repositories mit einem verschachtelten Schema. Erstellt im September 2012.
github_timeline Enthält eine Zeitachse mit Aktionen, wie z. B. Pull-Anforderungen und Kommentare, zu GitHub-Repositories mit einem flachen Schema. Erstellt im Mai 2012.
natality Beschreibt alle Geburten in den USA, die in den 50 Bundesstaaten, im District of Columbia und in New York City zwischen 1969 und 2008 registriert wurden.
shakespeare Enthält einen Wortindex der Werke von Shakespeare und gibt an, wie häufig jedes Wort in jedem Werk vorkommt.
trigrams Enthält englischsprachige Trigramme aus einer Stichprobe von Werken, die zwischen 1520 und 2008 veröffentlicht wurden.
wikipedia Enthält den vollständigen Überarbeitungsverlauf aller Wikipedia-Artikel bis April 2010.

Kontakt

Bei Fragen zum BigQuery-Programm für öffentliche Datasets kontaktieren Sie uns unter bq-public-data@google.com.

Nächste Schritte

Unter Kurzanleitung zur Verwendung der Google Cloud Console wird beschrieben, wie Sie eine Tabelle in einem öffentlichen Dataset abfragen.