Öffentliche BigQuery-Datasets

Der Katalog des Programms für öffentliche Datasets in Google Cloud befindet sich im GCP Marketplace. Weitere Informationen zu jedem einzelnen Dataset finden Sie auf den Marketplace-Seiten unter dem Abschnitt Datasets.

Zu den Datasets im GCP Marketplace

Ein öffentliches Dataset ist ein Dataset, das in BigQuery gespeichert ist und der Allgemeinheit über das Programm für öffentliche Datasets in Google Cloud zugänglich gemacht wird. Die öffentlichen Datasets werden für Sie von BigQuery gehostet, damit Sie auf sie zugreifen und sie in Ihre Anwendungen einbetten können. Google bezahlt die Speicherung dieser Datasets und bietet einen öffentlichen Zugriff auf die Daten über ein Projekt. Sie bezahlen nur für die Abfrage der Daten. Das erste TB pro Monat ist kostenlos. Weitere Informationen erhalten Sie unter Details der Abfragepreise.

Vorbereitung

Sie können öffentliche Datasets entweder mit Legacy-SQL- oder Standard-SQL-Abfragen analysieren. Der Zugriff auf öffentliche BigQuery-Datasets erfolgt entweder über die BigQuery-Web-UI in der Cloud Console, die klassische BigQuery-Web-UI oder das Befehlszeilentool. Alternativ haben Sie auch die Möglichkeit, die BigQuery REST API mithilfe verschiedener Clientbibliotheken wie Java, .NET oder Python aufzurufen.

Für den Einstieg in die Verwendung eines öffentlichen BigQuery-Datasets müssen Sie zuerst ein Projekt erstellen oder auswählen. Das erste pro Monat verarbeitete Terabyte Daten ist kostenlos, sodass Sie mit dem Abfragen von öffentlichen Datasets beginnen können, ohne die Abrechnung zu aktivieren. Wenn Sie jedoch beabsichtigen, das kostenlose Kontingent zu überschreiten, müssen Sie die Abrechnung aktivieren.

  1. Melden Sie sich bei Ihrem Google-Konto an.

    Wenn Sie noch kein Konto haben, registrieren Sie sich hier für ein neues Konto.

  2. Wählen Sie in der Cloud Console auf der Projektauswahlseite ein Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  4. BigQuery ist in neuen Projekten automatisch aktiviert. So aktivieren Sie BigQuery in einem vorhandenen Projekt: Aktivieren Sie die BigQuery API.

    Aktivieren Sie die API

Öffentliche Dataset-Standorte

Derzeit werden BigQuery-Beispieltabellen am multiregionalen Standort US gespeichert. Wenn Sie eine Beispieltabelle abfragen, geben Sie in der Befehlszeile das Flag --location=US an, wählen Sie in der Cloud Console oder der klassischen BigQuery-Web-UI US als Verarbeitungsstandort aus oder geben Sie bei Verwendung der API das Attribut location im Abschnitt jobReference der Jobressource an. Da die Beispieltabellen in den USA gespeichert werden, können Sie Abfrageergebnisse für Beispieltabellen nicht in eine Tabelle in einer anderen Region schreiben und Beispieltabellen nicht mit Tabellen in einer anderen Region zusammenführen.

Auf öffentliche Datasets in der BigQuery-Web-UI zugreifen

Es gibt zwei Benutzeroberflächen, die für den Zugriff auf die öffentlichen Datasets verwendet werden können:

Das Projekt bigquery-public-data wird automatisch an jedes Projekt in beiden Benutzeroberflächen angepinnt. Sie finden das Projekt im Navigationsbereich.

So können Sie das Projekt bigquery-public-data manuell öffnen:

  • Geben Sie die folgende URL im Browser ein, um die öffentlichen Datasets in der klassischen BigQuery-Web-UI zu öffnen: https://bigquery.cloud.google.com/.
  • Geben Sie die folgende URL ein, um die öffentlichen Datasets in der BigQuery-Web-UI in der Cloud Console zu öffnen: https://console.cloud.google.com/bigquery?project=bigquery-public-data&page=project.

Informationen zum Wechsel von der Cloud Console zur klassischen Web-UI erhalten Sie unter Zur klassischen Web-UI wechseln.

Weitere öffentliche Datasets

Es sind viele andere öffentliche Datasets vorhanden, die Sie abfragen können. Einige dieser Datasets werden auch von Google gehostet, viele andere jedoch von Drittanbietern. Zu den anderen Datasets gehören:

Dataset für die Öffentlichkeit freigeben

Sie können jedes Ihrer Datasets für die Öffentlichkeit freigeben. Ändern Sie dafür die Zugriffssteuerungen des Datasets, um den Zugriff durch "Alle authentifizierten Nutzer" zu erlauben. Weitere Informationen zur Einstellung der Zugriffssteuerungen von Datasets finden Sie unter Zugriff auf Datasets steuern.

Wenn Sie ein Dataset für die Öffentlichkeit freigeben, passiert Folgendes:

  • Speichergebühren werden über das Rechnungskonto abgerechnet, das an das Projekt angehängt wurde, welches das öffentlich freigegebene Dataset enthält.
  • Abfragegebühren werden über das Rechnungskonto abgerechnet, das an das Projekt angehängt wurde, in dem die Abfragejobs ausgeführt werden.

Weitere Informationen finden Sie unter Abrechnung der Kosten.

Beispieltabellen

Zusätzlich zu den öffentlichen Datasets stellt BigQuery eine begrenzte Anzahl von Beispieltabellen bereit, die Sie abfragen können. Diese Tabellen sind im Dataset bigquery-public-data:samples enthalten.

Die Anforderungen für die Abfrage der BigQuery-Beispieltabellen sind mit denen für die Abfrage der öffentlichen Datasets identisch.

Das Dataset bigquery-public-data:samples enthält die folgenden Tabellen:

Name Beschreibung
gsod Enthält von der NOAA gesammelte Wetterdaten, wie z. B. Niederschlagsmengen und Windgeschwindigkeiten von Ende 1929 bis Anfang 2010.
github_nested Enthält eine Zeitachse mit Aktionen, wie z. B. Pull-Anfragen und Kommentare, zu GitHub-Repositories mit einem verschachtelten Schema. Erstellt im September 2012.
github_timeline Enthält eine Zeitachse mit Aktionen, wie z. B. Pull-Anforderungen und Kommentare, zu GitHub-Repositories mit einem flachen Schema. Erstellt im Mai 2012.
natality Beschreibt alle Geburten in den USA, die in den 50 Bundesstaaten, im District of Columbia und in New York City zwischen 1969 und 2008 registriert wurden.
shakespeare Enthält einen Wortindex der Werke von Shakespeare und gibt an, wie häufig jedes Wort in jedem Werk vorkommt.
trigrams Enthält englischsprachige Trigramme aus einer Stichprobe von Werken, die zwischen 1520 und 2008 veröffentlicht wurden.
wikipedia Enthält den vollständigen Überarbeitungsverlauf aller Wikipedia-Artikel bis April 2010.

Kontakt

Bei Fragen zum BigQuery-Programm für öffentliche Datasets kontaktieren Sie uns unter bq-public-data@google.com.