Öffentliche BigQuery-Datasets

Ein öffentliches Dataset ist ein Dataset, das in BigQuery gespeichert ist und der Allgemeinheit über das Programm für öffentliche Datasets in Google Cloud zugänglich gemacht wird. Die öffentlichen Datasets werden für Sie von BigQuery gehostet, damit Sie auf sie zugreifen und sie in Ihre Anwendungen einbetten können. Google bezahlt die Speicherung dieser Datasets und bietet einen öffentlichen Zugriff auf die Daten über ein Projekt. Sie bezahlen nur für die Abfragen der Daten. Das erste TB pro Monat ist kostenlos. Weitere Informationen erhalten Sie unter Details der Abfragepreise.

Sie können öffentliche Datasets entweder mit Legacy-SQL- oder GoogleSQL-Abfragen analysieren. Verwenden Sie einen vollständig qualifizierten Tabellennamen für die Abfrage öffentlicher Datasets, z. B. bigquery-public-data.bbc_news.fulltext. Wenn Ihre Organisation den Datenzugriff beschränkt, z. B. mit Sicherheitsperimetern, müssen Sie möglicherweise Ihren Administrator um die Berechtigung für den Zugriff auf öffentliche Datasets bitten.

Um auf öffentliche BigQuery-Datasets zuzugreifen, verwenden Sie die Google Cloud Console unter Verwendung des bq-Befehlszeilentools oder durch Aufrufen der BigQuery REST API mit verschiedenen Clientbibliotheken, wie z. B. Java, .NET oder Python. Sie können auch öffentliche Datasets über Analytics Hub aufrufen und abfragen, eine Datenaustauschplattform, mit der Sie Datenbibliotheken erkennen und aufrufen können.

Zum Analytics Hub

Weitere Informationen zu jedem einzelnen Dataset erhalten Sie, wenn Sie im Abschnitt "Datasets" von Cloud Marketplace auf den Namen des Datasets klicken.

Zu den Datasets in Cloud Marketplace

Vorbereitung

Für den Einstieg in die Verwendung eines öffentlichen BigQuery-Datasets müssen Sie zuerst ein Projekt erstellen oder auswählen. Das erste pro Monat verarbeitete Terabyte Daten ist kostenlos, sodass Sie mit dem Abfragen von öffentlichen Datasets beginnen können, ohne die Abrechnung zu aktivieren. Wenn Sie jedoch beabsichtigen, das kostenlose Kontingent zu überschreiten, müssen Sie die Abrechnung aktivieren.

Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

Zur Projektauswahl

Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

Zur Projektauswahl

Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

BigQuery ist in neuen Projekten automatisch aktiviert. So aktivieren Sie BigQuery in einem vorhandenen Projekt:
BigQuery API aktivieren.
Aktivieren Sie die API

Öffentliche Dataset-Standorte

Jedes öffentliche Dataset wird an einem bestimmten Standort wie US oder EU gespeichert. Derzeit werden BigQuery-Beispieltabellen am multiregionalen Standort US gespeichert. Wenn Sie eine Beispieltabelle abfragen, geben Sie das Flag --location=US in der Befehlszeile an, wählen US als Verarbeitungsstandort in der Google Cloud Console aus oder geben bei Verwendung der API das Attribut location im jobReference-Abschnitt der Jobressource an. Da die Beispieltabellen in den USA gespeichert werden, können Sie Abfrageergebnisse für Beispieltabellen nicht in eine Tabelle in einer anderen Region schreiben und Beispieltabellen nicht mit Tabellen in einer anderen Region zusammenführen.

In der Google Cloud Console auf öffentliche Datasets zugreifen

Sie haben folgende Möglichkeiten, auf öffentliche Datasets in der Google Cloud Console zuzugreifen:

Rufen Sie im Bereich Explorer das Projekt bigquery-public-data auf. Weitere Informationen finden Sie unter Öffentliches Dataset öffnen.
Verwenden Sie Analytics Hub, um öffentliche Datasets aufzurufen und zu abonnieren.

Wenn Sie wissen möchten, wann eine Datentabelle zuletzt aktualisiert wurde, wechseln Sie zum Abschnitt Details der Tabelle, wie unter Tabelleninformationen abrufen beschrieben, und sehen Sie sich das Feld Zuletzt geändert an.

Weitere öffentliche Datasets

Es sind viele andere öffentliche Datasets vorhanden, die Sie abfragen können. Einige dieser Datasets werden auch von Google gehostet, viele andere jedoch von Drittanbietern. Zu den anderen Datasets gehören:

Dataset für die Öffentlichkeit freigeben

Sie können jedes Ihrer Datasets für die Öffentlichkeit freigeben. Ändern Sie dafür die Zugriffssteuerungen des Datasets, um den Zugriff durch "Alle authentifizierten Nutzer" zu erlauben. Weitere Informationen zur Einstellung der Zugriffssteuerungen von Datasets finden Sie unter Zugriff auf Datasets steuern.

Wenn Sie ein Dataset für die Öffentlichkeit freigeben, passiert Folgendes:

Speichergebühren werden über das Rechnungskonto abgerechnet, das an das Projekt angehängt wurde, welches das öffentlich freigegebene Dataset enthält.
Abfragegebühren werden über das Rechnungskonto abgerechnet, das an das Projekt angehängt wurde, in dem die Abfragejobs ausgeführt werden.

Weitere Informationen finden Sie unter BigQuery-Preisübersicht.

Beispieltabellen

Zusätzlich zu den öffentlichen Datasets stellt BigQuery eine begrenzte Anzahl von Beispieltabellen bereit, die Sie abfragen können. Diese Tabellen sind im Dataset bigquery-public-data:samples enthalten.

Die Anforderungen für die Abfrage der BigQuery-Beispieltabellen sind mit denen für die Abfrage der öffentlichen Datasets identisch.

Das Dataset bigquery-public-data:samples enthält die folgenden Tabellen:

Name	Beschreibung
`gsod`	Enthält von der NOAA gesammelte Wetterdaten, wie z. B. Niederschlagsmengen und Windgeschwindigkeiten von Ende 1929 bis Anfang 2010.
`github_nested`	Enthält eine Zeitachse mit Aktionen, wie z. B. Pull-Anfragen und Kommentare, zu GitHub-Repositories mit einem verschachtelten Schema. Erstellt im September 2012.
`github_timeline`	Enthält eine Zeitachse mit Aktionen, wie z. B. Pull-Anforderungen und Kommentare, zu GitHub-Repositories mit einem flachen Schema. Erstellt im Mai 2012.
`natality`	Beschreibt alle Geburten in den USA, die in den 50 Bundesstaaten, im District of Columbia und in New York City zwischen 1969 und 2008 registriert wurden.
`shakespeare`	Enthält einen Wortindex der Werke von Shakespeare und gibt an, wie häufig jedes Wort in jedem Werk vorkommt.
`trigrams`	Enthält englischsprachige Trigramme aus einer Stichprobe von Werken, die zwischen 1520 und 2008 veröffentlicht wurden.
`wikipedia`	Enthält den vollständigen Überarbeitungsverlauf aller Wikipedia-Artikel bis April 2010.

Kontakt

Bei Fragen zum BigQuery-Programm für öffentliche Datasets kontaktieren Sie uns unter bq-public-data@google.com.

Nächste Schritte

Unter Kurzanleitung zur Verwendung der Google Cloud Console wird beschrieben, wie Sie eine Tabelle in einem öffentlichen Dataset abfragen.