Diese Seite wurde von der Cloud Translation API übersetzt.

Automatische Schemaerkennung verwenden

Automatische Schemaerkennung

Mit der automatischen Schemaerkennung kann BigQuery das Schema für CSV-, JSON- oder Google Sheets-Daten ableiten. Die automatische Schemaerkennung ist für das Laden von Daten in BigQuery und für das Abfragen einer externen Datenquelle verfügbar.

Wenn die automatische Erkennung aktiviert ist, leitet BigQuery den Datentyp für jede Spalte ab. BigQuery wählt eine zufällige Datei in der Datenquelle aus und scannt bis zu den ersten 500 Datenzeilen, die als repräsentative Stichprobe verwendet werden. BigQuery überprüft dann jedes Feld und versucht basierend auf den Werten in dieser Stichprobe, diesem Feld einen Datentyp zuzuweisen. Wenn alle Zeilen in einer Spalte leer sind, wird bei der automatischen Erkennung standardmäßig der Datentyp STRING für die Spalte verwendet.

Wenn Sie die automatische Schemaerkennung für CSV-, JSON- oder Google Sheets-Daten nicht aktivieren, müssen Sie das Schema beim Erstellen der Tabelle manuell angeben.

Sie müssen die automatische Schemaerkennung für Avro-, Parquet-, ORC-, Firestore- oder Datastore-Exportdateien nicht aktivieren. Diese Dateiformate sind selbstbeschreibend, sodass BigQuery das Tabellenschema automatisch aus den Quelldaten ableitet. Für Parquet-, Avro- und Orc-Dateien können Sie optional ein explizites Schema angeben, um das abgeleitete Schema zu überschreiben.

Sie können das erkannte Schema für eine Tabelle auf folgenden Wegen aufrufen:

Google Cloud Console verwenden.
Verwenden Sie den Befehl bq show des -Befehlszeilentools.

Wenn BigQuery Schemas ermittelt, könnte es – in seltenen Fällen – einen Feldnamen ändern, um ihn mit der GoogleSQL-Syntax kompatibel zu machen.

Informationen zu Datentypkonvertierungen finden Sie auf den folgenden Seiten:

Datentypkonvertierung beim Laden von Daten aus Cloud Datastore
Datentypkonvertierung beim Laden von Daten aus Firestore
Avro-Konvertierungen
Parquet-Konvertierungen
ORC-Konvertierungen

Daten mithilfe der automatischen Schemaerkennung laden

Wählen Sie eine der folgenden Möglichkeiten, um beim Laden von Daten die automatische Schemaerkennung zu aktivieren:

Klicken Sie in der Google Cloud Console im Abschnitt Schema für Automatisch erkennen auf das Kästchen Schema und Eingabeparameter.
Verwenden Sie im bq-Befehlszeilentool den Befehl bq load mit dem Parameter --autodetect .

Wenn die automatische Schemaerkennung aktiviert ist, versucht BigQuery, das Schema für CSV- und JSON-Dateien automatisch abzuleiten. Die Logik zur automatischen Erkennung leitet die Schemafeldtypen ab, indem bis zu den ersten 500 Datenzeilen gelesen werden. Führende Zeilen werden übersprungen, wenn das Flag --skip_leading_rows angegeben ist. Die Feldtypen basieren auf den Zeilen mit den meisten Feldern. Daher sollte die automatische Erkennung wie erwartet funktionieren, solange mindestens eine Datenzeile mit Werten in jeder Spalte/jedem Feld vorhanden ist.

Die automatische Schemaerkennung wird nicht für Avro-, Parquet-, ORC-Dateien, Firestore-Exportdateien oder Datastore-Exportdateien verwendet. Wenn Sie diese Dateien in BigQuery laden, wird das Tabellenschema automatisch aus den selbstbeschreibenden Quelldaten abgerufen.

So verwenden Sie die automatische Schemaerkennung beim Laden von JSON- oder CSV-Daten:

Console

Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

BigQuery aufrufen
Maximieren Sie im Bereich Explorer Ihr Projekt und wählen Sie ein Dataset aus.
Maximieren Sie die Option Aktionen und klicken Sie auf Öffnen.
Klicken Sie im Detailfeld auf Tabelle erstellen.
Gehen Sie auf der Seite Tabelle erstellen im Abschnitt Quelle so vor:
- Geben Sie unter Create table from (Tabelle erstellen aus) Ihren gewünschten Quelltyp an:
- Suchen Sie im Quellfeld nach der Datei oder dem Cloud Storage-Bucket oder geben Sie den Cloud Storage-URI ein. In der Google Cloud Console kann zwar nur ein URI eingefügt werden, aber Platzhalter werden unterstützt. Der Cloud Storage-Bucket muss sich am selben Standort wie das Dataset befinden, das die von Ihnen erstellte Tabelle enthält.
- Wählen Sie als Dateiformat CSV oder JSON aus.
Gehen Sie auf der Seite Create table (Tabelle erstellen) im Abschnitt Destination (Ziel) so vor:
- Wählen Sie für Dataset-Name das entsprechende Dataset aus.
- Geben Sie im Feld Tabllenname den Namen der Tabelle ein, die Sie in BigQuery erstellen.
- Achten Sie darauf, dass Table type (Tabellentyp) auf Native table (Native Tabelle) eingestellt ist.
Klicken Sie auf Tabelle erstellen.

bq

Führen Sie den Befehl bq load mit dem Parameter --autodetect aus.

Optional: Geben Sie das Flag --location an und legen Sie als Wert Ihren Standort fest.

Mit dem folgenden Befehl wird eine Datei mit automatischer Schemaerkennung geladen:

bq --location=LOCATION load \
--autodetect \
--source_format=FORMAT \
DATASET.TABLE \
PATH_TO_SOURCE

Dabei gilt:

LOCATION: Name Ihres Standorts. Das Flag --location ist optional. Wenn Sie beispielsweise BigQuery in der Region Tokio verwenden, geben Sie für das Flag den Wert asia-northeast1 an. Mit der Datei ".bigqueryrc" können Sie für den Standort einen Standardwert festlegen.
FORMAT: entweder NEWLINE_DELIMITED_JSON oder CSV.
DATASET: das Dataset mit der Tabelle, in die Sie Daten laden.
TABLE: der Name der Tabelle, in die Sie Daten laden.
PATH_TO_SOURCE ist der Speicherort der CSV- oder JSON-Datei.

Beispiele:

Geben Sie den folgenden Befehl ein, um myfile.csv von Ihrem lokalen Computer in eine Tabelle namens mytable zu laden, die in einem Dataset namens mydataset gespeichert ist.

bq load --autodetect --source_format=CSV mydataset.mytable ./myfile.csv

Geben Sie den folgenden Befehl ein, um myfile.json von Ihrem lokalen Computer in eine Tabelle namens mytable zu laden, die in einem Dataset namens mydataset gespeichert ist.

bq load --autodetect --source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable ./myfile.json