Diese Seite enthält Richtlinien für das effiziente Laden großer Datenmengen im Bulk in Spanner importieren.
Es gibt mehrere Möglichkeiten, Daten im Bulk-Verfahren in Spanner zu laden:
- Zeilen mit der Datenmanipulationssprache (DML) einfügen
- Zeilen mithilfe von Mutationen einfügen
- Daten mit dem Dataflow-Connector importieren
- Datenbank mit Avro-Dateien importieren
- Importieren Sie Daten im CSV-Format.
Sie können zwar auch Zeilen mit der Google Cloud CLI einfügen, wir empfehlen jedoch, die gcloud CLI nicht für das Bulk-Laden zu verwenden.
Leistungsrichtlinien für das Laden im Bulk
Maximieren Sie die Partitionierung, um eine optimale Leistung beim Laden im Bulk zu erreichen um das Schreiben der Daten auf Worker-Aufgaben zu verteilen.
Spanner verwendet eine lastbasierte Aufteilung, um Ihre Daten Datenlast über die Rechenressourcen der Instanz. Nach einigen Minuten hoher Last führt Spanner zwischen Zeilen aufzuteilen. Der Durchsatz sollte sich für Schreibvorgänge alle paar Minuten verdoppeln, wenn die Datenlast gut verteilt ist und Sie die Best Practices für das Schemadesign und das Laden im Bulk befolgen, bis die verfügbaren CPU-Ressourcen in Ihrer Instanz belegt sind.
Daten nach Primärschlüssel partitionieren
Spanner partitioniert Tabellen automatisch in kleinere Bereiche. Die Primärschlüssel für eine Zeile bestimmt, wo sie partitioniert wird.
Partitionieren Sie die Daten mit dem folgenden Muster nach dem Primärschlüssel, um einen optimalen Schreibdurchsatz für das Laden im Bulk zu erhalten:
- Jede Partition enthält abhängig von den Schlüsselspalten einen Bereich von aufeinanderfolgenden Zeilen.
- Jeder Commit enthält nur Daten für eine einzige Partition.
Wir empfehlen eine 10-fache Anzahl der Partitionen als die Anzahl der Knoten in Ihrer Spanner-Instanz. So weisen Sie Partitionen Zeilen zu:
- Filtern Sie die Daten nach Primärschlüssel.
- Teilen Sie die Daten in 10 * (Anzahl Knoten) getrennte Partitionen gleicher Größe auf.
- Erstellen Sie für jede Partition eine eigene Worker-Aufgabe und weisen Sie diese zu. Die Worker-Aufgaben werden in Ihrer Anwendung erstellt. Es ist kein Spanner .
Nach diesem Muster ergibt sich normalerweise ein Gesamtdurchsatz von 10–20 MB pro Sekunde und Knoten für den Bulk-Schreibvorgang.
Beim Laden von Daten erstellt und aktualisiert Spanner Aufteilungen zum Ausgleich Auslastung der Knoten in Ihrer Instanz. Bei diesem Vorgang kann es zu einem vorübergehenden Rückgang des Durchsatzes kommen.
Beispiel
Eine regionale Konfiguration hat 3 Knoten. Es sind 90.000 Zeilen in einer nicht verschränkten Tabelle enthalten. Die Primärschlüssel in der Tabelle reichen von 1 bis 90.000.
- Zeilen: 90.000 Zeilen
- Knoten: 3
- Partitionen: 10 * 3 = 30
- Zeilen pro Partition: 90.000 / 30 = 3.000
Die erste Partition umfasst den Schlüsselbereich 1 bis 3.000. Die zweite Partition umfasst den Schlüsselbereich 3.001 bis 6.000. Die 30. Partition umfasst den Schlüsselbereich 87.001 bis 90.000. (Sie sollten in einer großen Tabelle keine sequentiellen Schlüssel verwenden. Dieses Beispiel dient nur zur Veranschaulichung.)
Jede Worker-Aufgabe sendet die Schreibvorgänge für eine einzelne Partition. Innerhalb jeder Partition sollten Sie die Zeilen nach Primärschlüssel schreiben. Auch bei zufälligen Schreibvorgängen in Bezug auf den Primärschlüssel ergibt sich so ein angemessen hoher Durchsatz. Über Testläufe erfahren Sie, welcher Ansatz die beste Leistung für Ihr Dataset bietet.
Wenn Sie keine Partitionen verwenden wollen
Das Schreiben zufälliger Zeilen in einem Commit kann langsamer sein als das Schreiben einer zusammenhängenden Gruppe von Zeilen in einem Commit und wahrscheinlich Daten in verschiedenen Partitionen betreffen. Die Commit-Latenz und der Commit-Overhead sind höher, wenn mehr Splits in einen Commit geschrieben werden, da die Koordination zwischen den Servern erhöht wird. Es sind wahrscheinlich mehrere Splits beteiligt, da jede zufällig ausgewählte Zeile zu einem anderen Split gehören kann. Im schlimmsten Fall Szenario, umfasst jeder Schreibvorgang jeden Split in Ihrem Spanner Instanz. Wie bereits erwähnt, verringert sich der Schreibdurchsatz, wenn viele Splits an einem Schreibvorgang beteiligt sind.
Bulk-Ladevorgang ohne Partitionierung
Das Schreiben einer zusammenhängenden Reihe von Zeilen in einem Commit kann schneller sein als das Schreiben zufälliger Zeilen. Zufällige Zeilen enthalten wahrscheinlich auch Daten aus verschiedenen Partitionen.
Wenn mehr Partitionen in einen Commit geschrieben werden, ist die Koordination über erforderlich sind, was die Commit-Latenz und den Overhead erhöht.
Wahrscheinlich sind mehrere Partitionen beteiligt, da jede zufällig ausgewählte Zeile dazugehören könnte in eine andere Partition verschieben. Im schlimmsten Fall umfasst jeder Schreibvorgang jede Partition in Ihrer Spanner-Instanz. Wie bereits erwähnt Zuvor verringert sich der Schreibdurchsatz mit mehr Partitionen.
Überlastung vermeiden
Es können mehr Schreibanfragen gesendet werden, als Spanner verarbeiten kann. Bei dieser Überlastung bricht Spanner Transaktionen ab. Das wird Pushback genannt. Bei Transaktionen mit Schreibzugriff wiederholt Spanner die Transaktion automatisch. In diesen Fällen wird die Ablehnung als hohe Latenz. Bei hohen Lasten kann der Pushback bis zu einer Minute dauern. Bei sehr großer Last kann der Pushback mehrere Minuten dauern. Um Ablehnungen zu vermeiden, sollten Sie die Schreibanfragen drosseln, damit die CPU-Auslastung angemessene Limits. Alternativ können Nutzer die Anzahl der Knoten erhöhen, damit die CPU-Auslastung innerhalb der Grenzen bleibt.
Commit von Mutationen mit 1 MB bis 5 MB gleichzeitig
Sowohl kleine als auch große Schreibvorgänge in Spanner sind mit einem gewissen Aufwand verbunden. Maximieren Sie die pro Sekunde gespeicherte Datenmenge, um den Durchsatz zu maximieren. Schreiben. Größere Schreibvorgänge senken den Aufwand pro Schreibvorgang. Es empfiehlt sich, für jeden Commit eine Mutation für Hunderte von Zeilen auszuführen. Wenn relativ große Zeilen geschrieben werden, bietet eine Commit-Größe von 1 MB bis 5 MB normalerweise die beste Leistung. Wenn Sie kleine oder indexierte Werte schreiben, sollten Sie in der Regel höchstens einige hundert Zeilen in einem einzigen Commit schreiben. Beachten Sie unabhängig von der Commit-Größe und der Anzahl der Zeilen, dass es eine Beschränkung von 80.000 Mutationen pro Commit gibt. Sie sollten den Durchsatz testen und messen, um die optimale Leistung zu ermitteln.
Commits mit mehr als 5 MB oder mehr als ein paar hundert Zeilen bieten keinen zusätzlichen Nutzen. Außerdem besteht die Gefahr, dass die Spanner-Grenzwerte für Commit-Größe und Mutationen pro Commit überschritten werden.
Richtlinien für sekundäre Indexe
Wenn Ihre Datenbank über sekundäre Indexe verfügt, müssen Sie wählen, ob Sie die Indexe vor oder nach dem Laden der Tabellendaten dem Datenbankschema hinzufügen.
Wenn Sie den Index vor dem Laden der Daten hinzufügen, kann die Schemaänderung sofort abgeschlossen werden. Allerdings dauert jeder Schreibvorgang, der sich auf den Index auswirkt, länger, da auch der Index aktualisiert werden muss. Wenn der Datenladevorgang abgeschlossen ist, kann die Datenbank sofort mit allen vorhandenen Indexen verwendet werden. Um eine Tabelle und ihre senden Sie die DDL-Anweisungen für die neue Tabelle und neue Indexe in einer einzelnen Anfrage an Spanner senden.
Wenn Sie den Index nach dem Laden der Daten hinzufügen, ist jeder Schreibvorgang effizient. Die Schemaänderung für jeden Index-Backfill kann jedoch lange dauern. Die Datenbank kann erst dann vollständig verwendet werden, wenn alle Schemaänderungen abgeschlossen sind. Die Datenbank kann weiterhin Schreibvorgänge bereitstellen und Suchanfragen, allerdings langsamer.
Wir empfehlen, Indexe hinzuzufügen, die für Ihre Geschäftsanwendung wichtig sind bevor Sie die Daten laden. Fügen Sie alle nicht kritischen Indexe nach der Migration hinzu.
Durchsatz testen und messen
Es kann schwierig sein, den Durchsatz vorherzusagen. Sie sollten Ihre Strategie testen, Daten im Bulk zu laden, bevor Sie dies tatsächlich ausführen. Ein ausführliches Beispiel für die Partitionierung und Überwachung von Leistung finden Sie unter Durchsatz für die Datenlast maximieren.
Best Practices für das periodische Laden im Bulk in eine vorhandene Datenbank
Wenn Sie eine vorhandene Datenbank aktualisieren, die Daten enthält, jedoch keine sekundären Indexe hat, gelten weiterhin die Empfehlungen in diesem Dokument.
Bei sekundären Indexen hilft Ihnen diese Anleitung wahrscheinlich gut weiter. Die Leistung hängt davon ab, wie viele Splits im Durchschnitt an Ihren Transaktionen beteiligt sind. Wenn der Durchsatz zu niedrig ausfällt, können Sie Folgendes versuchen:
- Fügen Sie eine geringere Anzahl von Mutationen in jeden Commit ein. Das kann den Durchsatz erhöhen.
- Wenn Ihr Upload die aktuelle Gesamtgröße der zu aktualisierenden Tabelle überschreitet, löschen Sie die sekundären Indexe und fügen Sie sie nach dem Hochladen der Daten neu hinzu. Dieser Schritt ist normalerweise nicht erforderlich, kann jedoch den Durchsatz verbessern.