Die Datenverarbeitung in Dataflow kann stark parallelisiert werden. Ein Großteil dieser Parallelität wird von Dataflow automatisch ausgeführt. E/A-Connectors befinden sich an der Grenze zwischen Ihrer Pipeline und anderen Teilen Ihrer Architektur, z. B. Dateispeicher, Datenbanken und Nachrichtensysteme. Daher haben E/A-Connectors häufig bestimmte Aspekte, um die Parallelität zu erreichen.
Allgemeine Best Practices
In der folgenden Liste werden allgemeine Best Practices für die Verwendung von E/A-Connectors in Dataflow beschrieben.
Javadoc-, Pydoc- oder Go-Dokumentation für die Connectors in Ihrer Pipeline lesen. Weitere Informationen finden Sie in der Apache Beam-Dokumentation unter E/A-Connectors.
Verwenden Sie die neueste Version des Apache Beam SDK. E/A-Connectors werden kontinuierlich verbessert, fügen Funktionen hinzu und beheben bekannte Probleme.
Bei der Entwicklung einer Pipeline ist es wichtig, die Parallelität des Jobs auszugleichen. Wenn ein Job zu wenig Parallelität hat, kann er langsam sein und Daten können in der Quelle angesammelt werden. Zu viel Parallelität kann jedoch eine Senke mit zu vielen Anfragen überfordern.
Verlassen Sie sich nicht auf die Reihenfolge der Elemente. Im Allgemeinen gewährleistet Dataflow nicht die Reihenfolge der Elemente in einer Sammlung.
Wenn in Ihrem SDK Ihrer Wahl kein E/A-Connector verfügbar ist, sollten Sie das sprachübergreifende Framework verwenden, um einen E/A-Connector aus einem anderen SDK zu verwenden. Außerdem haben Connectors nicht immer die gleichen Features zwischen SDKs. Wenn ein Connector von einem anderen SDK ein Feature bereitstellt, das Sie benötigen, können Sie es als sprachübergreifende Transformation verwenden.
Im Allgemeinen ist das Schreiben benutzerdefinierter E/A-Connectors eine Herausforderung. Verwenden Sie nach Möglichkeit einen vorhandenen Connector. Wenn Sie einen benutzerdefinierten E/A-Connector implementieren müssen, lesen Sie die Informationen unter Neuen E/A-Connector entwickeln.
Wenn eine Pipeline fehlschlägt, suchen Sie nach Fehlern, die von E/A-Connectors protokolliert werden. Siehe Dataflow-Fehler beheben.
Erwägen Sie beim Durchführen von Schreibvorgängen von Dataflow an einen Connector die Verwendung eines ErrorHandler, um fehlgeschlagene Schreibvorgänge oder fehlerhafte Lesevorgänge zu verarbeiten. Diese Art der Fehlerbehandlung wird für die folgenden Java-E/A-Vorgänge in Apache Beam Version 2.55.0 und höher unterstützt: BigQueryIO, BigtableIO, PubSubIO, KafkaIO, FileIO, TextIO und AvroIO.
Best Practices für einzelne E/A-Connectors
In den folgenden Themen werden Best Practices für einzelne E/A-Connectors aufgeführt:
E/A-Connector | Lesen | Schreiben |
---|---|---|
Apache Iceberg | Aus Apache Iceberg lesen | In Apache Iceberg schreiben |
BigQuery | Aus BigQuery abrufen | In BigQuery schreiben |
Bigtable | Aus Bigtable lesen | In Bigtable schreiben |
Cloud Storage | Aus Cloud Storage lesen | In Cloud Storage schreiben |
Pub/Sub | Aus Pub/Sub lesen | In Pub/Sub schreiben |
Von Google unterstützte E/A-Connectors
In der folgenden Tabelle sind die von Dataflow unterstützten Apache Beam-E/A-Connectors aufgeführt. Eine vollständige Liste der Apache Beam-E/A-Connectors, einschließlich derjenigen, die von der Apache Beam-Community entwickelt und von anderen Runnern unterstützt werden, finden Sie unter E/A-Connectors in der Apache Beam-Dokumentation.
Name des E/A-Connectors | Java | Python | Go |
---|---|---|---|
AvroIO | Unterstützt | Unterstützt | Unterstützt |
BigQueryIO | Unterstützt | Unterstützt | Unterstützt |
BigTableIO | Unterstützt | Senke unterstützt | Senke unterstützt |
DatastoreIO | Unterstützt | Unterstützt | Unterstützt |
FhirIO (Gesundheitswesen) | Unterstützt | Nicht verfügbar | Unterstützt |
FileIO | Unterstützt | Unterstützt | Unterstützt |
GcsFileSystem | Unterstützt | Unterstützt | Unterstützt |
JdbcIO | Unterstützt | Sprachübergreifende Unterstützung | Sprachübergreifende Unterstützung |
KafkaIO | Unterstützt | Sprachübergreifende Unterstützung | Sprachübergreifende Unterstützung |
LocalFileSystem | Unterstützt | Unterstützt | Unterstützt |
ParquetIO | Unterstützt | Unterstützt | Unterstützt |
PubSubIO | Unterstützt | Unterstützt | Unterstützt |
SpannerIO | Unterstützt | Sprachübergreifende Unterstützung | Unterstützt |
TextIO | Unterstützt | Unterstützt | Unterstützt |
TFRecordIO | Unterstützt | Unterstützt | Nicht verfügbar |
Nächste Schritte
- Lesen Sie die Apache Beam-Dokumentation für E/A-Connectors.