이러한 측정항목은 단순 배치 파이프라인을 기반으로 합니다. 이러한 측정항목은 I/O 커넥터 사이의 성능 비교를 위해 사용되며 반드시 실제 파이프라인을 나타내지는 않습니다.
Dataflow 파이프라인 성능은 복잡하며 VM 유형, 처리 중인 데이터, 외부 소스 및 싱크의 성능, 사용자 코드와 상관관계가 있습니다. 측정항목은 Java SDK 실행을 기반으로 하며 다른 언어 SDK의 성능 특성을 나타내지 않습니다. 자세한 내용은 Beam IO 성능을 참조하세요.
권장사항
일반적으로 트랜잭션을 사용하지 마세요. 트랜잭션은 멱등성을 보장하지 않으며 Dataflow가 재시도로 인해 이를 여러 번 호출하여 예상치 못한 값이 발생할 수 있습니다.
단일 Dataflow 작업자가 여러 키 범위의 데이터를 처리할 수 있으며 이로 인해 비효율적으로 Bigtable에 쓰기 작업이 수행될 수 있습니다. GroupByKey를 사용하여 Bigtable 키별로 데이터를 그룹화하면 쓰기 성능을 크게 향상시킬 수 있습니다.
Bigtable에 대규모 데이터 세트를 쓰는 경우 withFlowControl을 호출하는 것이 좋습니다. 이 설정은 Bigtable 서버에 데이터를 제공하는 데 충분한 리소스가 있도록 Bigtable 서버에 대한 트래픽 비율을 자동으로 제한합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-08-08(UTC)"],[[["The Apache Beam Bigtable I/O connector facilitates writing data from Dataflow to Bigtable, and pre-built Google Dataflow templates can also be used depending on the use case."],["Bigtable cluster nodes dictate parallelism, with each node managing key ranges that can shift during load balancing, and node count directly affects Bigtable costs."],["Performance metrics for Bigtable I/O write operations were measured at 65 MBps or 60,000 elements per second using a specific setup, though real-world pipeline performance can vary greatly."],["Avoid using transactions when writing to Bigtable with Dataflow due to potential issues with idempotency and retries, and use `GroupByKey` for improved write efficiency."],["Utilizing `withFlowControl` is advised when writing substantial datasets to Bigtable to automatically manage traffic and prevent Bigtable server overload."]]],[]]