Dokumen ini menjelaskan cara menentukan jaringan atau subjaringan atau kedua opsi tersebut saat Anda menjalankan tugas Dataflow.
Untuk mengikuti langkah-langkahnya, Anda perlu mengetahui cara membuat jaringan dan subjaringan Google Cloud. Anda juga harus memahami istilah jaringan yang dibahas di bagian berikutnya.
Jaringan default
memiliki konfigurasi
yang memungkinkan tugas Dataflow berjalan. Namun, layanan lain mungkin
juga menggunakan jaringan ini. Pastikan setiap perubahan pada jaringan default
kompatibel dengan semua layanan Anda. Atau, buat jaringan terpisah untuk Dataflow.
Untuk informasi selengkapnya tentang cara memecahkan masalah jaringan, lihat Memecahkan masalah jaringan Dataflow.
Terminologi jaringan Google Cloud
Jaringan VPC. Jaringan VPC adalah versi virtual dari jaringan fisik yang diterapkan di dalam jaringan produksi Google. Terkadang disebut jaringan, VPC menyediakan konektivitas untuk resource dalam project.
Untuk mempelajari VPC lebih lanjut, lihat Jaringan VPC.
Jaringan VPC bersama. Saat menggunakan VPC Bersama, Anda menetapkan suatu project sebagai project host dan menautkan satu atau beberapa project layanan lainnya. Jaringan VPC dalam project host disebut Jaringan VPC bersama. Jika Shared VPC Admin menentukan Anda sebagai Service Project Admin, Anda memiliki izin untuk menggunakan setidaknya beberapa subnetwork di jaringan project host.
Untuk mempelajari VPC Bersama lebih lanjut, lihat VPC Bersama.
Kontrol Layanan VPC. Kontrol Layanan VPC Dataflow membantu melindungi dari tindakan yang tidak disengaja atau ditargetkan oleh entitas eksternal atau oleh entitas orang dalam, yang membantu meminimalkan risiko pemindahan data yang tidak sah. Anda dapat menggunakan Kontrol Layanan VPC untuk membuat perimeter yang melindungi resource dan data layanan yang Anda tentukan secara eksplisit.
Untuk mempelajari lebih lanjut tentang Kontrol Layanan VPC, baca Ringkasan Kontrol Layanan VPC. Untuk mempelajari batasan saat menggunakan Dataflow dengan Kontrol Layanan VPC, lihat Produk dan batasan yang didukung.
Aturan firewall. Gunakan aturan firewall untuk mengizinkan atau menolak traffic ke dan dari VM Anda. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi aturan akses internet dan firewall.
Jaringan dan subnetwork untuk tugas Dataflow
Saat membuat tugas Dataflow, Anda dapat menentukan jaringan, subjaringan, atau keduanya.
Pertimbangkan panduan berikut:
Jika Anda tidak yakin parameter mana yang akan digunakan, tentukan saja parameter subjaringan. Parameter jaringan kemudian ditentukan secara implisit untuk Anda.
Jika Anda menghilangkan parameter subjaringan dan jaringan, Google Cloud akan mengasumsikan bahwa Anda ingin menggunakan jaringan VPC mode otomatis bernama
default
. Jika tidak memiliki jaringan bernamadefault
dalam project, Anda harus menentukan jaringan atau subjaringan alternatif.
Pedoman untuk menentukan parameter jaringan
Untuk memilih jaringan VPC mode otomatis dalam project Anda, gunakan parameter jaringan. Untuk mengetahui informasi selengkapnya, lihat Membuat jaringan VPC mode otomatis.
Anda dapat menentukan jaringan hanya dengan menggunakan namanya, bukan URL lengkap.
Anda hanya dapat menggunakan parameter jaringan untuk memilih jaringan VPC Bersama jika kedua kondisi berikut bernilai benar:
Jaringan VPC Bersama yang Anda pilih adalah jaringan VPC mode otomatis.
Anda adalah Admin Project Layanan dengan izin tingkat project ke seluruh project host VPC Bersama. Admin VPC Bersama telah memberi Anda peran Pengguna Jaringan Compute untuk seluruh project host, sehingga Anda dapat menggunakan semua jaringan dan subjaringannya.
Untuk semua kasus lainnya, Anda harus menentukan subnetwork.
Panduan untuk menentukan parameter subnetwork
Jika Anda menentukan subnetwork, Dataflow akan memilih jaringan untuk Anda. Oleh karena itu, saat menentukan subnetwork, Anda dapat menghilangkan parameter jaringan.
Untuk memilih subnetwork tertentu dalam jaringan, gunakan parameter subnetwork.
Tentukan subnetwork menggunakan URL lengkap atau jalur yang disingkat. Jika subnetwork terletak di jaringan VPC Bersama, Anda harus menggunakan URL lengkap.
Anda harus memilih subnetwork di region yang sama dengan zona tempat Anda menjalankan pekerja Dataflow.
Anda harus menentukan parameter subnetwork dalam situasi berikut:
Subnet yang Anda tentukan berada dalam jaringan VPC mode kustom.
Anda adalah Admin Project Layanan dengan izin tingkat subnet ke subjaringan tertentu di project host VPC Bersama.
Ukuran subjaringan membatasi jumlah instance berdasarkan jumlah alamat IP yang tersedia. Pengukuran ini tidak memengaruhi performa Kontrol Layanan VPC Dataflow.
Panduan untuk menentukan parameter subjaringan untuk VPC Bersama
Saat menentukan URL subnetwork untuk VPC Bersama, pastikan HOST_PROJECT_ID adalah project tempat VPC dihosting.
Jika subnetwork terletak di jaringan VPC Bersama, Anda harus menggunakan URL lengkap. Lihat contoh URL lengkap yang menentukan subnetwork.
Pastikan subnetwork VPC Bersama dibagikan dengan akun layanan Dataflow dan memiliki peran Compute Network User yang ditetapkan di subnet yang ditentukan. Peran Compute Network User harus ditetapkan ke akun layanan Dataflow di project host.
Di konsol Google Cloud, buka halaman Shared VPC.
Pilih project host.
Di bagian Individual subnet access, pilih subnet Anda. Panel Izin tingkat subnet menampilkan izin untuk subnet ini. Anda dapat melihat apakah subnetwork VPC ditetapkan peran Compute Network User.
Untuk memberikan izin, di panel Subnet level permissions, klik Add principal.
Jika jaringan tidak dibagikan, saat Anda mencoba menjalankan tugas, pesan error berikut akan muncul:
Error: Message: Required 'compute.subnetworks.get' permission
. Untuk mengetahui informasi selengkapnya, lihat Izin 'compute.subnetworks.get' yang diperlukan di "Memecahkan masalah izin Dataflow".
Contoh spesifikasi jaringan dan subnetwork
Contoh berikut menunjukkan URL lengkap yang menentukan subjaringan:
https://www.googleapis.com/compute/v1/projects/HOST_PROJECT_ID/regions/REGION_NAME/subnetworks/SUBNETWORK_NAME
Ganti kode berikut:
HOST_PROJECT_ID
: project ID hostREGION_NAME
: region tugas Dataflow AndaSUBNETWORK_NAME
: nama subnetwork Compute Engine Anda
Berikut adalah contoh URL dengan project ID host my-cloud-project
,
region us-central1
, dan nama subnetwork mysubnetwork
:
https://www.googleapis.com/compute/v1/projects/my-cloud-project/regions/us-central1/subnetworks/mysubnetwork
Berikut adalah contoh formulir singkat yang menentukan subjaringan:
regions/REGION_NAME/subnetworks/SUBNETWORK_NAME
Ganti kode berikut:
REGION_NAME
: region tugas Dataflow AndaSUBNETWORK_NAME
: nama subnetwork Compute Engine Anda
Menjalankan pipeline dengan jaringan yang ditentukan
Jika ingin menggunakan jaringan selain jaringan default yang dibuat oleh Google Cloud, dalam sebagian besar kasus, Anda harus menentukan subnetwork. Jaringan akan otomatis disimpulkan dari subnetwork yang Anda tentukan. Untuk mengetahui informasi selengkapnya, lihat Panduan untuk menentukan parameter jaringan dalam dokumen ini.
Contoh berikut menunjukkan cara menjalankan pipeline dari command line atau menggunakan REST API. Contoh ini menentukan jaringan.
Java
mvn compile exec:java \ -Dexec.mainClass=INPUT_PATH \ -Dexec.args="--project=HOST_PROJECT_ID \ --stagingLocation=gs://STORAGE_BUCKET/staging/ \ --output=gs://STORAGE_BUCKET/output \ --region=REGION \ --runner=DataflowRunner \ --network=NETWORK_NAME"
Python
python -m INPUT_PATH \ --project HOST_PROJECT_ID \ --region=REGION \ --runner DataflowRunner \ --staging_location gs://STORAGE_BUCKET/staging \ --temp_location gs://STORAGE_BUCKET/temp \ --output gs://STORAGE_BUCKET/output \ --network NETWORK_NAME
Go
wordcount --project HOST_PROJECT_ID \ --region HOST_GCP_REGION \ --runner dataflow \ --staging_location gs://STORAGE_BUCKET/staging \ --temp_location gs://STORAGE_BUCKET/temp \ --input INPUT_PATH \ --output gs://STORAGE_BUCKET/output \ --network NETWORK_NAME
API
Jika Anda menjalankan template Dataflow
menggunakan REST API,
tambahkan network
atau subnetwork
, atau keduanya, ke objek environment
.
POST https://dataflow.googleapis.com/v1b3/projects/[YOUR_PROJECT_ID]/templates:launch?gcsPath=gs://dataflow-templates/wordcount/template_file
{
"jobName": "JOB_NAME",
"parameters": {
"inputFile" : "INPUT_PATH",
"output": "gs://STORAGE_BUCKET/output"
},
"environment": {
"tempLocation": "gs://STORAGE_BUCKET/temp",
"network": "NETWORK_NAME",
"zone": "us-central1-f"
}
}
Ganti kode berikut:
JOB_NAME
: nama tugas Dataflow Anda (khusus API)INPUT_PATH
: jalur ke sumber AndaHOST_PROJECT_ID
: project ID hostREGION
: Region Dataflow, sepertius-central1
STORAGE_BUCKET
: bucket penyimpananNETWORK_NAME
: nama jaringan Compute Engine Anda
Menjalankan pipeline dengan subjaringan yang ditentukan
Jika Anda adalah Service Project Admin yang hanya memiliki izin untuk menggunakan subnetwork tertentu di jaringan VPC Bersama, Anda harus menentukan parameter subnetwork
dengan subnetwork yang memiliki izin untuk digunakan.
Contoh berikut menunjukkan cara menjalankan pipeline dari command line atau menggunakan REST API. Contoh ini menentukan subnetwork. Anda juga dapat menentukan jaringan.
Java
mvn compile exec:java \ -Dexec.mainClass=INPUT_PATH \ -Dexec.args="--project=HOST_PROJECT_ID \ --stagingLocation=gs://STORAGE_BUCKET/staging/ \ --output=gs://STORAGE_BUCKET/output \ --region=REGION \ --runner=DataflowRunner \ --subnetwork=https://www.googleapis.com/compute/v1/projects/HOST_PROJECT_ID/regions/REGION/subnetworks/SUBNETWORK_NAME"
Python
python -m INPUT_PATH \ --project HOST_PROJECT_ID \ --region=REGION \ --runner DataflowRunner \ --staging_location gs://STORAGE_BUCKET/staging \ --temp_location gs://STORAGE_BUCKET/temp \ --output gs://STORAGE_BUCKET/output \ --subnetwork https://www.googleapis.com/compute/v1/projects/HOST_PROJECT_ID/regions/REGION/subnetworks/SUBNETWORK_NAME
Go
wordcount --project HOST_PROJECT_ID \ --region HOST_GCP_REGION \ --runner dataflow \ --staging_location gs://STORAGE_BUCKET/staging \ --temp_location gs://STORAGE_BUCKET/temp \ --input INPUT_PATH \ --output gs://STORAGE_BUCKET/output \ --subnetwork https://www.googleapis.com/compute/v1/projects/HOST_PROJECT_ID/regions/REGION/subnetworks/SUBNETWORK_NAME
API
Jika Anda menjalankan template Dataflow menggunakan REST API,
tambahkan network
atau subnetwork
, atau keduanya, ke objek environment
.
POST https://dataflow.googleapis.com/v1b3/projects/[YOUR_PROJECT_ID]/templates:launch?gcsPath=gs://dataflow-templates/wordcount/template_file
{
"jobName": "JOB_NAME",
"parameters": {
"inputFile" : "INPUT_PATH",
"output": "gs://STORAGE_BUCKET/output"
},
"environment": {
"tempLocation": "gs://STORAGE_BUCKET/temp",
"subnetwork": "https://www.googleapis.com/compute/v1/projects/HOST_PROJECT_ID/regions/REGION/subnetworks/SUBNETWORK_NAME",
"zone": "us-central1-f"
}
}
Ganti kode berikut:
JOB_NAME
: nama tugas Dataflow Anda (khusus API)INPUT_PATH
: jalur ke sumber AndaHOST_PROJECT_ID
: project ID hostREGION
: Region Dataflow, sepertius-central1
STORAGE_BUCKET
: bucket penyimpananSUBNETWORK_NAME
: nama subnetwork Compute Engine Anda
Menonaktifkan alamat IP eksternal
Untuk menonaktifkan alamat IP eksternal, lihat Mengonfigurasi aturan akses internet dan firewall.