Mengonfigurasi aturan akses internet dan firewall

Dokumen ini menjelaskan cara menyelesaikan tugas berikut:

  • Mengonfigurasi instance virtual machine (VM) Dataflow untuk akses internet
  • Membuat tag jaringan
  • Menentukan aturan firewall untuk jaringan yang terkait dengan tugas Dataflow Anda

Dokumen ini mengharuskan Anda memiliki pengetahuan dasar tentang jaringan Google Cloud. Untuk menentukan jaringan bagi tugas Dataflow, lihat Menentukan jaringan dan subnetwork. Untuk informasi selengkapnya tentang cara memecahkan masalah jaringan, lihat Memecahkan masalah jaringan Dataflow.

Akses ke Google Cloud API untuk Dataflow

Virtual machine (VM) pekerja Dataflow harus menjangkau API dan layanan Google Cloud. Kumpulan endpoint Google Cloud dependen dapat berubah dari waktu ke waktu, tetapi semuanya mendukung Kontrol Layanan VPC. Gunakan salah satu metode berikut untuk mengonfigurasi akses ke Google Cloud API:

Secara default, aturan firewall dan konfigurasi DNS mengizinkan akses ke Google Cloud API. Namun, Anda mungkin secara aktif membatasi akses ke subkumpulan Google Cloud API, seperti jika Anda menggunakan Kontrol Layanan VPC. Dalam hal ini, minimal, berikan akses ke restricted.googleapis.com. Jika Anda menggunakan Private Service Connect, berikan akses ke paket vpc-sc. Menyediakan akses ke domain yang lebih permisif, seperti private.googleapis.com, juga menyediakan fungsi yang diperlukan.

Untuk mengizinkan akses ke Google Cloud API yang diperlukan melalui domain tertentu, lingkungan Anda harus memenuhi persyaratan berikut:

  • Aturan firewall harus mengizinkan traffic keluar ke semua rentang alamat dalam domain yang dipilih.

  • DNS harus me-resolve *.googleapis.com ke domain yang Anda pilih.

Misalnya, jika aturan firewall Anda membatasi traffic keluar ke rentang alamat restricted.googleapis.com, maka *.googleapis.com harus me-resolve ke alamat dalam rentang tersebut. Untuk informasi selengkapnya, lihat Mengonfigurasi DNS untuk googleapis.com.

Demikian pula, jika menggunakan Private Service Connect, Anda harus membuat data DNS untuk domain default googleapis.com guna memastikan akses ke setidaknya semua layanan dalam paket vpc-sc.

Akses internet untuk Dataflow

Bergantung pada kasus penggunaan Anda, VM mungkin juga memerlukan akses ke resource di luar Google Cloud. Gunakan salah satu metode berikut untuk mengonfigurasi akses internet untuk Dataflow:

  • Konfigurasi VM pekerja dengan alamat IP eksternal agar memenuhi persyaratan akses internet.

  • Konfigurasikan solusi NAT, seperti Cloud NAT. Opsi ini digunakan untuk menjalankan tugas yang mengakses API dan layanan di luar Google Cloud yang memerlukan akses internet. Misalnya, tugas Python SDK mungkin memerlukan akses ke Python Package Index (PyPI) untuk mendownload dependensi pipeline. Dalam hal ini, Anda harus mengonfigurasi VM pekerja dengan alamat IP eksternal atau menggunakan Cloud NAT. Anda juga dapat menyediakan dependensi pipeline Python selama pengiriman tugas. Misalnya, Anda dapat menggunakan penampung kustom untuk menyediakan dependensi pipeline Python, yang menghilangkan kebutuhan untuk mengakses PyPI saat runtime.

    Untuk mengetahui informasi selengkapnya, lihat Mengelola Dependensi Pipeline Python dalam dokumentasi Apache Beam.

Menonaktifkan alamat IP eksternal

Secara default, Dataflow menetapkan alamat IP eksternal dan internal kepada pekerja. Jika Anda menonaktifkan alamat IP eksternal, tugas Dataflow hanya dapat mengakses resource di tempat berikut:

Tanpa alamat IP eksternal, Anda tetap dapat melakukan tugas administratif dan pemantauan. Anda dapat mengakses pekerja menggunakan SSH melalui opsi yang tercantum dalam daftar sebelumnya. Namun, pipeline tidak dapat mengakses internet, dan host internet tidak dapat mengakses pekerja Dataflow Anda.

Dengan tidak menggunakan alamat IP eksternal, Anda dapat lebih mengamankan infrastruktur pemrosesan data. Anda juga dapat mengurangi jumlah alamat IP eksternal yang Anda gunakan terhadap kuota project Google Cloud.

Jika Anda menonaktifkan alamat IP eksternal, tugas Dataflow tidak dapat mengakses API dan layanan di luar Google Cloud yang memerlukan akses internet.

Untuk menonaktifkan alamat IP eksternal, lakukan salah satu hal berikut:

Java

  1. Aktifkan Akses Google Pribadi untuk jaringan atau subnetwork Anda.
  2. Dalam parameter tugas Dataflow, tentukan --usePublicIps=false dan --network=NETWORK-NAME atau --subnetwork=SUBNETWORK-NAME.

    Bergantung pada pilihan Anda, ganti salah satu dari hal berikut:

    • NETWORK-NAME: nama jaringan Compute Engine Anda
    • SUBNETWORK-NAME: nama subnetwork Compute Engine Anda

Python

  1. Untuk melakukan staging semua dependensi paket Python, ikuti petunjuk dependensi pipeline Apache Beam.
  2. Aktifkan Akses Google Pribadi untuk jaringan atau subnetwork Anda.
  3. Dalam parameter tugas Dataflow, tentukan --no_use_public_ips dan --network=NETWORK atau --subnetwork=SUBNETWORK.
  4. Bergantung pada pilihan Anda, ganti salah satu dari hal berikut:

    • NETWORK-NAME: nama jaringan Compute Engine Anda
    • SUBNETWORK-NAME: nama subnetwork Compute Engine Anda

Go

  1. Aktifkan Akses Google Pribadi untuk jaringan atau subnetwork Anda.
  2. Dalam parameter tugas Dataflow, tentukan --no_use_public_ips dan --network=NETWORK atau --subnetwork=SUBNETWORK.
  3. Bergantung pada pilihan Anda, ganti salah satu dari hal berikut:

    • NETWORK-NAME: nama jaringan Compute Engine Anda
    • SUBNETWORK-NAME: nama subnetwork Compute Engine Anda

Tag jaringan untuk Dataflow

Tag jaringan adalah atribut teks yang dapat Anda lampirkan ke VM Compute Engine. Tag jaringan memungkinkan Anda membuat aturan firewall jaringan VPC dan rute statis kustom tertentu yang berlaku untuk instance VM tertentu. Dataflow mendukung penambahan tag jaringan ke semua VM pekerja yang menjalankan tugas Dataflow tertentu.

Meskipun Anda tidak menggunakan parameter jaringan, Dataflow selalu menambahkan tag jaringan default dataflow ke setiap VM pekerja yang dibuatnya.

Mengaktifkan tag jaringan

Anda hanya dapat menentukan tag jaringan saat menjalankan template tugas Dataflow untuk membuat tugas. Setelah tugas dimulai, Anda tidak dapat menambahkan tag jaringan lainnya ke tugas. Untuk menerapkan tag jaringan tambahan ke tugas, Anda harus membuat ulang template tugas dengan tag jaringan yang diperlukan.

Tambahkan kode berikut ke kode pipeline Anda, baik Anda menjalankannya di Java maupun Python:

--experiments=use_network_tags=TAG-NAME

Ganti TAG-NAME dengan nama tag Anda. Jika Anda menambahkan lebih dari satu tag, pisahkan setiap tag dengan titik koma (;), seperti yang ditunjukkan dalam format berikut: TAG-NAME-1;TAG-NAME-2;TAG-NAME-3;....

Mengaktifkan tag jaringan untuk VM Template Flex

Saat Anda menggunakan Template Fleksibel, untuk mengaktifkan tag jaringan bagi VM pekerja Dataflow, gunakan opsi --additional-experiments seperti yang ditunjukkan dalam contoh berikut:

--additional-experiments=use_network_tags=TAG-NAME

Untuk mengaktifkan tag jaringan bagi VM pekerja dan VM peluncur, gunakan dua opsi berikut:

--additional-experiments=use_network_tags=TAG-NAME
--additional-experiments=use_network_tags_for_flex_templates=TAG-NAME

Ganti TAG-NAME dengan nama tag Anda. Jika Anda menambahkan lebih dari satu tag, pisahkan setiap tag dengan titik koma (;), seperti yang ditunjukkan dalam format berikut: TAG-NAME-1;TAG-NAME-2;TAG-NAME-3;....

Setelah Anda mengaktifkan tag jaringan, tag akan diuraikan dan dilampirkan ke VM.

Lihat batas yang berlaku untuk tag jaringan.

Aturan firewall untuk Dataflow

Dengan aturan firewall, Anda dapat mengizinkan atau menolak traffic ke dan dari VM. Jika tugas Dataflow Anda menggunakan Dataflow Shuffle atau Streaming Engine, Anda hanya perlu memastikan bahwa aturan firewall mengizinkan akses ke Google Cloud API. Jika tidak, Anda harus mengonfigurasi aturan firewall tambahan agar VM Dataflow dapat mengirim dan menerima traffic jaringan di port TCP 12345 untuk tugas streaming dan di port TCP 12346 untuk tugas batch. Pemilik project, editor, atau administrator keamanan harus membuat aturan firewall yang diperlukan di jaringan VPC yang digunakan oleh VM Dataflow Anda.

Sebelum mengonfigurasi aturan firewall untuk Dataflow, baca dokumen berikut:

Saat membuat aturan firewall untuk Dataflow, tentukan tag jaringan Dataflow. Jika tidak, aturan firewall akan berlaku untuk semua VM di jaringan VPC.

Jika berlaku, Kebijakan firewall hierarkis dievaluasi terlebih dahulu dan aturan ini menggantikan aturan firewall VPC. Jika tugas Dataflow berada dalam project yang merupakan bagian dari folder atau organisasi tempat kebijakan Firewall hierarkis digunakan, peran compute.orgFirewallPolicyAdmin diperlukan untuk melakukan perubahan kebijakan.

Jika Anda tidak membuat tag jaringan kustom saat menjalankan kode pipeline, VM Dataflow akan menggunakan tag dataflow default. Jika tidak ada tag jaringan kustom, buat aturan firewall dengan tag dataflow default.

Jika Anda membuat tag jaringan kustom saat menjalankan kode pipeline, VM Dataflow akan menggunakan tag tersebut. Buat aturan firewall dengan tag kustom.

Beberapa jaringan VPC, seperti jaringan default yang dibuat secara otomatis, menyertakan aturan default-allow-internal yang memenuhi persyaratan firewall untuk Dataflow.

Contoh aturan firewall masuk

Aturan firewall traffic masuk mengizinkan VM Dataflow menerima paket dari satu sama lain. Anda harus selalu membuat aturan firewall izinkan traffic masuk atau traffic akan selalu diblokir, meskipun aturan traffic keluar mengizinkan traffic tersebut.

Pada contoh berikut, aturan firewall ingress dibuat untuk Dataflow, dengan semua VM pekerja memiliki tag jaringan default dataflow. Pemilik project, editor, atau admin keamanan dapat menggunakan perintah gcloud berikut untuk membuat aturan izin masuk yang mengizinkan traffic di port TCP 12345 dan 12346 dari VM dengan tag jaringan dataflow ke VM lain dengan tag yang sama:

gcloud compute firewall-rules create FIREWALL_RULE_NAME_INGRESS \
    --action=allow \
    --direction=ingress \
    --network=NETWORK  \
    --target-tags=CUSTOM_TAG \
    --source-tags=CUSTOM_TAG \
    --priority=PRIORITY_NUM \
    --rules tcp:12345-12346

Ganti kode berikut:

  • FIREWALL_RULE_NAME_INGRESS: nama untuk aturan firewall

  • NETWORK: nama jaringan yang digunakan VM pekerja Anda

  • CUSTOM_TAG: daftar tag jaringan yang dipisahkan koma

    Berikut adalah daftar pedoman untuk menggunakan tag jaringan:

    • Jika Anda menghilangkan --target-tags, aturan akan berlaku untuk semua VM di jaringan VPC.

    • Jika Anda menghilangkan --source-tags dan semua spesifikasi sumber lainnya, traffic dari sumber mana pun diizinkan.

    • Jika Anda belum menentukan tag jaringan kustom dan ingin aturannya khusus untuk VM Dataflow, gunakan dataflow sebagai tag jaringan.

    • Jika Anda telah menentukan tag jaringan kustom dan ingin aturan tersebut khusus untuk VM Dataflow, gunakan tag jaringan kustom Anda.

  • PRIORITY_NUM: prioritas aturan firewall

    Angka yang lebih rendah memiliki prioritas yang lebih tinggi, dan 0 adalah prioritas tertinggi.

Contoh aturan firewall keluar

Aturan firewall keluar mengizinkan VM Dataflow mengirim paket satu sama lain. Jika telah membuat aturan firewall tolak keluar, Anda mungkin perlu membuat aturan firewall izin keluar kustom di jaringan VPC.

Dalam contoh ini, aturan keluar firewall dibuat untuk Dataflow, dengan semua VM pekerja memiliki tag jaringan default dataflow. Pemilik, editor, atau administrator keamanan project dapat menggunakan perintah gcloud berikut untuk membuat aturan izin keluar yang mengizinkan traffic dari port TCP 12345 dan 12346 di VM dengan tag jaringan dataflow ke VM lain dengan tag yang sama:

gcloud compute firewall-rules create FIREWALL_RULE_NAME_EGRESS \
    --network=NETWORK \
    --action=allow \
    --direction=egress \
    --target-tags=CUSTOM_TAG \
    --source-tags=CUSTOM_TAG \
    --destination-ranges=DESTINATION-RANGES\
    --priority=PRIORITY_NUM  \
    --rules tcp:12345-12346

Ganti kode berikut:

  • FIREWALL_RULE_NAME_EGRESS: nama untuk aturan firewall

  • NETWORK: nama jaringan yang digunakan VM pekerja Anda

  • CUSTOM_TAG: daftar tag jaringan yang dipisahkan koma

    Berikut adalah daftar pedoman untuk menggunakan tag jaringan:

    • Jika Anda menghilangkan --target-tags, aturan akan berlaku untuk semua VM di jaringan VPC.

    • Jika Anda menghilangkan --source-tags dan semua spesifikasi sumber lainnya, traffic dari sumber mana pun diizinkan.

    • Jika Anda belum menentukan tag jaringan kustom dan ingin aturannya khusus untuk VM Dataflow, gunakan dataflow sebagai tag jaringan.

    • Jika Anda telah menentukan tag jaringan kustom dan ingin aturan tersebut khusus untuk VM Dataflow, gunakan tag jaringan kustom Anda.

  • DESTINATION-RANGES: daftar CIDR yang dipisahkan koma

    Sertakan rentang alamat IP utama subnet yang dipilih.

  • PRIORITY_NUM: prioritas aturan firewall

    Angka yang lebih rendah memiliki prioritas yang lebih tinggi, dan 0 adalah prioritas tertinggi.

Untuk port TCP tertentu yang digunakan oleh Dataflow, Anda dapat melihat manifes penampung project. Manifes penampung secara eksplisit menentukan port untuk memetakan port host ke dalam penampung.

Akses SSH ke VM pekerja

Dataflow tidak memerlukan SSH; namun, SSH berguna untuk memecahkan masalah.

Jika VM pekerja memiliki alamat IP eksternal, Anda dapat terhubung ke VM melalui konsol Google Cloud atau menggunakan Google Cloud CLI. Untuk terhubung menggunakan SSH, Anda harus memiliki aturan firewall yang mengizinkan koneksi masuk di port TCP 22 dari setidaknya alamat IP sistem tempat Anda menjalankan gcloud atau sistem yang menjalankan browser web yang Anda gunakan untuk mengakses konsol Google Cloud.

Anda dapat melihat konfigurasi dan aktivitas jaringan dengan membuka sesi SSH di salah satu pekerja dan menjalankan iproute2. Untuk mengetahui informasi selengkapnya, lihat halaman iproute2 di wiki Linux Foundation.

Jika Anda perlu terhubung ke VM pekerja yang hanya memiliki alamat IP internal, lihat Memilih opsi koneksi untuk VM khusus internal.

Langkah selanjutnya