Pengantar jaringan Cloud Data Fusion

Halaman ini memberikan informasi latar belakang tentang cara terhubung ke sumber data Anda dari instance Cloud Data Fusion publik atau pribadi dari lingkungan desain dan eksekusi.

Sebelum memulai

Jaringan di Cloud Data Fusion memerlukan pemahaman dasar tentang hal berikut:

Project tenant

Cloud Data Fusion membuat project tenant yang menyimpan resource dan layanan yang diperlukan untuk mengelola pipeline atas nama Anda, seperti saat menjalankan pipeline di cluster Dataproc yang berada di project pelanggan Anda.

Project tenant tidak ditampilkan kepada Anda secara langsung, tetapi saat membuat instance pribadi, Anda menggunakan nama project untuk menyiapkan peering VPC. Setiap instance pribadi dalam project tenant memiliki jaringan dan subnet VPC-nya sendiri.

Project dapat memiliki beberapa instance Cloud Data Fusion. Anda mengelola resource dan layanan yang dimilikinya saat mengakses instance di UI Cloud Data Fusion atau Google Cloud CLI.
Untuk mengetahui informasi selengkapnya, lihat dokumentasi Service Infrastructure tentang project tenant.

Project pelanggan

Pelanggan membuat dan memiliki project ini. Secara default, Cloud Data Fusion membuat cluster Dataproc sementara dalam project ini untuk menjalankan pipeline Anda.

Instance Cloud Data Fusion

Instance Cloud Data Fusion adalah deployment unik dari Cloud Data Fusion, tempat Anda mendesain dan menjalankan pipeline. Anda dapat membuat beberapa instance dalam satu project dan menentukan region Google Cloud tempat membuat instance Cloud Data Fusion. Berdasarkan persyaratan dan batasan biaya, Anda dapat membuat instance yang menggunakan Cloud Data Fusion edisi Developer, Basic, atau Enterprise. Setiap instance berisi deployment Cloud Data Fusion unik dan independen yang berisi serangkaian layanan yang menangani pengelolaan siklus proses, pengaturan, koordinasi, dan pengelolaan metadata pipeline. Layanan ini berjalan menggunakan resource yang berjalan lama di project tenant.

Diagram jaringan

Diagram berikut menunjukkan koneksi saat Anda mem-build pipeline data yang mengekstrak, mengubah, menggabungkan, menggabungkan, dan memuat data dari berbagai sumber data lokal dan cloud.

Lihat diagram untuk mengontrol traffic keluar di instance pribadi dan terhubung ke sumber publik.

Desain dan eksekusi pipeline

Cloud Data Fusion menyediakan pemisahan lingkungan desain dan eksekusi, yang memungkinkan Anda mendesain pipeline sekali, lalu mengeksekusinya di beberapa lingkungan. Lingkungan desain berada di project tenant, sedangkan lingkungan eksekusi berada di satu atau beberapa project pelanggan.

Contoh: Anda mendesain pipeline menggunakan layanan Cloud Data Fusion, seperti wrangler dan pratinjau. Layanan tersebut berjalan di project tenant, tempat akses ke data dikontrol oleh peran Agen Layanan Cloud Data Fusion yang dikelola Google. Kemudian, Anda menjalankan pipeline di project pelanggan sehingga menggunakan cluster Dataproc Anda. Dalam project pelanggan, akun layanan Compute Engine default mengendalikan akses ke data. Anda dapat mengonfigurasi project untuk menggunakan akun layanan kustom.

Untuk informasi selengkapnya tentang cara mengonfigurasi akun layanan, lihat Akun layanan Cloud Data Fusion.

Lingkungan desain

Saat Anda membuat instance Cloud Data Fusion di project pelanggan, Cloud Data Fusion akan otomatis membuat project tenant terpisah yang dikelola Google untuk menjalankan layanan yang diperlukan guna mengelola siklus proses pipeline dan metadata, UI Cloud Data Fusion, serta alat waktu desain seperti Pratinjau dan Wrangler.

Resolusi DNS di Cloud Data Fusion

Untuk me-resolve nama domain di lingkungan waktu desain saat Anda menangani dan melihat pratinjau data yang ditransfer ke Google Cloud, gunakan DNS Peering (tersedia mulai Cloud Data Fusion 6.7.0). Dengan demikian, Anda dapat menggunakan nama domain atau nama host untuk sumber dan sink, yang tidak perlu dikonfigurasi ulang sesering alamat IP.

Resolusi DNS direkomendasikan di lingkungan waktu desain di Cloud Data Fusion, saat Anda menguji koneksi dan melihat pratinjau pipeline yang menggunakan nama domain server lokal atau server lainnya (seperti database atau server FTP), di jaringan VPC pribadi.

Untuk mengetahui informasi selengkapnya, lihat Peering DNS dan Penerusan Cloud DNS.

Lingkungan eksekusi

Setelah memverifikasi dan men-deploy pipeline dalam instance, Anda dapat mengeksekusi pipeline secara manual, atau pipeline akan dieksekusi sesuai jadwal waktu atau pemicu status pipeline.

Baik lingkungan eksekusi disediakan dan dikelola oleh Cloud Data Fusion atau pelanggan, lingkungan tersebut ada di project pelanggan Anda.

Instance publik (default)

Cara termudah untuk menyediakan instance Cloud Data Fusion adalah dengan membuat instance publik. Fungsi ini berfungsi dengan baik sebagai titik awal dan memberikan akses ke endpoint eksternal di internet publik.

Instance publik di Cloud Data Fusion menggunakan jaringan VPC default di project Anda.

Jaringan VPC default memiliki hal berikut:

  • Subnet yang dibuat otomatis untuk setiap region
  • Tabel perutean
  • Aturan firewall untuk memastikan komunikasi di antara resource komputasi Anda

Jaringan di seluruh region

Saat Anda membuat project baru, manfaat jaringan VPC default adalah jaringan tersebut otomatis mengisi satu subnet per region menggunakan rentang alamat IP yang telah ditentukan, yang dinyatakan sebagai blok CIDR. Rentang alamat IP dimulai dengan 10.128.0.0/20, 10.132.0.0/20, di seluruh region global Google Cloud.

Untuk memastikan bahwa resource komputasi Anda terhubung satu sama lain di seluruh region, jaringan VPC default menetapkan rute lokal default ke setiap subnet. Dengan menyiapkan rute default ke internet (0.0.0.0/0), Anda akan mendapatkan akses ke internet dan menangkap traffic jaringan yang tidak dirutekan.

Aturan firewall

Jaringan VPC default menyediakan kumpulan aturan firewall:

Default Deskripsi
Izinkan icmp secara default Mengaktifkan protokol icmp untuk sumber 0.0.0.0/0
Default allow internal Aktifkan tcp:0-65535; udp:0-65535; icmp untuk sumber 10.128.0.0/9, yang mencakup alamat IP min 10.128.0.1 hingga maks 10.255.255.254
Izinkan rdp secara default Mengaktifkan tcp:3389 untuk sumber 0.0.0.0/0
Izinkan ssh secara default Mengaktifkan tcp:22 untuk sumber 0.0.0.0/0

Setelan jaringan VPC default ini meminimalkan prasyarat untuk menyiapkan layanan cloud, termasuk Cloud Data Fusion. Karena kekhawatiran tentang keamanan jaringan, organisasi sering kali tidak mengizinkan Anda menggunakan jaringan VPC default untuk operasi bisnis. Tanpa jaringan VPC default, Anda tidak dapat membuat instance publik Cloud Data Fusion. Sebagai gantinya, buat instance pribadi.

Jaringan VPC default tidak memberikan akses terbuka ke resource. Sebagai gantinya, Identity and Access Management (IAM) mengontrol akses:

  • Identitas yang divalidasi diperlukan untuk login ke Google Cloud.
  • Setelah login, Anda memerlukan izin eksplisit (misalnya, peran Viewer) untuk melihat layanan Google Cloud.

Instance pribadi

Beberapa organisasi mewajibkan semua sistem produksi mereka diisolasi dari alamat IP publik. Instance pribadi Cloud Data Fusion memenuhi persyaratan tersebut di semua jenis setelan jaringan VPC.

Private Service Connect di Cloud Data Fusion

Instance Cloud Data Fusion mungkin perlu terhubung ke resource yang berada di infrastruktur lokal, Google Cloud, atau penyedia cloud lainnya. Saat menggunakan Cloud Data Fusion dengan alamat IP internal, koneksi ke resource eksternal akan dibuat melalui jaringan VPC di project Google Cloud Anda. Traffic melalui jaringan tidak melalui internet publik. Saat Cloud Data Fusion diberi akses ke VPC Anda menggunakan peering jaringan VPC, ada batasan, yang menjadi jelas saat Anda menggunakan jaringan berskala besar.

Dengan antarmuka Private Service Connect, Cloud Data Fusion terhubung ke VPC Anda tanpa menggunakan peering jaringan VPC. Antarmuka Private Service Connect adalah jenis Private Service Connect yang menyediakan cara bagi Cloud Data Fusion untuk memulai koneksi pribadi dan aman ke jaringan VPC konsumen. Hal ini tidak hanya memberikan fleksibilitas dan kemudahan akses (seperti peering jaringan VPC), tetapi juga memberikan otorisasi eksplisit dan kontrol sisi konsumen yang ditawarkan oleh Private Service Connect. Untuk mengetahui informasi selengkapnya, lihat Membuat instance pribadi dengan Private Service Connect.

Akses ke data di lingkungan desain dan eksekusi

Dalam instance publik, komunikasi jaringan terjadi melalui internet terbuka, yang tidak direkomendasikan untuk lingkungan penting. Untuk mengakses sumber data dengan aman, selalu jalankan pipeline dari instance pribadi di lingkungan eksekusi Anda.

Akses ke sumber

Saat mengakses sumber data, instance publik dan pribadi:

  • melakukan panggilan keluar ke Google Cloud API menggunakan Akses Google Pribadi
  • berkomunikasi dengan lingkungan eksekusi (Dataproc) melalui peering VPC

Tabel berikut membandingkan instance publik dan pribadi selama desain dan eksekusi untuk berbagai sumber data:

Sumber data Instance Cloud Data Fusion publik
(waktu desain)
Cloud Data Fusion Public Dataproc
(eksekusi)
Instance Cloud Data Fusion pribadi
(waktu desain)
Dataproc Cloud Data Fusion Pribadi
(eksekusi)
Sumber Google Cloud
(setelah Anda memberikan izin dan menetapkan aturan firewall)
Sumber lokal
(setelah Anda menyiapkan VPN/Interconnect, memberikan izin, dan menetapkan aturan firewall)
Sumber internet publik
(setelah Anda memberikan izin dan menetapkan aturan firewall)

Langkah selanjutnya