FAQ Dataproc

Umum

Apa itu Dataproc?

Dataproc adalah layanan yang cepat, mudah digunakan, murah, dan terkelola sepenuhnya, yang dapat digunakan untuk menjalankan ekosistem Apache Spark dan Apache Hadoop di Google Cloud Platform. Dataproc menyediakan cluster besar atau kecil dengan cepat, mendukung banyak jenis tugas populer, dan terintegrasi dengan layanan Google Cloud Platform lainnya, seperti Cloud Storage dan Cloud Logging, sehingga membantu Anda mengurangi TCO.

Apa perbedaan Dataproc dengan cluster Hadoop tradisional?

Dataproc adalah layanan Spark/Hadoop terkelola yang dimaksudkan untuk membuat Spark dan Hadoop menjadi mudah, cepat, dan andal. Dalam deployment Hadoop tradisional, meskipun berbasis cloud, Anda harus menginstal, mengonfigurasi, mengelola, dan mengorkestrasi pekerjaan pada cluster. Sebaliknya, Dataproc menangani pembuatan, pengelolaan, pemantauan, dan orkestrasi tugas cluster untuk Anda.

Bagaimana cara menggunakan Dataproc?

Ada beberapa cara untuk menggunakan cluster Dataproc, bergantung pada kebutuhan dan kemampuan Anda. Anda dapat menggunakan Google Cloud Console berbasis browser untuk berinteraksi dengan Dataproc. Atau, karena Dataproc terintegrasi dengan Google Cloud CLI, Anda dapat menggunakan Google Cloud CLI. Untuk akses terprogram ke cluster, gunakan Dataproc REST API. Anda juga dapat membuat koneksi SSH ke node master atau pekerja di cluster Anda.

Bagaimana cara kerja Dataproc?

Dataproc adalah framework terkelola yang berjalan di Google Cloud Platform dan menyatukan beberapa alat populer untuk memproses data, termasuk Apache Hadoop,Spark, Hive, dan Pig. Dataproc memiliki serangkaian mekanisme kontrol dan integrasi yang mengoordinasikan siklus proses, pengelolaan, dan koordinasi cluster. Dataproc terintegrasi dengan pengelola aplikasi YARN untuk mempermudah pengelolaan dan penggunaan cluster Anda.

Jenis pekerjaan apa yang bisa saya jalankan?

Dataproc menyediakan dukungan siap pakai dan menyeluruh untuk berbagai jenis tugas paling populer, termasuk tugas Spark, Spark SQL, PySpark, MapReduce, Hive, dan Pig.

Apa Cluster Manager yang digunakan Dataproc dengan Spark?

Dataproc menjalankan Spark di YARN.

Seberapa sering komponen di Dataproc diperbarui?

Dataproc diperbarui saat rilis utama terjadi dalam komponen yang mendasarinya (Hadoop, Spark, Hive, Pig). Setiap rilis Dataproc utama mendukung versi spesifik setiap komponen (lihat Versi Dataproc yang didukung).

Apakah Dataproc terintegrasi dengan produk Google Cloud Platform lainnya?

Ya, Dataproc memiliki integrasi native dan otomatis dengan Compute Engine, Cloud Storage, Bigtable, BigQuery, Logging, dan Cloud Monitoring. Selain itu, Dataproc terintegrasi ke dalam alat yang dapat berinteraksi dengan Cloud Platform termasuk gcloud CLI dan Google Cloud Console.

Dapatkah saya menjalankan cluster persisten?

Setelah dimulai, cluster Dataproc akan terus berjalan hingga dimatikan. Anda dapat menjalankan cluster Dataproc selama yang Anda perlukan.

Pengelolaan cluster

Dapatkah saya menjalankan lebih dari satu cluster sekaligus?

Ya, Anda dapat menjalankan lebih dari satu cluster Dataproc per project secara bersamaan. Secara default, semua project tunduk pada kuota resource Google Cloud. Anda dapat dengan mudah memeriksa penggunaan kuota dan meminta peningkatan kuota. Untuk mengetahui informasi selengkapnya, lihat Kuota resource Dataproc.

Bagaimana cara membuat atau menghancurkan cluster?

Anda dapat membuat dan menghancurkan cluster dengan beberapa cara. Bagian Dataproc di Google Cloud Console memudahkan pengelolaan cluster dari browser Anda. Cluster juga dapat dikelola melalui command line melalui gcloud CLI. Untuk kasus penggunaan yang lebih kompleks atau lanjutan, REST API Cloud Dataproc dapat digunakan untuk mengelola cluster secara terprogram.

Dapatkah saya menerapkan setelan yang disesuaikan saat membuat cluster?

Dataproc mendukung tindakan inisialisasi yang dijalankan saat cluster dibuat. Tindakan inisialisasi ini dapat berupa skrip atau file yang dapat dieksekusi yang akan dijalankan Dataproc saat menyediakan cluster Anda untuk menyesuaikan setelan, menginstal aplikasi, atau membuat modifikasi lainnya pada cluster Anda.

Bagaimana cara mengukur cluster sesuai kebutuhan saya?

Keputusan ukuran cluster dipengaruhi oleh beberapa faktor, termasuk jenis pekerjaan yang akan dilakukan, batasan biaya, persyaratan kecepatan, dan kuota resource Anda. Karena Dataproc dapat di-deploy pada berbagai jenis mesin, Anda memiliki fleksibilitas untuk memilih resource yang diperlukan kapan pun Anda membutuhkannya.

Dapatkah saya mengubah ukuran cluster?

Ya, Anda dapat mengubah ukuran cluster dengan mudah, bahkan selama pemrosesan tugas. Anda dapat mengubah ukuran cluster melalui Google Cloud Console atau melalui command line. Pengubahan ukuran dapat menambah atau mengurangi jumlah pekerja dalam cluster. Pekerja yang ditambahkan ke cluster akan memiliki jenis dan ukuran yang sama dengan pekerja yang ada. Pengubahan ukuran cluster dapat diterima dan didukung kecuali dalam kasus khusus, seperti mengurangi jumlah pekerja menjadi satu atau mengurangi kapasitas HDFS di bawah jumlah yang dibutuhkan untuk penyelesaian tugas.

Pengelolaan tugas dan alur kerja

Bagaimana cara mengirimkan pekerjaan di cluster saya?

Ada beberapa cara untuk mengirimkan tugas di cluster Dataproc. Cara termudah adalah menggunakan halaman Submit a job di konsol Google Cloud atau perintah gcloud dataproc jobs submit gcloud CLI. Untuk pengiriman tugas terprogram, lihat referensi Dataproc API.

Dapatkah saya menjalankan lebih dari satu tugas sekaligus?

Ya, Anda dapat menjalankan lebih dari satu tugas sekaligus di cluster Dataproc. Cloud Dataproc menggunakan resource manager (YARN) dan konfigurasi khusus aplikasi, seperti penskalaan dengan Spark, untuk mengoptimalkan penggunaan resource di cluster. Performa tugas akan diskalakan sesuai dengan ukuran cluster dan jumlah tugas aktif.

Dapatkah saya membatalkan tugas di cluster saya?

Tentu saja. Tugas dapat dibatalkan melalui antarmuka web Google Cloud Console atau command line. Dataproc menggunakan pembatalan aplikasi YARN untuk menghentikan tugas atas permintaan.

Dapatkah saya mengotomatiskan tugas di cluster saya?

Tugas dapat diotomatiskan agar dapat dijalankan di cluster melalui beberapa mekanisme. Anda dapat menggunakan gcloud CLI Google Cloud CLI atau Dataproc REST API untuk mengotomatiskan pengelolaan serta alur kerja cluster dan tugas.

Pengembangan

Bahasa pengembangan apa yang didukung?

Anda dapat menggunakan bahasa yang didukung oleh ekosistem Spark/Hadoop, termasuk Java, Scala, Python, dan R.

Apakah Dataproc memiliki API?

Ya, Dataproc memiliki sekumpulan API RESTful yang memungkinkan Anda berinteraksi secara terprogram dengan cluster dan tugas.

Bisakah saya menerapkan SSH ke dalam cluster?

Ya, Anda dapat menerapkan SSH ke setiap mesin (node master atau pekerja) dalam cluster. Anda dapat menjalankan SSH dari {i>browser<i} atau dari baris perintah.

Dapatkah saya mengakses UI Web Spark/Hadoop?

Ya, UI Hadoop dan Spark (UI Spark, Hadoop, YARN) dapat diakses di dalam sebuah cluster. Sebaiknya gunakan tunnel SSH daripada membuka port untuk UI, yang akan meneruskan traffic dengan aman dari cluster melalui koneksi SSH.

Dapatkah saya menginstal atau mengelola software di cluster saya?

Ya, sama seperti server atau cluster Hadoop, Anda dapat menginstal dan mengelola software di cluster Dataproc.

Apa faktor replikasi default?

Karena pertimbangan performa serta keandalan penyimpanan yang tinggi yang disertakan pada cluster Dataproc, faktor replikasi default ditetapkan pada 2.

Sistem operasi (OS) apa yang digunakan untuk Dataproc?

Dataproc didasarkan pada Debian dan Ubuntu. Image terbaru didasarkan pada Debian 10 Buster dan Ubuntu 18.04 LTS.

Di mana saya dapat mempelajari streaming Hadoop?

Anda dapat meninjau dokumentasi project Apache.

Bagaimana cara menginstal perintah gcloud dataproc?

Saat Anda menginstal gcloud CLI, alat command line gcloud standar akan diinstal, termasuk perintah gcloud dataproc.

Akses & ketersediaan data

Bagaimana cara memasukkan data ke dan keluar dari cluster?

Dataproc menggunakan Hadoop Distributed File System (HDFS) untuk penyimpanan. Selain itu, Dataproc menginstal konektor Google Cloud Storage yang kompatibel dengan HDFS secara otomatis, sehingga memungkinkan penggunaan Cloud Storage secara paralel dengan HDFS. Data dapat dipindahkan ke dalam dan ke luar cluster melalui upload/download ke HDFS atau Cloud Storage.

Dapatkah saya menggunakan Cloud Storage dengan Dataproc?

Ya, cluster Dataproc akan otomatis menginstal konektor Cloud Storage. Ada sejumlah manfaat memilih Cloud Storage daripada HDFS tradisional, termasuk persistensi, keandalan, dan performa data.

Bisakah saya mendapatkan dukungan Cloud Storage Connector?

Ya, jika digunakan dengan Dataproc, konektor Cloud Storage didukung pada tingkat yang sama seperti Dataproc (lihat Mendapatkan dukungan). Semua pengguna konektor dapat menggunakan tag google-cloud-dataproc di Stack Overflow untuk mengetahui pertanyaan dan jawaban konektor.

Berapa ukuran file yang ideal untuk set data di HDFS dan Cloud Storage?

Untuk meningkatkan performa, simpan data dalam ukuran file yang lebih besar, misalnya, ukuran file dalam rentang 256 MB–512 MB.

Seberapa andal Dataproc?

Karena di-build menggunakan teknologi Google Cloud Platform yang andal dan terbukti, termasuk Compute Engine, Cloud Storage, dan Monitoring, Dataproc dirancang untuk memberikan ketersediaan dan keandalan yang tinggi. Sebagai produk yang tersedia secara umum, Anda dapat meninjau SLA Dataproc.

Apa yang terjadi pada data saya saat cluster dimatikan?

Semua data di Cloud Storage akan tetap ada setelah cluster Anda dinonaktifkan. Ini adalah salah satu alasan untuk memilih Cloud Storage daripada HDFS karena data HDFS akan dihapus saat cluster dinonaktifkan (kecuali jika ditransfer ke lokasi persisten sebelum penonaktifan).

Logging, pemantauan, dan proses debug

Jenis logging dan pemantauan apa yang tersedia?

Secara default, cluster Dataproc terintegrasi dengan Monitoring dan Logging. Monitoring dan Logging memudahkan Anda mendapatkan informasi mendetail tentang kondisi, performa, dan status cluster Dataproc Anda. Log aplikasi (YARN, Spark, dll.) dan log sistem diteruskan ke Logging.

Bagaimana cara melihat log dari Dataproc?

Anda dapat melihat log dari Dataproc dengan beberapa cara. Anda dapat membuka Logging untuk melihat log cluster gabungan di browser web. Selain itu, Anda dapat menggunakan command line (SSH) untuk melihat log atau memantau output aplikasi secara manual. Terakhir, detail juga tersedia melalui UI web aplikasi Hadoop, seperti antarmuka web YARN.

Bagaimana cluster dapat dipantau?

Cluster dapat dengan mudah dipantau melalui Monitoring atau bagian Cloud Dataproc di Google Cloud Console. Anda juga dapat memantau cluster melalui akses command line (SSH) atau antarmuka web aplikasi (Spark, YARN, dll.).

Keamanan & akses

Bagaimana cara pengamanan data saya?

Google Cloud Platform menggunakan model keamanan yang kaya, yang juga berlaku untuk Cloud Dataproc. Dataproc menyediakan mekanisme autentikasi, otorisasi, dan enkripsi, seperti SSL, untuk mengamankan data. Data dapat dienkripsi pengguna saat dalam pengiriman ke dan dari cluster, setelah pembuatan cluster atau pengiriman tugas.

Bagaimana cara mengontrol akses ke cluster Dataproc saya?

Google Cloud Platform menawarkan mekanisme autentikasi, yang dapat digunakan dengan Dataproc. Akses ke cluster dan tugas Dataproc dapat diberikan kepada pengguna di level project.

Penagihan

Bagaimana cara Dataproc ditagih?

Dataproc ditagih per detik, dan didasarkan pada ukuran cluster serta lama waktu operasional cluster. Dalam menghitung komponen cluster biaya, Dataproc mengenakan biaya tetap berdasarkan jumlah CPU virtual (vCPU) dalam cluster. Biaya tetap ini sama, terlepas dari jenis mesin atau ukuran resource Compute Engine yang digunakan.

Apakah saya dikenai biaya untuk resource Google Cloud lainnya?

Ya, menjalankan cluster Dataproc akan dikenakan biaya untuk resource Google Cloud lain yang digunakan di cluster, seperti Compute Engine dan Cloud Storage. Setiap item dinyatakan secara terpisah dalam tagihan, sehingga Anda tahu persis bagaimana biaya dihitung dan dialokasikan.

Apakah ada waktu minimum atau maksimum untuk penagihan?

Tagihan Google Cloud dihitung per detik, bukan jam. Saat ini, Compute Engine memiliki kenaikan penagihan minimum 1 menit. Oleh karena itu, Dataproc juga memiliki kenaikan penagihan minimum 1 menit.

Ketersediaan

Siapa yang dapat membuat cluster Dataproc?

Dataproc tersedia secara umum, sehingga semua pelanggan Google Cloud Platform dapat menggunakannya.

Di region mana Dataproc tersedia?

Dataproc tersedia di semua region dan zona platform Google Cloud.