Pendaftaran untuk ujian beta Professional Data Engineer yang baru dibuka pada 19 September. Kandidat ujian beta sebaiknya membaca panduan ujian beta.

Professional Data Engineer

Panduan ujian sertifikasi GA saat ini

Professional Data Engineer mengambil keputusan berdasarkan data dengan mengumpulkan, mentransformasi, dan memublikasikan data. Seorang data engineer harus dapat mendesain, membangun, mengoperasionalkan, mengamankan, dan memantau sistem pemrosesan data yang terutama menekankan pada keamanan dan kepatuhan; skalabilitas dan efisiensi; keandalan dan fidelitas; serta fleksibilitas dan portabilitas. Seorang data engineer juga harus dapat memanfaatkan, men-deploy, dan terus melatih model machine learning yang sudah ada.

Ujian beta Professional Data Engineer yang baru akan segera hadir. Kandidat ujian beta sebaiknya membaca panduan ujian beta.

Yang baru:

Ujian Professional Data Engineer versi beta mendatang menunjukkan pembaruan pada penyimpanan data, berbagi data, dan tata kelola data Google Cloud. Ujian baru ini tidak terlalu berfokus pada mengoperasionalkan model machine learning dan kini lebih berfokus pada peran data engineer dalam menjadikan data dapat digunakan dan memiliki nilai.


Bagian 1: Mendesain sistem pemrosesan data

1.1 Memilih teknologi penyimpanan yang tepat. Pertimbangannya meliputi:

    ●  Memetakan sistem penyimpanan sesuai dengan kebutuhan bisnis

    ●  Pembuatan model data

    ●  Kompromi mencakup latensi, throughput, dan transaksi

    ●  Sistem terdistribusi

    ●  Desain skema

1.2 Mendesain pipeline data. Pertimbangannya meliputi:

    ●  Publikasi dan visualisasi data (misalnya BigQuery)

    ●  Data batch dan streaming (misalnya ekosistem Dataflow, Dataproc, Apache Beam, Apache Spark, dan Hadoop, Pub/Sub, Apache Kafka)

    ●  Prediksi online (interaktif) vs. prediksi batch

    ●  Otomatisasi dan orkestrasi tugas (misalnya Cloud Composer)

1.3 Mendesain solusi pemrosesan data. Pertimbangannya meliputi:

    ●  Pilihan infrastruktur

    ●  Ketersediaan sistem dan fault tolerance

    ●  Penggunaan sistem terdistribusi

    ●  Perencanaan kapasitas

    ●  Hybrid cloud dan edge computing

    ●  Opsi arsitektur (misalnya perantara pesan, antrean pesan, middleware, arsitektur berorientasi layanan, fungsi serverless)

    ●  Minimal sekali, sesuai urutan, dan tepat satu kali, dsb., pemrosesan peristiwa

1.4 Memigrasikan data warehousing dan pemrosesan data. Pertimbangannya meliputi:

    ●  Pengetahuan tentang kondisi saat ini dan cara memigrasikan desain ke kondisi terbaru

    ●  Melakukan migrasi dari infrastruktur lokal ke cloud (Data Transfer Service, Transfer Appliance, Cloud Networking)

    ●  Memvalidasi migrasi

Bagian 2: Membangun dan mengoperasionalkan sistem pemrosesan data

2.1 Membangun dan mengoperasionalkan sistem penyimpanan. Pertimbangannya meliputi:

    ●  Penggunaan layanan terkelola secara efektif (Cloud Bigtable, Cloud Spanner, Cloud SQL, BigQuery, Cloud Storage, Datastore, Memorystore)

    ●  Biaya dan performa penyimpanan

    ●  Pengelolaan siklus proses data

2.2 Membangun dan mengoperasionalkan pipeline. Pertimbangannya meliputi:

    ●  Pembersihan data

    ●  Batch dan streaming

    ●  Transformasi

    ●  Akuisisi dan impor data

    ●  Integrasi dengan sumber data yang baru

2.3 Membangun dan mengoperasionalkan infrastruktur pemrosesan. Pertimbangannya meliputi:

    ●  Penyediaan resource

    ●  Pemantauan pipeline

    ●  Penyesuaian pipeline

    ●  Pengujian dan kendali mutu

Bagian 3: Mengoperasionalkan model machine learning

3.1 Memanfaatkan model ML siap pakai sebagai layanan. Pertimbangannya meliputi:

    ●  API ML (misalnya Vision API, Speech API)

    ●  Menyesuaikan API ML (misalnya AutoML Vision, teks Auto ML)

    ●  Pengalaman percakapan (misalnya Dialogflow)

3.2 Men-deploy pipeline ML. Pertimbangannya meliputi:

    ●  Penyerapan data yang tepat

    ●  Pelatihan ulang model machine learning (Prediksi dan Pelatihan AI Platform, BigQuery ML, Kubeflow, Spark ML)

    ●  Evaluasi berkelanjutan

3.3 Memilih infrastruktur pelatihan dan layanan yang tepat. Pertimbangannya meliputi:

    ●  Mesin terdistribusi vs. mesin tunggal

    ●  Penggunaan edge computing

    ●  Akselerator hardware (misalnya GPU, TPU)

3.4 Mengukur, memantau, dan memecahkan masalah model machine learning. Pertimbangannya meliputi:

    ●  Terminologi machine learning (misalnya fitur, label, model, regresi, klasifikasi, rekomendasi, pembelajaran yang diawasi dan tidak diawasi, metrik evaluasi)

    ●  Dampak dependensi pada model machine learning

    ●  Sumber error yang umum (misalnya asumsi tentang data)

Bagian 4: Memastikan kualitas solusi

4.1 Mendesain untuk keamanan dan kepatuhan. Pertimbangannya meliputi:

    ●  Pengelolaan Akses dan Identitas (misalnya Cloud IAM)

    ●  Keamanan data (enkripsi, pengelolaan kunci)

    ●  Memastikan privasi (misalnya Data Loss Prevention API)

    ●  Kepatuhan hukum (misalnya Health Insurance Portability and Accountability Act (HIPAA), Children's Online Privacy Protection Act (COPPA), FedRAMP, General Data Protection Regulation (GDPR))

4.2 Memastikan skalabilitas dan efisiensi. Pertimbangannya meliputi:

    ●  Membuat dan menjalankan rangkaian tes

    ●  Pemantauan pipeline (misalnya Cloud Monitoring)

    ●  Menilai, memecahkan masalah, serta meningkatkan representasi data dan infrastruktur pemrosesan data

    ●  Mengubah ukuran dan menskalakan otomatis resource

4.3 Memastikan keandalan dan fidelitas. Pertimbangannya meliputi:

    ●  Menjalankan persiapan data dan kendali mutu (misalnya Dataprep)

    ●  Verifikasi dan pemantauan

    ●  Merencanakan, menjalankan, dan menguji daya tahan pemulihan data (fault tolerance, menjalankan kembali tugas yang gagal, menjalankan analisis ulang retrospektif)

    ●  Memilih antara ACID, idempoten, persyaratan dengan konsistensi tertunda

4.4 Memastikan fleksibilitas dan portabilitas. Pertimbangannya meliputi:

    ●  Memetakan sesuai dengan kebutuhan bisnis saat ini dan mendatang

    ●  Mendesain untuk portabilitas data dan aplikasi (misalnya multicloud, persyaratan residensi data)

    ●  Staging data, pembuatan katalog, dan penemuan