Mengekstrak data dari kolom

Halaman ini menjelaskan cara mengekstrak dan mengubah data dari kolom (sel) saat Anda menyiapkan data di ruang kerja Wrangler di Cloud Data Fusion Studio.

Untuk melakukan transformasi pada data ini, Anda harus membaginya menjadi kolom terpisah. Di Wrangler, Anda dapat mengekstrak data dari kolom dan membuat kolom baru untuk data yang diekstrak. Anda dapat mengekstrak nilai berdasarkan pola, pemisah, atau posisi.

Mengekstrak data menggunakan pola

Anda dapat mengekstrak data dari kolom jenis data string dengan pola berikut:

  • Kartu kredit
  • Tanggal
  • Tanggal waktu
  • Email
  • URL dari anchor HTML
  • Alamat IPv4
  • Kode ISBN
  • Alamat MAC
  • Angka N digit
  • SSN
  • Pola Mulai dan Akhir
  • Waktu

Untuk mengekstrak data berdasarkan pola, ikuti langkah-langkah berikut:

  1. Buka ruang kerja Wrangler di Cloud Data Fusion.
  2. Di tab Data, buka nama kolom, lalu klik panah peluas arrow_drop_down.
  3. Pilih Ekstrak kolom > Menggunakan pola, lalu pilih opsi—misalnya, URL.
  4. Opsional: klik Tampilkan pola untuk melihat ekspresi reguler untuk pola.
  5. Klik Ekstrak.

Wrangler mengekstrak kolom berdasarkan pola yang dipilih dan menambahkan perintah extract-regex-groups ke resep. Saat Anda menjalankan pipeline data, Cloud Data Fusion akan menerapkan transformasi ke semua baris dalam kolom.

Dalam contoh berikut, kolom berisi angka, diikuti dengan alamat email:

Email
1 222laraswidodo@gmail.com
2 cloudysanfrancisco@gmail.com

Untuk mengekstrak alamat email, pilih pola Email. Saat Anda mengklik Extract, Wrangler akan mempertahankan kolom asli dan membuat kolom baru yang hanya berisi alamat email:

Email Emails_1
1 222laraswidodo@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

Mengekstrak data dengan pemisah

Anda dapat mengekstrak data ke dalam dua kolom atau lebih berdasarkan pemisah berikut:

  • Koma
  • Tab
  • Pipe
  • Spasi Kosong
  • Pemisah kustom

Jika nilai tidak memiliki pemisah, tidak ada nilai yang ditambahkan ke kolom yang sesuai di kolom baru.

Untuk mengekstrak nilai berdasarkan pemisah:

  1. Buka ruang kerja Wrangler di Cloud Data Fusion.
  2. Di tab Data, buka nama kolom, lalu klik panah peluas arrow_drop_down.
  3. Pilih Ekstrak kolom > Menggunakan pemisah, lalu pilih opsi—misalnya, Titik koma.
  4. Klik Ekstrak.

Wrangler mengekstrak kolom berdasarkan pemisah yang dipilih dan menambahkan perintah split-to-columns ke resep. Saat Anda menjalankan pipeline data, Cloud Data Fusion akan mengubah semua nilai dalam kolom.

Dalam contoh berikut, kolom berisi beberapa nama yang dipisahkan oleh koma:

ID Nama
1 Lee,Lucian,Luka
2 Mahan,Noam,Nur

Dalam contoh ini, menggunakan pola pemisah koma mengekstrak nilai di kolom Name asli menjadi tiga kolom baru:

ID Nama Name_1 Name_2 Name_3
1 Lee,Lucian,Luka Lee Lucian Luka
2 Mahan,Noam,Nur Mahan Noam Nur

Mengekstrak data berdasarkan posisi

Anda dapat mengekstrak bagian string berdasarkan posisinya dalam string.

Untuk mengekstrak data berdasarkan posisinya:

  1. Buka ruang kerja Wrangler di Cloud Data Fusion.
  2. Di tab Data, buka nama kolom, lalu klik panah peluas arrow_drop_down.
  3. Pilih Ekstrak kolom > Menggunakan posisi. Nilai kolom yang dapat Anda ekstrak akan muncul dengan latar belakang biru.
  4. Di sel mana pun dalam kolom, pilih karakter yang akan diekstrak.
  5. Di kolom Nama kolom tujuan, masukkan nama.
  6. Klik Apply.

Bagian nilai yang dipilih diekstrak dari setiap baris dalam kolom.

Wrangler mengekstrak kolom berdasarkan pola yang dipilih dan menambahkan perintah cut-character ke resep. Saat Anda menjalankan pipeline data, Cloud Data Fusion akan menerapkan transformasi ke semua nilai dalam kolom.

Langkah selanjutnya