Mengekstrak data dari kolom

Halaman ini menjelaskan cara mengekstrak dan mengubah data dari suatu {i>field<i} (sel) saat Anda menyiapkan data di ruang kerja Wrangler Cloud Data Fusion Studio.

Untuk melakukan transformasi pada data ini, Anda harus membaginya menjadi seperti baris dan kolom. Di Wrangler, Anda bisa mengekstrak data dari kolom dan membuat kolom untuk data yang diekstrak. Anda dapat mengekstrak nilai berdasarkan pola, pembatas, atau posisi.

Mengekstrak data menggunakan pola

Anda bisa mengekstrak data dari {i>field<i} dalam kolom tipe data {i>string<i} dengan pola berikut ini:

  • Kartu kredit
  • Tanggal
  • Tanggal waktu
  • Email
  • URL dari anchor HTML
  • Alamat IPv4
  • Kode ISBN
  • Alamat Mac
  • Nomor N digit
  • SSN
  • Pola Mulai dan Akhir
  • Waktu

Untuk mengekstrak data berdasarkan pola, ikuti langkah-langkah berikut:

  1. Buka ruang kerja Wrangler di Cloud Data Fusion.
  2. Pada tab Data, buka nama kolom, lalu klik arrow_drop_down panah peluas.
  3. Pilih Ekstrak kolom &gt; Menggunakan pola dan pilih —misalnya, URL.
  4. Opsional: klik Tampilkan pola untuk melihat ekspresi reguler untuk pola.
  5. Klik Ekstrak.

Wrangler mengekstrak {i>field<i} berdasarkan pola yang dipilih dan menambahkan atribut Perintah extract-regex-groups ke resep. Saat Anda menjalankan pipeline data, Cloud Data Fusion menerapkan transformasi ke semua baris dalam kolom.

Pada contoh berikut, kolom berisi angka, diikuti dengan alamat email:

Email
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Untuk mengekstrak alamat email, pilih pola Email. Saat Anda mengklik Ekstrak, Wrangler akan mempertahankan kolom asli dan membuat kolom baru hanya berisi alamat email:

Email Emails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

Mengekstrak data dengan pembatas

Anda dapat mengekstrak data ke dalam dua kolom atau lebih berdasarkan hal berikut {i>delimiters<i}:

  • Koma
  • Tab
  • Pipe
  • Spasi Putih
  • Pemisah kustom

Jika nilai tidak memiliki pembatas, tidak ada nilai yang ditambahkan ke kolom yang sesuai di kolom baru.

Untuk mengekstrak nilai berdasarkan pembatas:

  1. Buka ruang kerja Wrangler di Cloud Data Fusion.
  2. Pada tab Data, buka nama kolom, lalu klik arrow_drop_down panah peluas.
  3. Pilih Ekstrak kolom &gt; Menggunakan pembatas, lalu pilih —misalnya, Comma.
  4. Klik Ekstrak.

Wrangler mengekstrak {i>field<i} berdasarkan {i>delimiter<i} yang dipilih dan menambahkan Perintah split-to-columns ke resep. Saat Anda menjalankan pipeline data, Cloud Data Fusion mentransformasi semua nilai dalam kolom.

Pada contoh berikut, kolom berisi beberapa nama yang dipisahkan oleh koma:

ID Nama
1 Lee,Lusia,Luka
2 Mahan,Noam,Nur

Dalam contoh ini, menggunakan pola pembatas koma mengekstrak nilai kolom Name asli menjadi tiga kolom baru:

ID Nama Name_1 Name_2 Name_3
1 Lee,Lusia,Luka Lee Lusia Luka
2 Mahan,Noam,Nur Mahan Noam Nur

Mengekstrak data berdasarkan posisi

Anda dapat mengekstrak bagian string berdasarkan posisinya dalam string.

Untuk mengekstrak data berdasarkan posisinya:

  1. Buka ruang kerja Wrangler di Cloud Data Fusion.
  2. Pada tab Data, buka nama kolom, lalu klik arrow_drop_down panah peluas.
  3. Pilih Ekstrak kolom &gt; Menggunakan posisi. Nilai kolom yang dapat Anda ekstrak muncul dengan latar belakang biru.
  4. Di sel kolom mana pun, pilih karakter yang akan diekstrak.
  5. Di kolom Nama kolom tujuan, masukkan nama.
  6. Klik Terapkan.

Bagian nilai yang dipilih diekstrak dari setiap baris dalam kolom.

Wrangler mengekstrak {i>field<i} berdasarkan pola yang dipilih dan menambahkan atribut Perintah cut-character ke resep. Saat Anda menjalankan pipeline data, Cloud Data Fusion menerapkan transformasi ke semua nilai di kolom.

Langkah selanjutnya