Sebuah set data adalah yang berisi sampel perwakilan dari jenis konten yang ingin Anda klasifikasikan, yang dilabeli dengan label kategori yang Anda inginkan untuk model kustom anda. Set data berfungsi sebagai input untuk melatih sebuah model.
Langkah-langkah utama untuk membangun set data adalah:
- Buat resource set data.
- Impor data pelatihan ke dalam set data.
- Beri label pada dokumen atau identifikasi entitas.
Untuk klasifikasi dan analisis sentimen, langkah 2 dan 3 sering kali digabungkan: Anda dapat mengimpor dokumen dengan labelnya yang sudah ditetapkan.
Membuat set data
Langkah pertama dalam membuat sebuah model kustom adalah dengan membuat set data kosong yang akan menyimpan data pelatihan untuk model tersebut. Set data yang baru dibuat tidak berisi data apa pun sampai Anda mengimpor dokumen ke dalamnya.
UI Web
Untuk membuat set data:
Buka AutoML Natural Language UI dan pilih Get started di kotak yang sesuai dengan jenis model yang ingin Anda latih.
Halaman Datasets akan muncul, yang menampilkan status set data yang dibuat sebelumnya untuk project saat ini.
Untuk menambahkan set data ke project lain, pilih project dari menu drop-down di kanan atas kolom judul.
Klik tombol Set Data Baru pada kolom judul.
Masukkan nama untuk set data dan tentukan Lokasi geografis untuk menyimpan set data.
Lihat Lokasi untuk informasi selengkapnya.
Pilih tujuan model Anda, yang menentukan jenis analisis yang akan dilakukan dengan model yang Anda latih menggunakan set data ini.
- Klasifikasi label tunggal menetapkan label tunggal ke setiap dokumen yang diklasifikasikan
- Klasifikasi multi-label memungkinkan dokumen diberi beberapa label
- Ekstraksi entity mengidentifikasi entity dalam dokumen
- Analisis sentimen menganalisis sikap dalam dokumen
Klik Create dataset.
Halaman Import untuk set data baru akan muncul. Lihat Mengimpor data ke set data.
Contoh kode
Classification
REST
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- project-id: project ID Anda
- location-id: lokasi untuk resource,
us-central1
untuk Lokasi global, ataueu
untuk Uni Eropa
Metode HTTP dan URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets
Meminta isi JSON:
{ "displayName": "test_dataset", "textClassificationDatasetMetadata": { "classificationType": "MULTICLASS" } }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ "name": "projects/434039606874/locations/us-central1/datasets/356587829854924648", "displayName": "test_dataset", "createTime": "2018-04-26T18:02:59.825060Z", "textClassificationDatasetMetadata": { "classificationType": "MULTICLASS" } }
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien lalu buka Dokumentasi referensi AutoML Natural Language untuk .NET.
PHP: Ikuti petunjuk penyiapan PHP di halaman library klien lalu buka Dokumentasi referensi AutoML Natural Language untuk PHP.
Ruby: Ikuti petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi AutoML Natural Language untuk Ruby.
Ekstraksi entity
REST
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- project-id: project ID Anda
- location-id: lokasi untuk resource,
us-central1
untuk Lokasi global, ataueu
untuk Uni Eropa
Metode HTTP dan URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets
Meminta isi JSON:
{ "displayName": "test_dataset", "textExtractionDatasetMetadata": { } }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ name: "projects/000000000000/locations/us-central1/datasets/TEN5582774688079151104" display_name: "test_dataset" create_time { seconds: 1539886451 nanos: 757650000 } text_extraction_dataset_metadata { } }
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien lalu buka Dokumentasi referensi AutoML Natural Language untuk .NET.
PHP: Ikuti petunjuk penyiapan PHP di halaman library klien lalu buka Dokumentasi referensi AutoML Natural Language untuk PHP.
Ruby: Ikuti petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi AutoML Natural Language untuk Ruby.
Analisis sentimen
REST
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- project-id: project ID Anda
- location-id: lokasi untuk resource,
us-central1
untuk Lokasi global, ataueu
untuk Uni Eropa
Metode HTTP dan URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets
Meminta isi JSON:
{ "displayName": "test_dataset", "textSentimentDatasetMetadata": { "sentimentMax": 4 } }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ name: "projects/000000000000/locations/us-central1/datasets/TST8962998974766436002" display_name: "test_dataset_name" create_time { seconds: 1538855662 nanos: 51542000 } text_sentiment_dataset_metadata { sentiment_max: 7 } }
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien lalu buka Dokumentasi referensi AutoML Natural Language untuk .NET.
PHP: Ikuti petunjuk penyiapan PHP di halaman library klien lalu buka Dokumentasi referensi AutoML Natural Language untuk PHP.
Ruby: Ikuti petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi AutoML Natural Language untuk Ruby.
Mengimpor data pelatihan ke dalam set data
Setelah membuat set data, Anda dapat mengimpor URI dan label dokumen untuk dokumen dari file CSV yang disimpan di bucket Cloud Storage. Untuk detail cara menyiapkan data dan membuat file CSV untuk diimpor, lihat Menyiapkan data pelatihan Anda.
Anda dapat mengimpor dokumen ke set data kosong atau mengimpor dokumen tambahan ke dalam set data yang ada.
UI Web
Untuk mengimpor dokumen ke dalam set data:
Pilih set data tempat Anda ingin mengimpor dokumen dari halaman Datasets.
Pada tab Import, tentukan tempat dokumen pelatihan dapat ditemukan.
Anda dapat:
Upload file .csv yang berisi dokumen pelatihan dan label kategori yang terkait dari komputer lokal Anda atau dari Cloud Storage.
Upload kumpulan file .txt, .pdf, .tif, atau .zip yang berisi dokumen pelatihan dari komputer lokal Anda.
Pilih file yang akan diimpor dan jalur Cloud Storage untuk dokumen yang diimpor.
Klik Import.
Contoh kode
REST
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- project-id: project ID Anda
- location-id: lokasi untuk resource,
us-central1
untuk Lokasi global, ataueu
untuk Uni Eropa - dataset-id: ID set data Anda
- bucket-name: bucket Cloud Storage Anda
- csv-file-name: file data pelatihan CSV Anda
Metode HTTP dan URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/location-id/datasets/dataset-id:importData
Meminta isi JSON:
{ "inputConfig": { "gcsSource": { "inputUris": ["gs://bucket-name/csv-file-name.csv"] } } }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat output yang serupa dengan berikut ini: Anda dapat menggunakan ID operasi untuk mendapatkan status tugas. Untuk contohnya, lihat Mendapatkan status operasi.
{ "name": "projects/434039606874/locations/us-central1/operations/1979469554520650937", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2018-04-27T01:28:36.128120Z", "updateTime": "2018-04-27T01:28:36.128150Z", "cancellable": true } }
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk AutoML Natural Language, lihat library klien AutoML Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go AutoML Natural Language.
Untuk mengautentikasi AutoML Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien lalu buka Dokumentasi referensi AutoML Natural Language untuk .NET.
PHP: Ikuti petunjuk penyiapan PHP di halaman library klien lalu buka Dokumentasi referensi AutoML Natural Language untuk PHP.
Ruby: Ikuti petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi AutoML Natural Language untuk Ruby.
Pelabelan dokumen pelatihan
Agar berguna untuk melatih model, setiap dokumen dalam set data perlu diberi label dengan cara yang Anda inginkan untuk memberikan label pada dokumen yang serupa oleh AutoML Natural Language. Kualitas data pelatihan Anda sangat memengaruhi efektivitas model yang Anda buat, termasuk juga kualitas prediksi yang ditampilkan dari model tersebut. AutoML Natural Language mengabaikan dokumen tidak berlabel selama pelatihan.
Anda dapat memberikan label untuk dokumen pelatihan dengan tiga cara:
- Sertakan label di file .csv Anda (hanya untuk klasifikasi dan analisis sentimen)
- Melabeli dokumen Anda di UI AutoML Natural Language
- Meminta pelabelan dari pemberi label manusia menggunakan Layanan Pelabelan Data AI Platform
AutoML API tidak menyertakan metode untuk pelabelan.
Untuk mengetahui detail tentang pelabelan dokumen dalam file .csv, lihat Mempersiapkan data pelatihan.
Pelabelan untuk klasifikasi dan analisis sentimen
Untuk memberi label pada dokumen di AutoML Natural Language UI, pilih set data dari halaman listingan set data untuk melihat detailnya. Nama tampilan set data yang dipilih akan muncul di kolom judul, dan halaman tersebut mencantumkan setiap dokumen dalam set data bersama dengan labelnya saat ini. Menu navigasi di sebelah kiri meringkas jumlah dokumen berlabel dan tidak berlabel, serta memungkinkan Anda memfilter daftar dokumen berdasarkan label atau nilai sentimen.
Untuk menetapkan label atau nilai sentimen ke dokumen yang tidak berlabel atau mengubah label dokumen, pilih dokumen yang ingin diperbarui dan label atau nilai yang ingin Anda tetapkan. Ada dua cara untuk memperbarui label dokumen:
Centang kotak di samping dokumen yang ingin Anda perbarui, lalu pilih label untuk diterapkan dari menu drop-down Label yang muncul di bagian atas daftar dokumen.
Klik baris dokumen yang ingin Anda perbarui, lalu pilih label atau nilai yang ingin diterapkan dari daftar yang muncul di halaman Detail teks.
Mengidentifikasi entity untuk ekstraksi entity
Sebelum melatih model kustom, Anda perlu menganotasi dokumen pelatihan dalam set data. Anda dapat menganotasi dokumen pelatihan sebelum mengimpornya, atau menambahkan anotasi di UI AutoML Natural Language.
Untuk memberi anotasi pada AutoML Natural Language UI, pilih set data dari halaman listingan set data untuk melihat detailnya. Nama tampilan set data yang dipilih akan muncul di kolom judul, dan halaman mencantumkan setiap dokumen dalam set data bersama dengan anotasi di dalamnya. Menu navigasi di sebelah kiri meringkas label dan frekuensi setiap label muncul. Anda juga dapat memfilter daftar dokumen berdasarkan label.
Untuk menambahkan atau menghapus anotasi dalam dokumen, klik dua kali dokumen yang ingin Anda perbarui. Halaman Edit menampilkan teks lengkap dari dokumen yang dipilih, dengan semua anotasi sebelumnya ditandai.
Untuk dokumen pelatihan PDF atau dokumen yang diimpor dengan informasi tata letak, halaman Edit memiliki dua tab: Teks biasa dan Teks terstruktur. Tab Teks biasa menampilkan konten mentah dokumen pelatihan tanpa pemformatan. Tab Teks terstruktur membuat ulang tata letak dasar dokumen pelatihan. (Tab Teks biasa juga memiliki link ke file PDF asli.)
Untuk menambahkan anotasi baru, tandai teks yang merepresentasikan entity, pilih label dari kotak dialog Annotate, lalu klik Save. Saat Anda menambahkan anotasi di tab Teks terstruktur, AutoML Natural Language akan mencatat posisi anotasi pada halaman sebagai faktor yang dipertimbangkan selama pelatihan.
Untuk menghapus anotasi, cari teks dalam daftar label di sebelah kanan lalu klik ikon tong sampah di sebelahnya.