Halaman ini diterjemahkan oleh Cloud Translation API.

Tutorial Klasifikasi Konten

Audiens

Tutorial ini dirancang untuk memungkinkan Anda secara cepat mulai menjelajahi dan mengembangkan aplikasi dengan Cloud Natural Language API. Tutorial ini dirancang untuk orang yang sudah memahami pemrograman dasar, meskipun tanpa banyak pengetahuan pemrograman, Anda seharusnya dapat mengikutinya. Setelah mempelajari tutorial ini, Anda akan dapat menggunakan Dokumentasi referensi untuk membuat aplikasi dasar Anda sendiri.

Tutorial ini membahas aplikasi Natural Language menggunakan kode Python. Tujuannya di sini bukan untuk menjelaskan library klien Python, tetapi untuk menjelaskan cara melakukan panggilan ke Natural Language API. Aplikasi di Java dan Node.js pada dasarnya serupa. Lihat Contoh Natural Language API untuk contoh dalam bahasa lain (termasuk contoh dalam tutorial ini).

Prasyarat

Tutorial ini memiliki beberapa prasyarat:

Anda telah menyiapkan project Cloud Natural Language di konsol Google Cloud .
Anda telah menyiapkan lingkungan menggunakan Kredensial Default Aplikasi di konsol Google Cloud .
Anda memahami Python dalam pemrograman konsol Google Cloud .
Anda telah menyiapkan lingkungan pengembangan Python. Sebaiknya Anda menginstal Python versi terbaru, pip, dan virtualenv di sistem Anda. Untuk mendapatkan petunjuk, lihat Panduan Penyiapan Lingkungan Pengembangan Python untuk Google Cloud Platform.
Anda telah menginstal Library Klien Google Cloud untuk Python

Ringkasan

Tutorial ini akan memandu Anda membuat aplikasi Natural Language dasar, menggunakan permintaan classifyText, yang mengklasifikasikan konten ke dalam kategori beserta skor keyakinan, seperti:

category: "/Internet & Telecom/Mobile & Wireless/Mobile Apps & Add-Ons"
confidence: 0.6499999761581421

Untuk melihat daftar semua label kategori yang tersedia, lihat Kategori.

Dalam tutorial ini, Anda akan membuat aplikasi untuk melakukan tugas-tugas berikut:

Mengklasifikasikan beberapa file teks dan menulis hasilnya ke file indeks.
Memproses teks kueri input untuk menemukan file teks serupa.
Memproses label kategori kueri input untuk menemukan file teks serupa.

Tutorial ini menggunakan konten dari Wikipedia. Anda dapat membuat aplikasi serupa untuk memproses artikel berita, komentar online, dan sebagainya.

File Sumber

Anda dapat menemukan kode sumber tutorial di Contoh Library Klien Python di GitHub.

Tutorial ini menggunakan contoh teks sumber dari Wikipedia. Anda dapat menemukan file teks contoh di folder resources/texts project GitHub.

Mengimpor library

Untuk menggunakan Cloud Natural Language API, Anda harus mengimpor modul language dari library google-cloud-language. Modul language.types berisi class yang diperlukan untuk membuat permintaan. Modul language.enums digunakan untuk menentukan jenis teks input. Tutorial ini mengklasifikasikan konten teks biasa (language.enums.Document.Type.PLAIN_TEXT).

Untuk menghitung kemiripan antara teks berdasarkan klasifikasi konten yang dihasilkan, tutorial ini menggunakan numpy untuk penghitungan vektor.

Python

Untuk mempelajari cara menginstal dan menggunakan library klien untuk Natural Language, lihat library klien Natural Language. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi Natural Language Python API.

Untuk melakukan autentikasi ke Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

import argparse
import json
import os

from google.cloud import language_v1
import numpy

Langkah 1. Mengklasifikasikan konten

Anda dapat menggunakan library klien Python untuk membuat permintaan ke Natural Language API guna mengklasifikasikan konten. Library klien Python melakukan enkapsulasi detail permintaan dan respons dari Natural Language API.

Fungsi classify dalam tutorial memanggil metode classifyText Natural Language API, dengan terlebih dahulu membuat instance class LanguageServiceClient, lalu memanggil metode classify_text instance LanguageServiceClient.

Fungsi tutorial classify hanya mengklasifikasikan konten teks untuk contoh ini. Anda juga dapat mengklasifikasikan konten halaman web dengan meneruskan HTML sumber halaman web sebagai text dan dengan menyetel parameter type ke language.enums.Document.Type.HTML.

Untuk mengetahui informasi selengkapnya, lihat Mengklasifikasikan Konten. Untuk mengetahui detail tentang struktur permintaan ke Natural Language API, lihat Referensi Natural Language.

Python

Untuk melakukan autentikasi ke Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

def classify(text, verbose=True):
    """Classify the input text into categories."""

    language_client = language_v1.LanguageServiceClient()

    document = language_v1.Document(
        content=text, type_=language_v1.Document.Type.PLAIN_TEXT
    )
    response = language_client.classify_text(request={"document": document})
    categories = response.categories

    result = {}

    for category in categories:
        # Turn the categories into a dictionary of the form:
        # {category.name: category.confidence}, so that they can
        # be treated as a sparse vector.
        result[category.name] = category.confidence

    if verbose:
        print(text)
        for category in categories:
            print("=" * 20)
            print("{:<16}: {}".format("category", category.name))
            print("{:<16}: {}".format("confidence", category.confidence))

    return result

Hasil yang ditampilkan adalah kamus dengan label kategori sebagai kunci, dan skor keyakinan sebagai nilai, seperti:

{
    "/Computers & Electronics": 0.800000011920929,
    "/Internet & Telecom/Mobile & Wireless/Mobile Apps & Add-Ons": 0.6499999761581421
}

Skrip Python tutorial disusun agar dapat dijalankan dari command line untuk eksperimen cepat. Misalnya, Anda dapat menjalankan:

python classify_text_tutorial.py classify "Google Home enables users to speak voice commands to interact with services through the Home's intelligent personal assistant called Google Assistant. A large number of services, both in-house and third-party, are integrated, allowing users to listen to music, look at videos or photos, or receive news updates entirely by voice. "

Langkah 2. Mengindeks beberapa file teks

Fungsi index dalam skrip tutorial mengambil, sebagai input, direktori yang berisi beberapa file teks, dan jalur ke file tempatnya menyimpan output yang diindeks (nama file default adalah index.json). Fungsi index membaca konten setiap file teks di direktori input, lalu meneruskan file teks ke Cloud Natural Language API untuk diklasifikasikan ke dalam kategori konten.

Python

Untuk melakukan autentikasi ke Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

def index(path, index_file):
    """Classify each text file in a directory and write
    the results to the index_file.
    """

    result = {}
    for filename in os.listdir(path):
        file_path = os.path.join(path, filename)

        if not os.path.isfile(file_path):
            continue

        try:
            with open(file_path) as f:
                text = f.read()
                categories = classify(text, verbose=False)

                result[filename] = categories
        except Exception:
            print(f"Failed to process {file_path}")

    with open(index_file, "w", encoding="utf-8") as f:
        f.write(json.dumps(result, ensure_ascii=False))

    print(f"Texts indexed in file: {index_file}")
    return result

Hasil dari Cloud Natural Language API untuk setiap file disusun ke dalam satu kamus, diserialkan sebagai string JSON, lalu ditulis ke file. Contoh:

{
    "android.txt": {
        "/Computers & Electronics": 0.800000011920929,
        "/Internet & Telecom/Mobile & Wireless/Mobile Apps & Add-Ons": 0.6499999761581421
    },
    "google.txt": {
        "/Internet & Telecom": 0.5799999833106995,
        "/Business & Industrial": 0.5400000214576721
    }
}

Untuk mengindeks file teks dari command line dengan nama file output default index.json, jalankan perintah berikut:

python classify_text_tutorial.py index resources/texts

Langkah 3. Membuat kueri indeks

Kueri dengan label kategori

Setelah file indeks (nama file default = index.json) dibuat, kita dapat membuat kueri ke indeks untuk mengambil beberapa nama file dan skor keyakinannya.

Salah satu cara untuk melakukannya adalah dengan menggunakan label kategori sebagai kueri, yang dilakukan tutorial dengan fungsi query_category. Implementasi fungsi helper, seperti similarity, dapat ditemukan di file classify_text_tutorial.py. Dalam aplikasi Anda, pemberian skor dan peringkat kesamaan harus dirancang dengan cermat berdasarkan kasus penggunaan tertentu.

Python

Untuk melakukan autentikasi ke Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

def query_category(index_file, category_string, n_top=3):
    """Find the indexed files that are the most similar to
    the query label.

    The list of all available labels:
    https://cloud.google.com/natural-language/docs/categories
    """

    with open(index_file) as f:
        index = json.load(f)

    # Make the category_string into a dictionary so that it is
    # of the same format as what we get by calling classify.
    query_categories = {category_string: 1.0}

    similarities = []
    for filename, categories in index.items():
        similarities.append((filename, similarity(query_categories, categories)))

    similarities = sorted(similarities, key=lambda p: p[1], reverse=True)

    print("=" * 20)
    print(f"Query: {category_string}\n")
    print(f"\nMost similar {n_top} indexed texts:")
    for filename, sim in similarities[:n_top]:
        print(f"\tFilename: {filename}")
        print(f"\tSimilarity: {sim}")
        print("\n")

    return similarities

Untuk mengetahui daftar semua kategori yang tersedia, lihat Kategori.

Seperti sebelumnya, Anda dapat memanggil fungsi query_category dari command line:

python classify_text_tutorial.py query-category index.json "/Internet & Telecom/Mobile & Wireless"

Anda akan melihat output yang mirip dengan yang berikut:

Query: /Internet & Telecom/Mobile & Wireless


Most similar 3 indexed texts:
  Filename: android.txt
  Similarity: 0.665573579045


  Filename: google.txt
  Similarity: 0.517527175966


  Filename: gcp.txt
  Similarity: 0.5

Kueri dengan teks

Atau, Anda dapat membuat kueri dengan teks yang mungkin bukan bagian dari teks yang diindeks. Fungsi query tutorial mirip dengan fungsi query_category, dengan langkah tambahan membuat permintaan classifyText untuk input teks, dan menggunakan hasilnya untuk membuat kueri file indeks.

Python

Untuk melakukan autentikasi ke Natural Language, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

def query(index_file, text, n_top=3):
    """Find the indexed files that are the most similar to
    the query text.
    """

    with open(index_file) as f:
        index = json.load(f)

    # Get the categories of the query text.
    query_categories = classify(text, verbose=False)

    similarities = []
    for filename, categories in index.items():
        similarities.append((filename, similarity(query_categories, categories)))

    similarities = sorted(similarities, key=lambda p: p[1], reverse=True)

    print("=" * 20)
    print(f"Query: {text}\n")
    for category, confidence in query_categories.items():
        print(f"\tCategory: {category}, confidence: {confidence}")
    print(f"\nMost similar {n_top} indexed texts:")
    for filename, sim in similarities[:n_top]:
        print(f"\tFilename: {filename}")
        print(f"\tSimilarity: {sim}")
        print("\n")

    return similarities

Untuk melakukannya dari command line, jalankan:

python classify_text_tutorial.py query index.json "Google Home enables users to speak voice commands to interact with services through the Home's intelligent personal assistant called Google Assistant. A large number of services, both in-house and third-party, are integrated, allowing users to listen to music, look at videos or photos, or receive news updates entirely by voice. "

Tindakan ini akan mencetak sesuatu yang mirip dengan berikut ini:

Query: Google Home enables users to speak voice commands to interact with services through the Home's intelligent personal assistant called Google Assistant. A large number of services, both in-house and third-party, are integrated, allowing users to listen to music, look at videos or photos, or receive news updates entirely by voice.

  Category: /Internet & Telecom, confidence: 0.509999990463
  Category: /Computers & Electronics/Software, confidence: 0.550000011921

Most similar 3 indexed texts:
  Filename: android.txt
  Similarity: 0.600579500049


  Filename: google.txt
  Similarity: 0.401314790229


  Filename: gcp.txt
  Similarity: 0.38772339779

Langkah berikutnya

Dengan Content Classification API, Anda dapat membuat aplikasi lain. Contoh:

Mengklasifikasikan setiap paragraf dalam artikel untuk melihat transisi antar-topik.
Mengklasifikasikan konten yang diberi stempel waktu dan menganalisis tren topik dari waktu ke waktu.
Bandingkan kategori konten dengan sentimen konten menggunakan metode analyzeSentiment.
Membandingkan kategori konten dengan entity yang disebutkan dalam teks.

Selain itu, produk Google Cloud Platform lainnya dapat digunakan untuk menyederhanakan alur kerja Anda:

Dalam aplikasi contoh untuk tutorial ini, kita memproses file teks lokal, tetapi Anda dapat mengubah kode untuk memproses file teks yang disimpan di bucket Google Cloud Storage dengan meneruskan URI Google Cloud Storage ke metode classify_text.
Dalam aplikasi contoh untuk tutorial ini, kita menyimpan file indeks secara lokal, dan setiap kueri diproses dengan membaca seluruh file indeks. Hal ini berarti latensi tinggi jika Anda memiliki data terindeks dalam jumlah besar atau jika Anda perlu memproses banyak kueri. Datastore adalah pilihan yang alami dan nyaman untuk menyimpan data indeks.

Tutorial Klasifikasi Konten Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Audiens

Prasyarat

Ringkasan

File Sumber

Mengimpor library

Python

Langkah 1. Mengklasifikasikan konten

Python

Langkah 2. Mengindeks beberapa file teks

Python

Langkah 3. Membuat kueri indeks

Kueri dengan label kategori

Python

Kueri dengan teks

Python

Langkah berikutnya

Tutorial Klasifikasi Konten