Mengaktifkan filter kata-kata tidak sopan

Halaman ini menjelaskan cara menggunakan Speech-to-Text untuk secara otomatis mendeteksi kata-kata tidak sopan dalam data audio Anda dan menyensornya dalam transkrip.

Anda dapat mengaktifkan filter kata-kata tidak sopan dengan menetapkan profanityFilter=true di RecognitionFeatures. Jika diaktifkan, Speech-to-Text akan mencoba mendeteksi kata-kata tidak sopan dan hanya menampilkan huruf pertama yang diikuti dengan tanda bintang dalam transkrip (misalnya f***). Jika kolom ini ditetapkan ke false atau tidak ditetapkan, Speech-to-Text tidak akan mencoba memfilter kata-kata tidak sopan.

Contoh berikut menunjukkan cara mengaktifkan filter kata-kata tidak sopan untuk mengenali audio yang disimpan di bucket Cloud Storage.

Python

Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Speech-to-Text.

Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

from google.cloud import speech
from google.cloud.speech import RecognizeResponse


def sync_recognize_with_profanity_filter_gcs(audio_uri: str) -> RecognizeResponse:
    """Recognizes speech from an audio file in Cloud Storage and filters out profane language.
    Args:
        audio_uri (str): The Cloud Storage URI of the input audio, e.g., gs://[BUCKET]/[FILE]
    Returns:
        cloud_speech.RecognizeResponse: The full response object which includes the transcription results.
    """
    # Define the audio source
    audio = {"uri": audio_uri}

    client = speech.SpeechClient()
    config = speech.RecognitionConfig(
        encoding=speech.RecognitionConfig.AudioEncoding.FLAC,  # Audio format
        sample_rate_hertz=16000,
        language_code="en-US",
        # Enable profanity filter
        profanity_filter=True,
    )

    response = client.recognize(config=config, audio=audio)

    for result in response.results:
        alternative = result.alternatives[0]
        print(f"Transcript: {alternative.transcript}")

    return response.results