Transkripsi Chirp 3: Akurasi multibahasa yang ditingkatkan

Chirp 3 adalah model generatif khusus Pengenalan Ucapan Otomatis (ASR) multilingual generasi terbaru dari Google, yang dirancang untuk memenuhi kebutuhan pengguna berdasarkan masukan dan pengalaman. Chirp 3 memberikan akurasi dan kecepatan yang lebih baik dibandingkan model Chirp sebelumnya serta menyediakan diarisasi dan deteksi bahasa otomatis.

Detail model

Chirp 3: Transkripsi, hanya tersedia dalam Speech-to-Text API V2.

ID model

Anda dapat menggunakan Chirp 3: Transkripsi seperti model lainnya dengan menentukan ID model yang sesuai dalam permintaan pengenalan saat menggunakan API atau nama model saat berada di konsol Google Cloud . Tentukan ID yang sesuai dalam pengenalan Anda.

Model Pengenal model
Chirp 3 chirp_3

Metode API

Tidak semua metode pengenalan mendukung set ketersediaan bahasa yang sama. Karena Chirp 3 tersedia di Speech-to-Text API V2, Chirp 3 mendukung metode pengenalan berikut:

API Dukungan metode API Dukungan
v2 Speech.StreamingRecognize (cocok untuk streaming dan audio real-time) Didukung
v2 Speech.Recognize (cocok untuk audio berdurasi kurang dari satu menit) Didukung
v2 Speech.BatchRecognize (cocok untuk audio berdurasi panjang 1 menit hingga 1 jam) Didukung

Ketersediaan regional

Chirp 3 tersedia di Google Cloud wilayah berikut, dan akan segera hadir di wilayah lainnya:

Google Cloud Zone Kesiapan Peluncuran
us Pratinjau Publik

Dengan menggunakan API lokasi seperti yang dijelaskan di sini, Anda dapat menemukan daftar terbaru Google Cloud wilayah, bahasa, lokalitas, dan fitur yang didukung untuk setiap model transkripsi.

Ketersediaan bahasa untuk transkripsi

Chirp 3 mendukung transkripsi dalam StreamingRecognize, Recognize, dan BatchRecognize dalam bahasa berikut:

BahasaBCP-47 Code
Arab (Uni Emirat Arab)ar-AE
Arab (Bahrain)ar-BH
Arab (Aljazair)ar-DZ
Arab (Mesir)ar-EG
Arab (Israel)ar-IL
Kurdi Tengah (Irak)ar-IQ
Arab (Yordania)ar-JO
Arab (Kuwait)ar-KW
Arab (Lebanon)ar-LB
Arab (Maroko)ar-MA
Arab (Mauritania)ar-MR
Arab (Oman)ar-OM
Arab (Palestina)ar-PS
Arab (Qatar)ar-QA
Arab (Arab Saudi)ar-SA
Arab (Suriah)ar-SY
Arab (Tunisia)ar-TN
Arabar-XA
Arab (Yaman)ar-YE
Bulgaria (Bulgaria)bg-BG
Bengali (Bangladesh)bn-BD
Bengali (India)bn-IN
Katala (Spanyol)ca-ES
China (Aksara Sederhana, China)cmn-Hans-CN
China, Kanton (Hong Kong Tradisional)yue-Hant-HK
China, Mandarin (Tradisional, Taiwan)cmn-Hant-TW
Ceko (Republik Ceko)cs-CZ
Denmark (Denmark)da-DK
Jerman (Jerman)de-DE
Yunani (Yunani)el-GR
Inggris (Australia)en-AU
Inggris (Inggris Raya)en-GB
Inggris (India)en-IN
Inggris (Filipina)en-PH
Inggris (Amerika Serikat)en-US
Spanyol (Meksiko)es-MX
Spanyol (Spanyol)es-ES
Spanyol (Amerika Serikat)es-US
Esti (Estonia)et-EE
Farsi (Iran)fa-IR
Prancis (Prancis)fr-FR
Finlandia (Finlandia)fi-FI
Filipino (Filipina)fil-PH
Prancis (Kanada)fr-CA
Gujarati (India)gu-IN
Hindi (India)hi-IN
Kroasia (Kroasia)hr-HR
Magyar (Hungaria)hu-HU
Armenia (Armenia)hy-AM
Indonesia (Indonesia)id-ID
Italia (Italia)it-IT
Ibrani (Israel)iw-IL
Jepang (Jepang)ja-JP
Khmer (Kamboja)km-KH
Kannada (India)kn-IN
Korea (Korea)ko-KR
Lao (Laos)lo-LA
Lituania (Lituania)lt-LT
Latvia (Latvia)lv-LV
Malayalam (India)ml-IN
Marathi (India)mr-IN
Melayu (Malaysia)ms-MY
Burma (Myanmar)my-MM
Nepali (Nepal)ne-NP
Belanda (Belanda)nl-NL
Norwegia (Norwegia)no-NO
Polandia (Polandia)pl-PL
Portugis (Brasil)pt-BR
Portugis (Portugal)pt-PT
Rumania (Rumania)ro-RO
Rusia (Rusia)ru-RU
Slovak (Slovakia)sk-SK
Slovenia (Slovenia)sl-SI
Serbia (Serbia)sr-RS
Swedia (Swedia)sv-SE
Swahilisw
Tamil (India)ta-IN
Telugu (India)te-IN
Thai (Thailand)th-TH
Turki (Turki)tr-TR
Ukraina (Ukraina)uk-UA
Uzbek (Uzbekistan)uz-UZ
Vietnam (Vietnam)vi-VN

Ketersediaan bahasa untuk pemisahan pembicara

Chirp 3 mendukung transkripsi dan diarisasi hanya dalam BatchRecognize dan Recognize dalam bahasa berikut:

Bahasa Kode BCP-47
China (Aksara Sederhana, China) cmn-Hans-CN
Jerman (Jerman) de-DE
Inggris (Inggris Raya) en-GB
Inggris (India) en-IN
Inggris (Amerika Serikat) en-US
Spanyol (Spanyol) es-ES
Spanyol (Amerika Serikat) es-US
Prancis (Kanada) fr-CA
Prancis (Prancis) fr-FR
Hindi (India) hi-IN
Italia (Italia) it-IT
Jepang (Jepang) ja-JP
Korea (Korea) ko-KR
Portugis (Brasil) pt-BR

Dukungan dan batasan fitur

Chirp 3 mendukung fitur berikut:

Fitur Deskripsi Tahap Peluncuran
Tanda baca otomatis Dibuat secara otomatis oleh model dan dapat dinonaktifkan secara opsional. Pratinjau
Kapitalisasi otomatis Dibuat secara otomatis oleh model dan dapat dinonaktifkan secara opsional. Pratinjau
Diarisasi Speaker Mengidentifikasi pembicara yang berbeda secara otomatis dalam sampel audio satu saluran. Pratinjau
Transkripsi audio yang tidak bergantung pada bahasa. Model secara otomatis menyimpulkan bahasa lisan dalam file audio Anda dan mentranskripsikan dalam bahasa yang paling umum. Pratinjau

Chirp 3 tidak mendukung fitur berikut:

Fitur Deskripsi
Waktu kata (Stempel waktu) Dibuat secara otomatis oleh model dan dapat dinonaktifkan secara opsional.
Skor keyakinan tingkat kata API menampilkan nilai, tetapi bukan sepenuhnya skor keyakinan.
Adaptasi ucapan (Penyesuaian) Berikan petunjuk ke model dalam bentuk frasa atau kata untuk meningkatkan akurasi pengenalan istilah atau nama diri tertentu.

Menggunakan Chirp 3

Menggunakan Chirp 3 untuk tugas transkripsi dan diarisasi.

Mentranskripsikan menggunakan permintaan batch Chirp 3 dengan diarisasi

Cari tahu cara menggunakan Chirp 3 untuk kebutuhan transkripsi Anda

Menjalankan pengenalan ucapan batch

import os

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def transcribe_batch_chirp3(
    audio_uri: str,
) -> cloud_speech.BatchRecognizeResults:
    """Transcribes an audio file from a Google Cloud Storage URI using the Chirp 3 model of Google Cloud Speech-to-Text V2 API.
    Args:
        audio_uri (str): The Google Cloud Storage URI of the input
          audio file. E.g., gs://[BUCKET]/[FILE]
    Returns:
        cloud_speech.RecognizeResponse: The response from the
           Speech-to-Text API containing the transcription results.
    """

    # Instantiates a client
    client = SpeechClient(
        client_options=ClientOptions(
            api_endpoint="us-west1-speech.googleapis.com",
        )
    )

    speaker_diarization_config = cloud_speech.SpeakerDiarizationConfig(
        min_speaker_count=1,  # minimum number of speakers
        max_speaker_count=6,  # maximum expected number of speakers
    )

    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        language_codes=["en-US"],  # Use "auto" to detect language
        model="chirp_3",
        features=cloud_speech.RecognitionFeatures(
            diarization_config=speaker_diarization_config,
        ),
    )

    file_metadata = cloud_speech.BatchRecognizeFileMetadata(uri=audio_uri)

    request = cloud_speech.BatchRecognizeRequest(
        recognizer=f"projects/{PROJECT_ID}/locations/us-west1/recognizers/_",
        config=config,
        files=[file_metadata],
        recognition_output_config=cloud_speech.RecognitionOutputConfig(
            inline_response_config=cloud_speech.InlineOutputConfig(),
        ),
    )

    # Transcribes the audio into text
    operation = client.batch_recognize(request=request)

    print("Waiting for operation to complete...")
    response = operation.result(timeout=120)

    for result in response.results[audio_uri].transcript.results:
        print(f"Transcript: {result.alternatives[0].transcript}")
        print(f"Detected Language: {result.language_code}")
        print(f"Speakers per word: {result.alternatives[0].words}")

    return response.results[audio_uri].transcript

Menggunakan Chirp 3 di konsol Google Cloud