Chirp 3 adalah model generatif khusus Pengenalan Ucapan Otomatis (ASR) multilingual generasi terbaru dari Google, yang dirancang untuk memenuhi kebutuhan pengguna berdasarkan masukan dan pengalaman. Chirp 3 memberikan akurasi dan kecepatan yang lebih baik dibandingkan model Chirp sebelumnya serta menyediakan diarisasi dan deteksi bahasa otomatis.
Detail model
Chirp 3: Transkripsi, hanya tersedia dalam Speech-to-Text API V2.
ID model
Anda dapat menggunakan Chirp 3: Transkripsi seperti model lainnya dengan menentukan ID model yang sesuai dalam permintaan pengenalan saat menggunakan API atau nama model saat berada di konsol Google Cloud . Tentukan ID yang sesuai dalam pengenalan Anda.
Model | Pengenal model |
Chirp 3 | chirp_3 |
Metode API
Tidak semua metode pengenalan mendukung set ketersediaan bahasa yang sama. Karena Chirp 3 tersedia di Speech-to-Text API V2, Chirp 3 mendukung metode pengenalan berikut:
API | Dukungan metode API | Dukungan |
v2 | Speech.StreamingRecognize (cocok untuk streaming dan audio real-time) | Didukung |
v2 | Speech.Recognize (cocok untuk audio berdurasi kurang dari satu menit) | Didukung |
v2 | Speech.BatchRecognize (cocok untuk audio berdurasi panjang 1 menit hingga 1 jam) | Didukung |
Ketersediaan regional
Chirp 3 tersedia di Google Cloud wilayah berikut, dan akan segera hadir di wilayah lainnya:
Google Cloud Zone | Kesiapan Peluncuran |
us
|
Pratinjau Publik |
Dengan menggunakan API lokasi seperti yang dijelaskan di sini, Anda dapat menemukan daftar terbaru Google Cloud wilayah, bahasa, lokalitas, dan fitur yang didukung untuk setiap model transkripsi.
Ketersediaan bahasa untuk transkripsi
Chirp 3 mendukung transkripsi dalam StreamingRecognize
, Recognize
, dan BatchRecognize
dalam bahasa berikut:
Bahasa | BCP-47 Code |
Arab (Uni Emirat Arab) | ar-AE |
Arab (Bahrain) | ar-BH |
Arab (Aljazair) | ar-DZ |
Arab (Mesir) | ar-EG |
Arab (Israel) | ar-IL |
Kurdi Tengah (Irak) | ar-IQ |
Arab (Yordania) | ar-JO |
Arab (Kuwait) | ar-KW |
Arab (Lebanon) | ar-LB |
Arab (Maroko) | ar-MA |
Arab (Mauritania) | ar-MR |
Arab (Oman) | ar-OM |
Arab (Palestina) | ar-PS |
Arab (Qatar) | ar-QA |
Arab (Arab Saudi) | ar-SA |
Arab (Suriah) | ar-SY |
Arab (Tunisia) | ar-TN |
Arab | ar-XA |
Arab (Yaman) | ar-YE |
Bulgaria (Bulgaria) | bg-BG |
Bengali (Bangladesh) | bn-BD |
Bengali (India) | bn-IN |
Katala (Spanyol) | ca-ES |
China (Aksara Sederhana, China) | cmn-Hans-CN |
China, Kanton (Hong Kong Tradisional) | yue-Hant-HK |
China, Mandarin (Tradisional, Taiwan) | cmn-Hant-TW |
Ceko (Republik Ceko) | cs-CZ |
Denmark (Denmark) | da-DK |
Jerman (Jerman) | de-DE |
Yunani (Yunani) | el-GR |
Inggris (Australia) | en-AU |
Inggris (Inggris Raya) | en-GB |
Inggris (India) | en-IN |
Inggris (Filipina) | en-PH |
Inggris (Amerika Serikat) | en-US |
Spanyol (Meksiko) | es-MX |
Spanyol (Spanyol) | es-ES |
Spanyol (Amerika Serikat) | es-US |
Esti (Estonia) | et-EE |
Farsi (Iran) | fa-IR |
Prancis (Prancis) | fr-FR |
Finlandia (Finlandia) | fi-FI |
Filipino (Filipina) | fil-PH |
Prancis (Kanada) | fr-CA |
Gujarati (India) | gu-IN |
Hindi (India) | hi-IN |
Kroasia (Kroasia) | hr-HR |
Magyar (Hungaria) | hu-HU |
Armenia (Armenia) | hy-AM |
Indonesia (Indonesia) | id-ID |
Italia (Italia) | it-IT |
Ibrani (Israel) | iw-IL |
Jepang (Jepang) | ja-JP |
Khmer (Kamboja) | km-KH |
Kannada (India) | kn-IN |
Korea (Korea) | ko-KR |
Lao (Laos) | lo-LA |
Lituania (Lituania) | lt-LT |
Latvia (Latvia) | lv-LV |
Malayalam (India) | ml-IN |
Marathi (India) | mr-IN |
Melayu (Malaysia) | ms-MY |
Burma (Myanmar) | my-MM |
Nepali (Nepal) | ne-NP |
Belanda (Belanda) | nl-NL |
Norwegia (Norwegia) | no-NO |
Polandia (Polandia) | pl-PL |
Portugis (Brasil) | pt-BR |
Portugis (Portugal) | pt-PT |
Rumania (Rumania) | ro-RO |
Rusia (Rusia) | ru-RU |
Slovak (Slovakia) | sk-SK |
Slovenia (Slovenia) | sl-SI |
Serbia (Serbia) | sr-RS |
Swedia (Swedia) | sv-SE |
Swahili | sw |
Tamil (India) | ta-IN |
Telugu (India) | te-IN |
Thai (Thailand) | th-TH |
Turki (Turki) | tr-TR |
Ukraina (Ukraina) | uk-UA |
Uzbek (Uzbekistan) | uz-UZ |
Vietnam (Vietnam) | vi-VN |
Ketersediaan bahasa untuk pemisahan pembicara
Chirp 3 mendukung transkripsi dan diarisasi hanya dalam BatchRecognize
dan Recognize
dalam bahasa berikut:
Bahasa | Kode BCP-47 |
China (Aksara Sederhana, China) | cmn-Hans-CN |
Jerman (Jerman) | de-DE |
Inggris (Inggris Raya) | en-GB |
Inggris (India) | en-IN |
Inggris (Amerika Serikat) | en-US |
Spanyol (Spanyol) | es-ES |
Spanyol (Amerika Serikat) | es-US |
Prancis (Kanada) | fr-CA |
Prancis (Prancis) | fr-FR |
Hindi (India) | hi-IN |
Italia (Italia) | it-IT |
Jepang (Jepang) | ja-JP |
Korea (Korea) | ko-KR |
Portugis (Brasil) | pt-BR |
Dukungan dan batasan fitur
Chirp 3 mendukung fitur berikut:
Fitur | Deskripsi | Tahap Peluncuran |
Tanda baca otomatis | Dibuat secara otomatis oleh model dan dapat dinonaktifkan secara opsional. | Pratinjau |
Kapitalisasi otomatis | Dibuat secara otomatis oleh model dan dapat dinonaktifkan secara opsional. | Pratinjau |
Diarisasi Speaker | Mengidentifikasi pembicara yang berbeda secara otomatis dalam sampel audio satu saluran. | Pratinjau |
Transkripsi audio yang tidak bergantung pada bahasa. | Model secara otomatis menyimpulkan bahasa lisan dalam file audio Anda dan mentranskripsikan dalam bahasa yang paling umum. | Pratinjau |
Chirp 3 tidak mendukung fitur berikut:
Fitur | Deskripsi |
Waktu kata (Stempel waktu) | Dibuat secara otomatis oleh model dan dapat dinonaktifkan secara opsional. |
Skor keyakinan tingkat kata | API menampilkan nilai, tetapi bukan sepenuhnya skor keyakinan. |
Adaptasi ucapan (Penyesuaian) | Berikan petunjuk ke model dalam bentuk frasa atau kata untuk meningkatkan akurasi pengenalan istilah atau nama diri tertentu. |
Menggunakan Chirp 3
Menggunakan Chirp 3 untuk tugas transkripsi dan diarisasi.
Mentranskripsikan menggunakan permintaan batch Chirp 3 dengan diarisasi
Cari tahu cara menggunakan Chirp 3 untuk kebutuhan transkripsi Anda
Menjalankan pengenalan ucapan batch
import os
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def transcribe_batch_chirp3(
audio_uri: str,
) -> cloud_speech.BatchRecognizeResults:
"""Transcribes an audio file from a Google Cloud Storage URI using the Chirp 3 model of Google Cloud Speech-to-Text V2 API.
Args:
audio_uri (str): The Google Cloud Storage URI of the input
audio file. E.g., gs://[BUCKET]/[FILE]
Returns:
cloud_speech.RecognizeResponse: The response from the
Speech-to-Text API containing the transcription results.
"""
# Instantiates a client
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-west1-speech.googleapis.com",
)
)
speaker_diarization_config = cloud_speech.SpeakerDiarizationConfig(
min_speaker_count=1, # minimum number of speakers
max_speaker_count=6, # maximum expected number of speakers
)
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"], # Use "auto" to detect language
model="chirp_3",
features=cloud_speech.RecognitionFeatures(
diarization_config=speaker_diarization_config,
),
)
file_metadata = cloud_speech.BatchRecognizeFileMetadata(uri=audio_uri)
request = cloud_speech.BatchRecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/us-west1/recognizers/_",
config=config,
files=[file_metadata],
recognition_output_config=cloud_speech.RecognitionOutputConfig(
inline_response_config=cloud_speech.InlineOutputConfig(),
),
)
# Transcribes the audio into text
operation = client.batch_recognize(request=request)
print("Waiting for operation to complete...")
response = operation.result(timeout=120)
for result in response.results[audio_uri].transcript.results:
print(f"Transcript: {result.alternatives[0].transcript}")
print(f"Detected Language: {result.language_code}")
print(f"Speakers per word: {result.alternatives[0].words}")
return response.results[audio_uri].transcript