Chirp 3 est la dernière génération de modèles génératifs multilingues de reconnaissance vocale automatique (ASR) de Google. Ils sont conçus pour répondre aux besoins des utilisateurs en fonction de leurs commentaires et de leur expérience. Chirp 3 offre une précision et une vitesse supérieures à celles des modèles Chirp précédents, ainsi que la diarisation et la détection automatique de la langue.
Informations sur le modèle
Chirp 3 : Transcription est disponible exclusivement dans l'API Speech-to-Text V2.
Identifiants de modèle
Vous pouvez utiliser Chirp 3 : Transcription comme n'importe quel autre modèle en spécifiant l'identifiant de modèle approprié dans votre requête de reconnaissance lorsque vous utilisez l'API ou le nom du modèle dans la console Google Cloud . Spécifiez l'identifiant approprié dans votre reconnaissance.
Modèle | Identifiant du modèle |
Chirp 3 | chirp_3 |
Méthodes d'API
Les ensembles de langues disponibles ne sont pas les mêmes pour toutes les méthodes de reconnaissance. Étant donné que Chirp 3 est disponible dans l'API Speech-to-Text V2, il est compatible avec les méthodes de reconnaissance suivantes : Les ensembles de langues disponibles ne sont pas les mêmes pour toutes les méthodes de reconnaissance. Étant donné que Chirp 3 est disponible dans l'API Speech-to-Text V2, il est compatible avec les méthodes de reconnaissance suivantes :
API | Compatibilité avec les méthodes API | Assistance |
v2 | Speech.StreamingRecognize (idéal pour le streaming et l'audio en temps réel) | Compatible |
v2 | Speech.Recognize (compatible avec les contenus audio de moins d'une minute) | Compatible |
v2 | Speech.BatchRecognize (compatible avec les contenus audio longs de 1 minute à 1 heure) | Compatible |
Disponibilité en fonction des régions
Chirp 3 est disponible dans les Google Cloud régions suivantes (d'autres sont prévues) :
Google Cloud Zone | Aptitude au lancement |
us
|
Aperçu public |
En utilisant l'API Locations comme expliqué ici, vous pouvez trouver la liste la plus récente des régions, langues, paramètres régionaux et fonctionnalités Google Cloud compatibles pour chaque modèle de transcription.
Langues disponibles pour la transcription
Chirp 3 est compatible avec la transcription en StreamingRecognize
, Recognize
et BatchRecognize
dans les langues suivantes :
Langue | BCP-47 Code |
Arabe (Émirats arabes unis) | ar-AE |
Arabe (Bahreïn) | ar-BH |
Arabe (Algérie) | ar-DZ |
Arabe (Égypte) | ar-EG |
Arabe (Israël) | ar-IL |
Sorani (Irak) | ar-IQ |
Arabe (Jordanie) | ar-JO |
Arabe (Koweït) | ar-KW |
Arabe (Liban) | ar-LB |
Arabe (Maroc) | ar-MA |
Arabe (Mauritanie) | ar-MR |
Arabe (Oman) | ar-OM |
Arabe (État de Palestine) | ar-PS |
Arabe (Qatar) | ar-QA |
Arabe (Arabie saoudite) | ar-SA |
Arabe (Syrie) | ar-SY |
Arabe (Tunisie) | ar-TN |
Arabe | ar-XA |
Arabe (Yémen) | ar-YE |
Bulgare (Bulgarie) | bg-BG |
Bengali (Bangladesh) | bn-BD |
Bengali (Inde) | bn-IN |
Catalan (Espagne) | ca-ES |
Chinois (simplifié, Chine) | cmn-Hans-CN |
Chinois cantonais (traditionnel, Hong Kong) | yue-Hant-HK |
Chinois mandarin (traditionnel, Taïwan) | cmn-Hant-TW |
Tchèque (République tchèque) | cs-CZ |
Danois (Danemark) | da-DK |
Allemand (Allemagne) | de-DE |
Grec (Grèce) | el-GR |
Anglais (Australie) | en-AU |
Anglais (Royaume-Uni) | en-GB |
Anglais (Inde) | en-IN |
Anglais (Philippines) | en-PH |
Anglais (États-Unis) | en-US |
Espagnol (Mexique) | es-MX |
Espagnol (Espagne) | es-ES |
Espagnol (États-Unis) | es-US |
Estonien (Estonie) | et-EE |
Persan (Iran) | fa-IR |
Français (France) | fr-FR |
Finnois (Finlande) | fi-FI |
Philippin (Philippines) | fil-PH |
Français (Canada) | fr-CA |
Gujarati (Inde) | gu-IN |
Hindi (Inde) | hi-IN |
Croate (Croatie) | hr-HR |
Hongrois (Hongrie) | hu-HU |
Arménien (Arménie) | hy-AM |
Indonésien (Indonésie) | id-ID |
Italien (Italie) | it-IT |
Hébreu (Israël) | iw-IL |
Japonais (Japon) | ja-JP |
Khmer (Cambodge) | km-KH |
Kannada (Inde) | kn-IN |
Coréen (Corée) | ko-KR |
Laotien (Laos) | lo-LA |
Lituanien (Lituanie) | lt-LT |
Letton (Lettonie) | lv-LV |
Malayalam (Inde) | ml-IN |
Marathi (Inde) | mr-IN |
Malais (Malaisie) | ms-MY |
Birman (Myanmar) | my-MM |
Népalais (Népal) | ne-NP |
Néerlandais (Pays-Bas) | nl-NL |
Norvégien (Norvège) | no-NO |
Polonais (Pologne) | pl-PL |
Portugais (Brésil) | pt-BR |
Portugais (Portugal) | pt-PT |
Roumain (Roumanie) | ro-RO |
Russe (Russie) | ru-RU |
Slovaque (Slovaquie) | sk-SK |
Slovène (Slovénie) | sl-SI |
Serbe (Serbie) | sr-RS |
Suédois (Suède) | sv-SE |
Swahili | sw |
Tamoul (Inde) | ta-IN |
Télougou (Inde) | te-IN |
Thaï (Thaïlande) | th-TH |
Turc (Turquie) | tr-TR |
Ukrainien (Ukraine) | uk-UA |
Ouzbek (Ouzbékistan) | uz-UZ |
Vietnamien (Viêt Nam) | vi-VN |
Langues disponibles pour l'identification des locuteurs
Chirp 3 n'est compatible avec la transcription et la segmentation par locuteur qu'en BatchRecognize
et Recognize
dans les langues suivantes :
Langue | Code BCP-47 |
Chinois (simplifié, Chine) | cmn-Hans-CN |
Allemand (Allemagne) | de-DE |
Anglais (Royaume-Uni) | en-GB |
Anglais (Inde) | en-IN |
Français (France) | en-US |
Espagnol (Espagne) | es-ES |
Espagnol (États-Unis) | es-US |
Français (Canada) | fr-CA |
Français (France) | fr-FR |
Hindi (Inde) | hi-IN |
Italien (Italie) | it-IT |
Japonais (Japon) | ja-JP |
Coréen (Corée) | ko-KR |
Portugais (Brésil) | pt-BR |
Compatibilité des fonctionnalités et limites
Chirp 3 est compatible avec les fonctionnalités suivantes :
Fonctionnalité | Description | Étape de lancement |
Ponctuation automatique | Générées automatiquement par le modèle, elles peuvent être désactivées. | Aperçu |
Mise en majuscules automatique | Générées automatiquement par le modèle, elles peuvent être désactivées. | Aperçu |
Identification du locuteur | Identifiez automatiquement les différents locuteurs dans un extrait audio monocanal. | Aperçu |
Transcription audio indépendante de la langue. | Le modèle déduit automatiquement la langue parlée dans votre fichier audio et transcrit dans la langue la plus courante. | Aperçu |
Chirp 3 n'est pas compatible avec les fonctionnalités suivantes :
Fonctionnalité | Description |
Horodatages au niveau du mot | Générées automatiquement par le modèle, elles peuvent être désactivées. |
Scores de confiance au niveau du mot | L'API renvoie une valeur, mais ce n'est pas réellement un score de confiance. |
Adaptation vocale (biais) | Fournissez des suggestions au modèle sous forme d'expressions ou de mots pour améliorer la précision de la reconnaissance de termes ou de noms propres spécifiques. |
Utiliser Chirp 3
Utiliser Chirp 3 pour les tâches de transcription et de segmentation par locuteur.
Transcrire à l'aide d'une requête par lots Chirp 3 avec identification
Découvrez comment utiliser Chirp 3 pour vos besoins de transcription.
Effectuer une reconnaissance vocale par lot
import os
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def transcribe_batch_chirp3(
audio_uri: str,
) -> cloud_speech.BatchRecognizeResults:
"""Transcribes an audio file from a Google Cloud Storage URI using the Chirp 3 model of Google Cloud Speech-to-Text V2 API.
Args:
audio_uri (str): The Google Cloud Storage URI of the input
audio file. E.g., gs://[BUCKET]/[FILE]
Returns:
cloud_speech.RecognizeResponse: The response from the
Speech-to-Text API containing the transcription results.
"""
# Instantiates a client
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-west1-speech.googleapis.com",
)
)
speaker_diarization_config = cloud_speech.SpeakerDiarizationConfig(
min_speaker_count=1, # minimum number of speakers
max_speaker_count=6, # maximum expected number of speakers
)
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"], # Use "auto" to detect language
model="chirp_3",
features=cloud_speech.RecognitionFeatures(
diarization_config=speaker_diarization_config,
),
)
file_metadata = cloud_speech.BatchRecognizeFileMetadata(uri=audio_uri)
request = cloud_speech.BatchRecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/us-west1/recognizers/_",
config=config,
files=[file_metadata],
recognition_output_config=cloud_speech.RecognitionOutputConfig(
inline_response_config=cloud_speech.InlineOutputConfig(),
),
)
# Transcribes the audio into text
operation = client.batch_recognize(request=request)
print("Waiting for operation to complete...")
response = operation.result(timeout=120)
for result in response.results[audio_uri].transcript.results:
print(f"Transcript: {result.alternatives[0].transcript}")
print(f"Detected Language: {result.language_code}")
print(f"Speakers per word: {result.alternatives[0].words}")
return response.results[audio_uri].transcript