Esta página se ha traducido con Cloud Translation API.

Transcripción de Chirp 3: mayor precisión en varios idiomas

Chirp 3 es la última generación de modelos generativos multilingües específicos de reconocimiento automático del habla (RAA) de Google, diseñados para satisfacer las necesidades de los usuarios en función de sus comentarios y experiencia. Chirp 3 ofrece una mayor precisión y velocidad que los modelos de Chirp anteriores, así como la diarización y la detección automática de idiomas.

Detalles del modelo

Chirp 3: transcripción, solo está disponible en la API Speech-to-Text V2.

Identificadores de modelo

Puedes usar Chirp 3: Transcripción como cualquier otro modelo. Para ello, especifica el identificador de modelo adecuado en tu solicitud de reconocimiento al usar la API o el nombre del modelo en la Google Cloud consola. Especifica el identificador adecuado en tu reconocimiento.

Modelo	Identificador de modelo
Chirp 3	chirp_3

Métodos de la API

No todos los métodos de reconocimiento admiten los mismos conjuntos de disponibilidad de idiomas. Como Chirp 3 está disponible en la API Speech-to-Text V2, admite los siguientes métodos de reconocimiento:

API	Compatibilidad con métodos de la API	Asistencia
v2	Speech.StreamingRecognize (ideal para audio en streaming y en tiempo real)	Compatible
v2	Speech.Recognize (adecuado para audio de menos de un minuto)	Compatible
v2	Voz.BatchRecognize (adecuado para audio largo, de 1 minuto a 1 hora)	Compatible

Disponibilidad regional

Chirp 3 está disponible en las siguientes Google Cloud regiones y tenemos previsto ampliar la lista:

Google Cloud Zona	Preparación para el lanzamiento
`us`	Vista previa pública

Si usas la API Locations, tal como se explica en este artículo, puedes consultar la lista más reciente de Google Cloud regiones, idiomas, configuraciones regionales y funciones admitidos para cada modelo de transcripción.

Idiomas disponibles para la transcripción

Chirp 3 admite la transcripción en StreamingRecognize, Recognize y BatchRecognize en los siguientes idiomas:

Idioma	`BCP-47 Code`
Árabe (Emiratos Árabes Unidos)	`ar-AE`
Árabe (Baréin)	`ar-BH`
Árabe (Argelia)	`ar-DZ`
Árabe (Egipto)	`ar-EG`
Árabe (Israel)	`ar-IL`
Kurdo central (Irak)	`ar-IQ`
Árabe (Jordania)	`ar-JO`
Árabe (Kuwait)	`ar-KW`
Árabe (Líbano)	`ar-LB`
Árabe (Marruecos)	`ar-MA`
Árabe (Mauritania)	`ar-MR`
Árabe (Omán)	`ar-OM`
Árabe (Estado de Palestina)	`ar-PS`
Árabe (Qatar)	`ar-QA`
Árabe (Arabia Saudita)	`ar-SA`
Árabe (Siria)	`ar-SY`
Árabe (Túnez)	`ar-TN`
Árabe	`ar-XA`
Árabe (Yemen)	`ar-YE`
Búlgaro (Bulgaria)	`bg-BG`
Bengalí (Bangladés)	`bn-BD`
Bengalí (India)	`bn-IN`
Catalán (España)	`ca-ES`
Chino (simplificado, China)	`cmn-Hans-CN`
Chino cantonés (tradicional, Hong Kong)	`yue-Hant-HK`
Chino mandarín (tradicional, Taiwán)	`cmn-Hant-TW`
Checo (República Checa)	`cs-CZ`
Danés (Dinamarca)	`da-DK`
Alemán (Alemania)	`de-DE`
Griego (Grecia)	`el-GR`
Inglés (Australia)	`en-AU`
Inglés (Reino Unido)	`en-GB`
Inglés (India)	`en-IN`
English (Philippines)	`en-PH`
Inglés (EE. UU.)	`en-US`
Español (México)	`es-MX`
Español (España)	`es-ES`
Español (Estados Unidos)	`es-US`
Estonio (Estonia)	`et-EE`
Persa (Irán)	`fa-IR`
Francés (Francia)	`fr-FR`
Finés (Finlandia)	`fi-FI`
Filipino (Filipinas)	`fil-PH`
Francés (Canadá)	`fr-CA`
Guyaratí (India)	`gu-IN`
Hindi (India)	`hi-IN`
Croata (Croacia)	`hr-HR`
Húngaro (Hungría)	`hu-HU`
Armenio (Armenia)	`hy-AM`
Indonesio (Indonesia)	`id-ID`
Italiano (Italia)	`it-IT`
Hebreo (Israel)	`iw-IL`
Japonés (Japón)	`ja-JP`
Jemer (Camboya)	`km-KH`
Canarés (India)	`kn-IN`
Coreano (Corea)	`ko-KR`
Lao (Laos)	`lo-LA`
Lituano (Lituania)	`lt-LT`
Letón (Letonia)	`lv-LV`
Malayalam (India)	`ml-IN`
Maratí (India)	`mr-IN`
Malayo (Malasia)	`ms-MY`
Birmano (Myanmar)	`my-MM`
Nepalí (Nepal)	`ne-NP`
Neerlandés (Países Bajos)	`nl-NL`
Noruego (Noruega)	`no-NO`
Polaco (Polonia)	`pl-PL`
Portugués (Brasil)	`pt-BR`
Portugués (Portugal)	`pt-PT`
Rumano (Rumanía)	`ro-RO`
Ruso (Rusia)	`ru-RU`
Eslovaco (Eslovaquia)	`sk-SK`
Esloveno (Eslovenia)	`sl-SI`
Serbio (Serbia)	`sr-RS`
Sueco (Suecia)	`sv-SE`
Swahili	`sw`
Tamil (India)	`ta-IN`
Telugu (India)	`te-IN`
Tailandés (Tailandia)	`th-TH`
Turco (Turquía)	`tr-TR`
Ucraniano (Ucrania)	`uk-UA`
Uzbeco (Uzbekistán)	`uz-UZ`
Vietnamita (Vietnam)	`vi-VN`

Idiomas disponibles para la diarización

Chirp 3 solo admite la transcripción y la diarización en BatchRecognize y Recognize en los siguientes idiomas:

Idioma	Código BCP-47
Chino (simplificado, China)	cmn-Hans-CN
Alemán (Alemania)	de-DE
Inglés (Reino Unido)	en-GB
Inglés (India)	en-IN
Inglés (EE. UU.)	en-US
Español (España)	es-ES
Español (Estados Unidos)	es-US
Francés (Canadá)	fr-CA
Francés (Francia)	fr-FR
Hindi (India)	hi-IN
Italiano (Italia)	it-IT
Japonés (Japón)	ja-JP
Coreano (Corea)	ko-KR
Portugués (Brasil)	pt-BR

Asistencia y limitaciones de funciones

Chirp 3 admite las siguientes funciones:

Función	Descripción	Fase de lanzamiento
Puntuación automática	Se genera automáticamente por el modelo y se puede inhabilitar de forma opcional.	Vista previa
Uso automático de mayúsculas	Se genera automáticamente por el modelo y se puede inhabilitar de forma opcional.	Vista previa
Diarización de interlocutores	Identificar automáticamente a los diferentes interlocutores en una muestra de audio de un solo canal.	Vista previa
Transcripción de audio independiente del idioma.	El modelo infiere automáticamente el idioma hablado en tu archivo de audio y lo transcribe al idioma más predominante.	Vista previa

Chirp 3 no admite las siguientes funciones:

Función	Descripción
Tiempos de las palabras (marcas de tiempo)	Se genera automáticamente por el modelo y se puede inhabilitar de forma opcional.
Puntuaciones de confianza a nivel de palabra	La API devuelve un valor, pero no es una puntuación de confianza.
Adaptación de voz (sesgo)	Proporciona sugerencias al modelo en forma de frases o palabras para mejorar la precisión del reconocimiento de términos o nombres propios específicos.

Usar Chirp 3

Usar Chirp 3 para tareas de transcripción y diarización.

Transcribir con una solicitud por lotes de Chirp 3 con diarización

Descubre cómo usar Chirp 3 para tus necesidades de transcripción

Realizar el reconocimiento de voz por lotes

import os

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def transcribe_batch_chirp3(
    audio_uri: str,
) -> cloud_speech.BatchRecognizeResults:
    """Transcribes an audio file from a Google Cloud Storage URI using the Chirp 3 model of Google Cloud Speech-to-Text V2 API.
    Args:
        audio_uri (str): The Google Cloud Storage URI of the input
          audio file. E.g., gs://[BUCKET]/[FILE]
    Returns:
        cloud_speech.RecognizeResponse: The response from the
           Speech-to-Text API containing the transcription results.
    """

    # Instantiates a client
    client = SpeechClient(
        client_options=ClientOptions(
            api_endpoint="us-west1-speech.googleapis.com",
        )
    )

    speaker_diarization_config = cloud_speech.SpeakerDiarizationConfig(
        min_speaker_count=1,  # minimum number of speakers
        max_speaker_count=6,  # maximum expected number of speakers
    )

    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        language_codes=["en-US"],  # Use "auto" to detect language
        model="chirp_3",
        features=cloud_speech.RecognitionFeatures(
            diarization_config=speaker_diarization_config,
        ),
    )

    file_metadata = cloud_speech.BatchRecognizeFileMetadata(uri=audio_uri)

    request = cloud_speech.BatchRecognizeRequest(
        recognizer=f"projects/{PROJECT_ID}/locations/us-west1/recognizers/_",
        config=config,
        files=[file_metadata],
        recognition_output_config=cloud_speech.RecognitionOutputConfig(
            inline_response_config=cloud_speech.InlineOutputConfig(),
        ),
    )

    # Transcribes the audio into text
    operation = client.batch_recognize(request=request)

    print("Waiting for operation to complete...")
    response = operation.result(timeout=120)

    for result in response.results[audio_uri].transcript.results:
        print(f"Transcript: {result.alternatives[0].transcript}")
        print(f"Detected Language: {result.language_code}")
        print(f"Speakers per word: {result.alternatives[0].words}")

    return response.results[audio_uri].transcript