Usa un modelo entrenado de Speech-to-Text personalizado en tus flujos de trabajo de aplicación de producción o de comparativas. En cuanto implementes tu modelo a través de un extremo dedicado, obtendrás acceso programático de manera automática a través de un objeto de reconocimiento, que se puede usar directamente a través de la API de Speech-to-Text V2 o en la consola de Google Cloud.
Antes de comenzar
Asegúrate de haberte registrado en una cuenta de Google Cloud, de haber creado un proyecto y de haber entrenado un modelo de voz personalizado y haberlo implementado con un extremo.
Realiza inferencias en V2
Para que un modelo personalizado de Speech-to-Text esté listo para usarse, el estado del modelo en la pestaña Modelos debería ser Activo, y el extremo dedicado en la pestaña Extremos debe ser Implementado.
En nuestro ejemplo, en el que el ID de un proyecto de Google Cloud es custom-models-walkthrough
, el extremo que corresponde al modelo personalizado de Speech-to-Text quantum-computing-lectures-custom-model
es quantum-computing-lectures-custom-model-prod-endpoint
. La región en la que está disponible es us-east1
, y la solicitud de transcripción por lotes es la siguiente:
from google.api_core import client_options
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
def quickstart_v2(
project_id: str,
audio_file: str,
) -> cloud_speech.RecognizeResponse:
"""Transcribe an audio file."""
# Instantiates a client
client = SpeechClient(
client_options=client_options.ClientOptions(
api_endpoint="us-east1-speech.googleapis.com"
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="projects/custom-models-walkthrough/locations/us-east1/endpoints/quantum-computing-lectures-custom-model-prod-endpoint",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/custom-models-walkthrough/locations/us-east1/recognizers/_",
config=config,
content=content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
return response
¿Qué sigue?
Sigue los recursos para aprovechar los modelos de voz personalizados en tu aplicación. Consulta Evalúa tus modelos personalizados.