Usar modelos

Use um modelo personalizado da Speech-to-Text treinado nos seus fluxos de trabalho de comparativo de mercado e aplicativo de produção. Assim que você implanta o modelo por um endpoint dedicado, você recebe automaticamente acesso programático por um objeto reconhecedor, que pode ser usado diretamente pela API Speech-to-Text V2 ou no console do Google Cloud.

Antes de começar

Verifique se você se inscreveu em uma conta do Google Cloud, criou um projeto, treinou um modelo de fala personalizado e o implantou usando um endpoint.

Realizar inferência na V2

Para que um modelo personalizado da Speech-to-Text esteja pronto para uso, o estado do modelo na guia Modelos precisa ser Ativo e o endpoint dedicado na guia Endpoints precisa ser Implantado.

No nosso exemplo, em que um ID do projeto do Google Cloud é custom-models-walkthrough, o endpoint que corresponde ao modelo personalizado da Speech-to-Text quantum-computing-lectures-custom-model é quantum-computing-lectures-custom-model-prod-endpoint. A região que está disponível é us-east1, e a solicitação de transcrição em lote é esta:

from google.api_core import client_options
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def quickstart_v2(
    project_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    """Transcribe an audio file."""
    # Instantiates a client
    client = SpeechClient(
    client_options=client_options.ClientOptions(
      api_endpoint="us-east1-speech.googleapis.com"
    )
  )

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        language_codes=["en-US"],
        model="projects/custom-models-walkthrough/locations/us-east1/endpoints/quantum-computing-lectures-custom-model-prod-endpoint",
    )
    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/custom-models-walkthrough/locations/us-east1/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

A seguir

Siga os recursos para aproveitar os modelos de fala personalizados no seu aplicativo. Consulte Avaliar os modelos personalizados.