使用模型

在生产应用或基准化分析工作流中使用经过训练的自定义 Speech-to-Text 模型。通过专用端点部署模型后,您将通过识别器对象自动获取程序化访问权限,可以直接通过 Speech-to-Text V2 API 或在 Google Cloud 控制台中使用。

准备工作

确保您已注册 Google Cloud 账号、创建项目、训练自定义语音模型,并使用端点进行部署。

在 V2 中进行推理

为了使自定义 Speech-to-Text 模型可供使用,模型选项卡中的模型状态应为活跃,并且端点选项卡中的专用端点必须为已部署

在本示例中,如果 Google Cloud 项目 ID 为 custom-models-walkthrough,则与自定义 Speech-to-Text 模型 quantum-computing-lectures-custom-model 对应的端点为 quantum-computing-lectures-custom-model-prod-endpoint。可用区域是 us-east1,批量转写请求如下所示:

from google.api_core import client_options
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def quickstart_v2(
    project_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    """Transcribe an audio file."""
    # Instantiates a client
    client = SpeechClient(
    client_options=client_options.ClientOptions(
      api_endpoint="us-east1-speech.googleapis.com"
    )
  )

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        language_codes=["en-US"],
        model="projects/custom-models-walkthrough/locations/us-east1/endpoints/quantum-computing-lectures-custom-model-prod-endpoint",
    )
    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/custom-models-walkthrough/locations/us-east1/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

后续步骤

请按照以下资源在应用中利用自定义语音模型。请参阅评估自定义模型