Esta página foi traduzida pela API Cloud Translation.

Transcrever áudio

Nesta página, mostramos como transcrever arquivos de áudio em texto usando o appliance isolado da API Speech-to-Text no Google Distributed Cloud (GDC).

O serviço Speech-to-Text da Vertex AI no dispositivo isolado do GDC reconhece a fala em arquivos de áudio. A API Speech-to-Text converte o áudio detectado em transcrições de texto usando a API pré-treinada.

Antes de começar

Antes de começar a usar a API Speech-to-Text, é preciso ter um projeto com a API Speech-to-Text ativada e as credenciais apropriadas. Também é possível instalar bibliotecas de cliente para ajudar você a fazer chamadas para a API. Para mais informações, consulte Configurar um projeto de reconhecimento de fala.

Transcrever áudio com o modelo padrão

O Speech-to-Text realiza o reconhecimento de fala. Você envia o arquivo de áudio de que quer reconhecer a fala diretamente como conteúdo na solicitação da API. O sistema retorna o texto transcrito resultante na resposta da API.

É necessário fornecer um objeto de configuração RecognitionConfig ao fazer uma solicitação de reconhecimento de fala. Esse objeto informa à API como processar seus dados de áudio e qual tipo de saída você espera. Se um modelo não for especificado explicitamente nesse objeto de configuração, o Speech-to-Text vai selecionar um modelo padrão. A Speech-to-Text no dispositivo isolado do GDC só é compatível com o modelo padrão.

Siga estas etapas para usar o serviço Speech-to-Text de um script Python para transcrever a fala de um arquivo de áudio:

Instale a versão mais recente da biblioteca de cliente da Speech-to-Text.
Defina as variáveis de ambiente necessárias em um script Python.
Autentique sua solicitação de API.

Adicione o seguinte código ao script Python que você criou:

import base64

from google.cloud import speech_v1p1beta1
import google.auth
from google.auth.transport import requests
from google.api_core.client_options import ClientOptions

audience="https://ENDPOINT:443"
api_endpoint="ENDPOINT:443"

def get_client(creds):
  opts = ClientOptions(api_endpoint=api_endpoint)
  return speech_v1p1beta1.SpeechClient(credentials=creds, client_options=opts)

def main():
  creds = None
  try:
    creds, project_id = google.auth.default()
    creds = creds.with_gdch_audience(audience)
    req = requests.Request()
    creds.refresh(req)
    print("Got token: ")
    print(creds.token)
  except Exception as e:
    print("Caught exception" + str(e))
    raise e
  return creds

def speech_func(creds):
  tc = get_client(creds)

  content="BASE64_ENCODED_AUDIO"

  audio = speech_v1p1beta1.RecognitionAudio()
  audio.content = base64.standard_b64decode(content)
  config = speech_v1p1beta1.RecognitionConfig()
  config.encoding= speech_v1p1beta1.RecognitionConfig.AudioEncoding.ENCODING
  config.sample_rate_hertz=RATE_HERTZ
  config.language_code="LANGUAGE_CODE"
  config.audio_channel_count=CHANNEL_COUNT

  metadata = [("x-goog-user-project", "projects/PROJECT_ID")]
  resp = tc.recognize(config=config, audio=audio, metadata=metadata)
  print(resp)

if __name__=="__main__":
  creds = main()
  speech_func(creds)

Substitua:

ENDPOINT: o endpoint do Speech-to-Text que você usa na sua organização. Para mais informações, consulte o status do serviço e os endpoints.
PROJECT_ID: o ID do projeto.
BASE64_ENCODED_AUDIO: os bytes de dados de áudio codificados em uma representação Base64. Essa string começa com caracteres semelhantes a ZkxhQwAAACIQABAAAAUJABtAA+gA8AB+W8FZndQvQAyjv.
ENCODING: a codificação dos dados de áudio enviados na solicitação, como LINEAR16.
RATE_HERTZ: taxa de amostragem em Hertz dos dados de áudio enviados na solicitação, como 16000.
LANGUAGE_CODE: o idioma do áudio fornecido como uma tag de idioma BCP-47. Confira a lista de idiomas aceitos e os respectivos códigos.
CHANNEL_COUNT: o número de canais nos dados de áudio de entrada, como 1.

Salve o script Python.
Execute o script Python para transcrever o áudio:
```
python SCRIPT_NAME
```
Substitua SCRIPT_NAME pelo nome que você deu ao script do Python, por exemplo, speech.py.

Transcrever áudio Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Transcrever áudio com o modelo padrão

Transcrever áudio