Modelo de fala universal (EUA)

O Modelo universal de fala (USM, na sigla em inglês) é a última geração de modelos do Speech-to-Text do Google. Esses modelos representam o ápice de muitos anos de trabalho das equipes de pesquisa do Google. Agora, estamos disponibilizando nossa primeira iteração do USM. No entanto, os modelos atuais são apenas o começo de um novo e empolgante conjunto de modelos e pesquisas que continuará a trazer novos recursos. Conforme avançamos na oferta, você pode conferir atualizações do modelo e outros identificadores de modelo relacionados ao USM.

Os modelos de fala universais são treinados com uma arquitetura diferente dos nossos modelos de fala atuais. Um único modelo contém dados de vários idiomas diferentes. Apesar da unificação dos dados de treinamento e do modelo, ainda é necessário especificar o idioma em que o modelo deve tentar reconhecer a fala. O USM não é compatível com alguns recursos do Google Speech que outros modelos têm. Confira abaixo uma lista completa. O modelo também pode produzir saída de maneira diferente de outros modelos do Google Speech.

Identificadores de modelo

O USM está disponível na API Cloud Speech-to-Text v2. É possível aproveitá-lo como qualquer outro modelo.

O identificador do modelo USM é: usm

É possível especificar esse modelo ao criar um reconhecedor para usar o modelo de fala universal (USM, na sigla em inglês).

Preços

Durante o pré-lançamento particular, o uso do USM é gratuito. Vamos comunicar o preço do modelo em uma data posterior.

Métodos de API disponíveis

Os modelos de fala universais processam a fala em lotes muito maiores. Isso significa que eles podem não ser adequados para o uso em tempo real, da mesma forma que outros modelos da Speech-to-Text. O USM está disponível pelos seguintes métodos de API:

  • v2 Speech.Recognize (ideal para áudios curtos < 1 minuto)
  • v2 Speech.BatchRecognize (bom para o áudio longo de 1 minuto a 8 horas)

O modelo de fala universal não está disponível nos seguintes métodos de API:

  • v2 Speech.StreamingRecognize
  • v1 Speech.StreamingRecognize
  • v1 Speech.Recognize
  • v1 Speech.LongRunningRecognize
  • v1p1beta1 Speech.StreamingRecognize
  • v1p1beta1 Speech.Recognize
  • v1p1beta1 Speech.LongRunningRecognize

Idiomas

Você pode transmitir os seguintes códigos de idioma:

  • af-ZA
  • am-ET
  • ar-EG
  • az-AZ
  • be-BY
  • bg-BG
  • bn-BD
  • ca-ES
  • zh-Hans-CN
  • cs-CZ
  • da-DK
  • de-DE
  • el-GR
  • en-AU
  • en-GB
  • en-IN
  • en-US
  • es-US
  • et-EE
  • eu-ES
  • fa-IR
  • fi-FI
  • fil-PH
  • fr-CA
  • fr-FR
  • gl-ES
  • gu-IN
  • iw-IL
  • hi-IN
  • hu-HU
  • hy-AM
  • id-ID
  • is-IS
  • it-IT
  • ja-JP
  • jv-ID
  • ka-GE
  • kk-KZ
  • km-KH
  • kn-IN
  • ko-KR
  • lo-LA
  • lt-LT
  • lv-LV
  • mk-MK
  • ml-IN
  • mn-MN
  • mr-IN
  • ms-MY
  • my-MM
  • no-NO
  • ne-NP
  • nl-NL
  • pa-Guru-IN
  • pl-PL
  • pt-BR
  • ro-RO
  • ru-RU
  • si-LK
  • sk-SK
  • sl-SI
  • sq-AL
  • sr-RS
  • su-ID
  • sv-SE
  • sw
  • ta-IN
  • te-IN
  • th-TH
  • tr-TR
  • uk-UA
  • ur-PK
  • uz-UZ
  • vi-VN
  • yue-Hant-HK
  • zu-ZA
  • as-IN
  • ast-ES
  • bs-BA
  • ceb-PH
  • ckb-IQ
  • cy-GB
  • ha-NG
  • hr-HR
  • kam-KE
  • kea-CV
  • ky-KG
  • lb-LU
  • ln-CD
  • luo-KE
  • mi-NZ
  • mt-MT
  • nso-ZA
  • ny-MW
  • oc-FR
  • or-IN
  • ps-AF
  • sd-IN
  • sn-ZW
  • so-SO
  • tg-TJ
  • wo-SN
  • yo-NG

Suporte e limitações dos recursos

No momento, o modelo de fala universal não oferece suporte a muitos dos recursos da API STT. Confira abaixo as restrições específicas.

  • Pontuações de confiança: a API retorna um valor específico, mas não é uma pontuação de confiança.
  • Adaptação de fala: não há recursos de adaptação compatíveis.
  • Diarização: a diarização automática não é compatível. A separação de canais não é compatível.
  • Pontuação: não há suporte para a pontuação falada. Não há suporte para pontuação automática.
  • Normalização forçada: não compatível.
  • Nível de confiança de palavras: não compatível.
  • Detecção de idioma: não compatível.
  • Tempos de palavra: não compatível.

Observação sobre pontuação

O USM disponível na visualização particular não produz qualquer pontuação de nenhum tipo. Isso deve ser considerado durante as avaliações. Estamos trabalhando para adicionar pontuação automática assim que possível, porque sabemos que é importante para muitos casos de uso em que o USM é útil.

Introdução à IU do console do Cloud

  1. Verifique se você se inscreveu em uma conta do Google Cloud e criou um projeto. Você precisa usar o projeto e a conta que foram permitidos no USM.
  2. Acesse Speech no console do Google Cloud.
  3. Ative a API, se ainda não tiver feito isso.
  4. Criar um reconhecedor STT que usa o modelo de fala universal

    • Acesse a guia "Reconhecedores" e clique em "Criar".

      Captura de tela da lista de reconhecedores da Speech-to-text.

    • Na página Create Recognizer, digite os campos necessários para o USM.

      Captura de tela da página "Criar transcrição" do Speech-to-Text.

      • Dê qualquer nome ao reconhecedor.
      • Atualmente, o USM está disponível apenas na região us-central1. Selecione region e depois us-central1.
      • Selecione "usm" como o modelo. Se "usm" não aparecer na lista de modelos, isso significa que seu projeto não está na lista.
      • Selecione o idioma que você quer usar. Você precisará de um reconhecedor por idioma que planeja testar.
      • Não selecione outros recursos.
  5. Verifique se você tem um espaço de trabalho da IU STT na região us-central1. Talvez seja necessário criar um novo espaço de trabalho.

    • Acesse a página de transcrições em console.cloud.google.com/speech/transcriptions.
    • Na página "Transcrições", clique em Nova transcrição.
    • Abra o menu suspenso Workspace e clique em "Novo espaço de trabalho" para criar um espaço de trabalho para transcrição.
    • No menu de navegação Create a new workspace, clique em Browse.
    • Clique no ícone de novo bucket para criar um bucket do Cloud Storage que representa o espaço de trabalho.
    • Digite um nome para o bucket e clique em "Continuar".
    • [IMPORTANTE] Selecione region e us-central1 no menu suspenso para garantir que o modelo de fala universal seja capaz de processar seu áudio.
    • Clique em create para criar um bucket do Cloud Storage.
    • Depois que o bucket for criado, clique em select para selecionar o bucket a ser usado.
    • Clique em create para concluir a criação do espaço de trabalho para a IU de conversão de voz em texto.
  6. Faça uma transcrição no áudio que você está usando.

    Captura de tela da página de criação de transcrição da Speech-to-text, mostrando a seleção ou o upload do arquivo.
    • Na página "Nova transcrição", selecione o arquivo de áudio pelo upload ("upload local") ou especificando um arquivo existente do Cloud Storage ("armazenamento em nuvem"). A IU tentará avaliar os parâmetros do arquivo de áudio automaticamente.
    • Clique em "Continuar" para acessar as "Opções de transcrição"
    Captura de tela da página de criação de transcrição de conversão de voz em texto mostrando a seleção do Modelo de fala universal e o envio de um job de transcrição.
    • Selecione o "idioma falado" que você planeja usar para reconhecimento com o modelo de fala universal do reconhecedor criado anteriormente.
    • Na lista suspensa de modelos, selecione "Modelo de fala universal".
    • No menu suspenso "reconhecedor", selecione o reconhecedor recém-criado.
    • Clique em submit para executar sua primeira solicitação de reconhecimento usando o modelo de fala universal.
  7. Conferir o resultado da transcrição do seu modelo de fala universal

    • Na página "Transcrições", clique no nome da transcrição para ver o resultado.
    • Na página "Detalhes da transcrição", verifique o resultado da transcrição e, se quiser, reproduza o áudio no navegador.

Começar a usar o notebook Python

Este guia ajudará você a usar nosso notebook Python para começar a usar o USM na API STT v2.

  1. Verifique se você se inscreveu em uma conta do Google Cloud e criou um projeto. Você precisa usar o projeto e a conta que foram permitidos no USM.
  2. Verifique se você tem um ambiente de notebook Python em funcionamento.
  3. Confira nosso notebook aqui e faça sua própria cópia.
  4. Execute o notebook no ambiente de execução de sua preferência. Siga as instruções no notebook para configurar a autenticação e os reconhecedores e depois executar as solicitações de transcrição.