Os modelos de conversão de voz em texto personalizados ajudam a otimizar os modelos de reconhecimento de voz de acordo com as suas necessidades específicas. Este serviço foi concebido para melhorar a precisão e a relevância do serviço de reconhecimento de voz em diversos ambientes e exemplos de utilização, através dos seus dados de áudio e texto específicos do domínio.
Acessíveis na nossa Google Cloud consola e API, os modelos de conversão de voz em texto personalizados permitem preparar, avaliar e implementar um modelo de voz dedicado num ambiente integrado sem código. Para a preparação, pode fornecer apenas dados de áudio representativos das suas condições de áudio, sem transcrições de referência como um conjunto de preparação. No entanto, tem de fornecer dados de áudio e as respetivas transcrições de referência como parte do conjunto de avaliação.
A criação e a utilização de um modelo de conversão de voz em texto personalizado envolvem os seguintes passos:
- Prepare e carregue dados de preparação num contentor do Cloud Storage.
- Prepare um novo modelo personalizado.
- Implemente e faça a gestão do seu modelo personalizado através de pontos finais.
- Use e avalie o seu modelo personalizado na sua aplicação.
Como funciona
Pode usar modelos de conversão de voz em texto personalizados para aumentar um modelo de transcrição base e melhorar o reconhecimento da transcrição. Algumas condições de áudio, incluindo sirenes, música e ruído de fundo excessivo, podem representar desafios acústicos. Determinados acentos ou vocabulário invulgar, como nomes de produtos, também podem ser considerados como tal.
Todos os modelos de conversão de voz em texto personalizados usam uma arquitetura baseada no Conformer pré-preparada como um modelo base preparado com dados proprietários de linguagem falada comummente. Durante o processo de preparação, o modelo base é otimizado através da adaptação de uma percentagem significativa das ponderações originais para melhorar o reconhecimento do vocabulário específico do domínio e das condições de áudio específicas da sua aplicação.
Para a preparação eficaz de um modelo de conversão de voz em texto personalizado, tem de fornecer:
- Mínimo de 100 horas de áudio de dados de preparação, apenas áudio ou áudio com a transcrição de texto correspondente como verdade fundamental. Estes dados são cruciais para a fase de preparação inicial, para que o modelo aprenda de forma abrangente as nuances dos padrões de voz e do vocabulário. Para ver detalhes, consulte o artigo Crie um conjunto de dados de verdade fundamental.
- Um conjunto de dados separado de, pelo menos, 10 horas de áudio de dados de validação, com a transcrição de texto correspondente como verdade fundamental. Pode saber mais sobre o formato esperado e as convenções de dados reais a seguir nas nossas instruções de preparação de dados.
Após uma preparação bem-sucedida, pode implementar um modelo de conversão de voz em texto personalizado num ponto final com um clique e usá-lo diretamente através da API Cloud Speech-to-Text V2 para inferência e testes de referência.
Modelos, idiomas e regiões suportados
Os modelos personalizados de conversão de voz em texto suportam as seguintes combinações de modelos e idiomas e localidades para a preparação:
Idioma | BCP-47 | Modelo base |
---|---|---|
Alemão (Alemanha) |
de-DE |
|
Inglês (Austrália) |
en-AU |
|
Inglês (Reino Unido) |
en-GB |
|
Inglês (Índia) |
en-IN |
|
Inglês (Estados Unidos) |
en-US |
|
Espanhol (Estados Unidos) |
es-US |
|
Espanhol (Espanha) |
es-ES |
|
Francês (Canadá) |
fr-CA |
|
Francês (França) |
fr-FR |
|
Hindi (Índia) |
hi-IN |
|
Italiano (Itália) |
it-IT |
|
Japonês (Japão) |
ja-JP |
|
Coreano (Coreia do Sul) |
ko-KR |
|
Neerlandês (Países Baixos) |
nl-NL |
|
Português (Brasil) |
pt-BR |
|
Português (Portugal) |
pt-PT |
|
Além disso, para agir em conformidade com os seus requisitos de residência dos dados, oferecemos hardware de preparação e implementação em diferentes regiões. O hardware dedicado é suportado nas seguintes combinações de modelos e regiões:
Modelo base | Google Cloud Região | Tarefas suportadas |
---|---|---|
|
|
Formação e implementação |
|
|
Formação e implementação |
Quota
Para a preparação do modelo Speech-to-Text personalizado, cada Google Cloud projeto deve ter quota predefinida suficiente para executar várias tarefas de preparação em simultâneo e destina-se a satisfazer as necessidades da maioria dos projetos sem ajustes adicionais. No entanto, se precisar de executar um número mais elevado de tarefas de preparação simultâneas ou precisar de recursos de computação ou etiquetagem mais extensos, peça uma quota adicional.
Para um modelo de conversão de voz em texto personalizado que sirva uma implementação de ponto final, cada ponto final tem um limite teórico de 20 consultas por segundo (CPS). Se for necessário um débito mais elevado, peça uma quota de publicação adicional.
Preços
A criação e a utilização de um modelo de conversão de voz em texto personalizado envolvem determinados custos que se baseiam principalmente nos recursos usados durante a preparação e a implementação subsequente do modelo. Especificamente, o modelo de conversão de voz em texto personalizado incorre nos seguintes custos num ciclo de vida típico do modelo:
- Preparação: é-lhe cobrado o número de horas de preparação de modelos. Este tempo é proporcional à quantidade de horas de áudio no conjunto de dados de preparação. Por norma, a preparação demora um décimo do número de horas de áudio no conjunto de dados.
- Implementação: é-lhe cobrado o valor correspondente a cada hora em que um modelo é implementado num ponto final.
- Inferência: é-lhe cobrado o número de segundos de áudio transmitidos para transcrição, em conformidade com a faturação geral da API Speech-to-Text.
Compreender estes custos é fundamental para uma orçamentação e uma atribuição de recursos eficazes. Para mais informações, na secção Modelos personalizados de conversão de voz em texto, consulte os preços do Cloud Speech-to-Text.
O que se segue?
Siga os recursos para tirar partido dos modelos de voz personalizados na sua aplicação:
- Prepare os dados de preparação
- Prepare e faça a gestão dos seus modelos personalizados
- Implemente e faça a gestão de pontos finais de modelos
- Use os seus modelos personalizados
- Avalie os seus modelos personalizados