Cloud Speech-to-Text

Spraak naar tekst converteren, mogelijk gemaakt door machine learning en beschikbaar voor korte en lange audio-opnamen.

Kosteloos uitproberen

Bekijk de documentatie voor dit product.

Krachtige spraakherkenning

Met Cloud Speech-to-Text kunnen ontwikkelaars audio converteren naar tekst door krachtige neurale netwerkmodellen toe te passen in een gebruiksvriendelijke API. Deze API herkent meer dan 120 talen en taalvarianten ter ondersteuning van gebruikers over de hele wereld. U kunt spraakopdrachten inschakelen, een transcript maken van audio van callcenters en meer. De API kan realtime streaming of vooraf opgenomen audio verwerken dankzij de machine learning-technologie van Google.

speech-api-lead

Converteer nu uw spraak naar tekst *

Selecteer een taal en klik op 'Nu starten' om de opname te starten

* Deze demo is gebaseerd op een voorbeeld-app/voorbeeld-UI die is ontworpen met de Cloud Text-to-Speech API

Mogelijk gemaakt door machine learning

U kunt met ongekende nauwkeurigheid de meest geavanceerde neurale netwerkalgoritmen voor deep learning voor spraakherkenning toepassen op audio. Cloud Speech-to-Text wordt bovendien steeds nauwkeuriger doordat Google de interne spraakherkenningstechnologie voor Google-producten blijft verbeteren.

Herkent 120 talen en varianten

Cloud Speech-to-Text biedt ondersteuning voor gebruikers wereldwijd dankzij de herkenning van 120 talen en varianten. Verder kunt u voor alle talen ongepaste content uit tekstresultaten filteren.

Identificeert automatisch gesproken taal

Met Cloud Speech-to-Text kunt u de taal vaststellen die in gesproken tekst wordt gebezigd (beperkt tot vier talen). Dit kan worden gebruikt voor gesproken zoekopdrachten (zoals: 'Wat is de temperatuur in Parijs?') en bij het geven van opdrachten (zoals 'Zet het volume hoger.').

Retourneert teksttranscriptie in realtime voor korte en lange audio-opnamen

Cloud Speech-to-Text kan tekstresultaten streamen en tekst onmiddellijk retourneren terwijl deze wordt herkend door streamingaudio of terwijl de gebruiker spreekt. Het is ook mogelijk herkende tekst uit audio in een bestand te retourneren. De API kan korte en lange audio-opnamen analyseren.

Maakt automatisch een transcript van eigennamen en contextspecifieke opmaak

Cloud Speech-to-Text is ontworpen om echte spraak goed te verwerken en kan correcte transcripts maken van eigennamen (zoals Sundar Pichai) en taal op de juiste manier opmaken (zoals datums en telefoonnummers). Google ondersteunt meer dan tien keer zoveel eigennamen als het aantal woorden in de volledige Oxford English Dictionary.

Biedt een selectie van vooraf gebouwde modellen, afgestemd op uw toepassing

Cloud Speech-to-Text wordt geleverd met meerdere kant-en-klare spraakherkenningsmodellen, die u kunt optimaliseren voor uw specifieke gebruik (zoals spraakopdrachten). Voorbeeld: ons kant-en-klare videotranscriptiemodel is ideaal voor het indexeren of ondertitelen van video en/of opnamen van meerdere sprekers en maakt gebruik van machine learning-technologie die vergelijkbaar is met YouTube-ondertiteling.

Model Beschrijving
command_and_search Het beste voor korte opdrachten, zoals spraakopdrachten of gesproken zoekopdrachten.
phone_call Het beste voor audio die afkomstig is van een telefoongesprek (meestal opgenomen met een samplingsnelheid van 8 kHz).
video Het beste voor audio die afkomstig is van video of die meerdere sprekers bevat. In het ideale geval is de audio opgenomen met een samplingsnelheid van 16 kHz of hoger. Dit is een premiummodel dat meer kost dan het standaardtarief.
default Het beste voor audio die niet behoort tot de specifieke audiomodellen. Bijvoorbeeld een lange audio-opname. In het ideale geval is de audio High Fidelity, opgenomen met een samplingsnelheid van 16 kHz of hoger.

Kenmerken van Cloud Speech-to-Text

Spraak naar tekst converteren, mogelijk gemaakt door machine learning

Automatische spraakherkenning
Dankzij neurale netwerken voor deep learning kan spraak automatisch worden herkend voor toepassingen zoals gesproken zoekopdrachten of spraaktranscriptie.
Wereldwijde woordenschat
Herkent 120 talen en taalvarianten met een uitgebreid vocabulaire.
Aangepaste spraakherkenning
Pas spraakherkenning handmatig aan voor uw bedrijf door tot vijfduizend woorden of woordcombinaties te specificeren die waarschijnlijk worden gebruikt (zoals productnamen). U kunt ook automatisch gesproken nummers converteren naar adressen, jaren of valuta's, of andere conversies uitvoeren, afhankelijk van de context.
Ondersteuning voor realtime streaming en opgenomen audio
Audio-invoer kan worden gestreamd vanaf een microfoon of worden verzonden vanuit een eerder opgenomen audiobestand (inline of via Google Cloud Storage). De API ondersteunt diverse audiocoderingen, waaronder FLAC, AMR, PCMU en Linear-16.
Automatische taaldetectieBÈTA
Wanneer u meertalige scenario's moet ondersteunen, kunt u nu twee tot vier taalcodes opgeven. Cloud Speech-to-Text herkent dan de gesproken taal en levert het transcript.
Bestand tegen ruis
Verwerkt lawaaierige audio uit allerlei omgevingen zonder extra ruisonderdrukking.
Filteren van ongepaste content
Filter ongepaste content uit tekstresultaten in bepaalde talen.
Automatische leestekensBÈTA
Voorziet transcripties correct van leestekens (zoals komma's, vraagtekens en punten) met machine learning.
Modelselectie
Kies uit een selectie van vier vooraf ontworpen modellen: standaard, spraakopdrachten en zoeken, telefoongesprekken en videotranscriptie.
SprekerdiarisatieBÈTA
Weet wie wat zei: u kunt nu automatisch voorspellingen krijgen over welke van de sprekers in een gesprek wat heeft gezegd.
Herkenning via meerdere kanalen
Bij opnamen met meerdere deelnemers waarbij elke deelnemer wordt opgenomen op een afzonderlijk kanaal (bijvoorbeeld een telefoongesprek met twee kanalen of een videovergadering met vier kanalen), herkent Cloud Speech-to-Text elk kanaal afzonderlijk en annoteert de transcripties zodat ze dezelfde volgorde hebben als in werkelijkheid.

Prijzen van Cloud Speech-to-Text API

Krachtige spraakherkenning

Kosten voor Cloud Speech-to-Text worden per 15 seconden aan verwerkte audio in rekening gebracht na een Free Tier van 60 minuten. Zie ons prijsoverzicht voor meer informatie.

Functie Standaardmodellen (alle modellen behalve geoptimaliseerde telefoongesprekken en video) Premium modellen* (geoptimaliseerde telefoongesprekken, video)
0 tot 60 minuten Vanaf 60 minuten tot 1 miljoen minuten 0 tot 60 minuten Vanaf 60 minuten tot 1 miljoen minuten
Spraakherkenning (zonder logboekregistratie van gegevens, standaard) Gratis $ 0,006 per 15 seconden** Gratis $ 0,009 per 15 seconden**
Spraakherkenning (met toestemming voor logboekregistratie van gegevens) Gratis $ 0,004 per 15 seconden** Gratis $ 0,006 per 15 seconden**

Deze prijs geldt voor gebruik op persoonlijke systemen (zoals telefoons, tablets, laptops, desktops). Neem contact met ons op voor goedkeuring en prijzen als u de Speech-to-Text API wilt gebruiken in ingesloten apparaten (zoals auto's, tv's, huishoudelijke apparatuur of speakers).

* Momenteel alleen beschikbaar voor Amerikaans-Engels.

** Elk verzoek wordt naar boven afgerond op de dichtstbijzijnde stap van 15 seconden. Voor drie afzonderlijke verzoeken (standaardmodel) die elk 7 seconden aan audio bevatten, wordt er bijvoorbeeld $ 0,018 USD in rekening gebracht voor 45 seconden aan audio (3 x 15 seconden). Fracties van seconden worden meegerekend bij de afronding naar boven op de dichtstbijzijnde stap van 15 seconden. Dat wil zeggen dat we 15,14 seconden naar boven afronden en als 30 seconden in rekening brengen.

Pictogram van load balancing

Producten of functies op deze pagina bevinden zich in de bètafase. Kijk hier voor meer informatie over de lanceringsfasen van onze producten.

Cloud AI-producten voldoen aan het SLA-beleid dat hier te vinden is. De hierin genoemde garanties voor wachttijden of beschikbaarheid kunnen afwijken van de garanties voor andere Google Cloud-services.

Feedback verzenden over...

Cloud Speech-to-Text