Cloud Speech-to-Text

Spraak naar tekst converteren, mogelijk gemaakt door machine learning en beschikbaar voor korte en lange audio-opnamen.

Kosteloos uitproberen

Krachtige spraakherkenning

Met Cloud Speech-to-Text kunnen ontwikkelaars audio converteren naar tekst door krachtige neurale netwerkmodellen toe te passen in een gebruiksvriendelijke API. Deze API herkent meer dan 120 talen en taalvarianten ter ondersteuning van gebruikers over de hele wereld. U kunt spraakbediening inschakelen, een transcript maken van audio van callcenters en meer. De API kan realtime streaming of vooraf opgenomen audio verwerken dankzij de machine learning-technologie van Google.

speech-api-lead

Converteer nu uw spraak naar tekst

Selecteer een taal en klik op 'Nu starten' om te beginnen met opnemen

Mogelijk gemaakt door machine learning

U kunt de meest geavanceerde neurale netwerkalgoritmen voor deep learning toepassen op audio voor een spraakherkenning met een ongekende nauwkeurigheid. Cloud Speech-to-Text wordt bovendien steeds nauwkeuriger doordat Google de interne spraakherkenningstechnologie voor Google-producten blijft verbeteren.

Herkent 120 talen en varianten

Cloud Speech-to-Text biedt ondersteuning voor gebruikers wereldwijd dankzij de herkenning van 120 talen en varianten. Verder kunt u voor alle talen ongepaste content uit tekstresultaten filteren.

Identificeert automatisch gesproken taal

Met Cloud Speech-to-Text kunt u identificeren welke taal wordt gesproken in iets wat wordt gezegd (maximaal vier talen). Dit kan worden gebruikt voor gesproken zoekopdrachten (zoals: "Wat is de temperatuur in Parijs?") en bij het geven van opdrachten (zoals: "Zet het volume hoger.").

Retourneert teksttranscriptie in realtime voor korte en lange audio-opnamen

Cloud Speech-to-Text kan tekstresultaten streamen en tekst onmiddellijk retourneren terwijl deze wordt herkend door streamingaudio of terwijl de gebruiker spreekt. Het is ook mogelijk herkende tekst uit audio in een bestand te retourneren. De API kan korte en lange audio-opnamen analyseren.

Maakt automatisch een transcript van eigennamen en contextspecifieke opmaak

Cloud Speech-to-Text is ontworpen om goed met echte spraak te werken en kan correcte transcripts maken van eigennamen (zoals Sundar Pichai) en taal op de juiste manier opmaken (zoals datums en telefoonnummers). Google ondersteunt meer dan tien keer meer zoveel eigennamen als het aantal woorden in de volledige Oxford English Dictionary.

Biedt een selectie van vooraf gebouwde ontworpen, afgestemd op uw toepassing

Cloud Speech-to-Text wordt geleverd met meerdere vooraf gebouwde spraakherkenningsmodellen, die u kunt optimaliseren voor uw toepassing (zoals spraakopdrachten). Voorbeeld: ons vooraf gebouwde videotranscriptiemodel is ideaal voor het indexeren of ondertitelen van video en/of opnamen van meerdere sprekers en maakt gebruik van machine learning-technologie die vergelijkbaar is met YouTube-ondertiteling.

Model Beschrijving
command_and_search Het beste voor korte opdrachten, zoals spraakopdrachten of gesproken zoekopdrachten.
phone_call Het beste voor audio die afkomstig is van een telefoongesprek (meestal opgenomen met een samplingfrequentie van 8 khz)
video Het beste voor audio die afkomstig is van video of die meerdere sprekers bevat. In het ideale geval is de audio opgenomen met een samplingfrequentie van 16 kHz of hoger. Dit is een premiummodel dat meer kost dan het standaardtarief.
standaard Het beste voor audio die niet behoort tot de specifieke audiomodellen. Bijvoorbeeld een lange audio-opname. In het ideale geval is de audio High-Fidelity, opgenomen met een samplingfrequentie van 16 kHz of hoger.

Kenmerken van Cloud Speech-to-Text

Spraak naar tekst converteren, mogelijk gemaakt door machine learning.

Automatische spraakherkenning
Dankzij neurale netwerken voor deep learning kan spraak automatisch worden herkend voor toepassingen zoals gesproken zoekopdrachten of spraaktranscriptie.
Wereldwijde woordenschat
Herkent 120 talen en taalvarianten met een uitgebreid vocabulaire.
Hints voor woordgroepen
Spraakherkenning kan aan een specifieke context worden aangepast door een set woorden en woordgroepen op te geven die waarschijnlijk worden gezegd. Dit is vooral nuttig als u custom woorden en namen aan een vocabulaire wilt toevoegen of spraakbediening wilt gebruiken.
Ondersteuning voor realtime streaming en opgenomen audio
Audio-invoer kan worden gestreamd vanaf een microfoon of worden verzonden vanuit een eerder opgenomen audiobestand (inline of via Google Cloud Storage). De API ondersteunt diverse audiocoderingen, waaronder FLAC, AMR, PCMU en Linear-16.
Automatische taaldetectieBÈTA
Wanneer u meertalige scenario's moet ondersteunen, kunt u nu twee tot vier taalcodes opgeven. Cloud Speech-to-Text herkent dan de gesproken taal en levert het transcript.
Bestand tegen ruis
Verwerkt rumoerige audio uit allerlei omgevingen zonder extra ruisonderdrukking.
Filteren van ongepaste content
Filter ongepaste content uit tekstresultaten in bepaalde talen.
Automatische leestekensBÈTA
Voorziet transcripties correct van leestekens (zoals komma's, vraagtekens en punten) met machine learning.
ModelselectieBÈTA
Kies uit een selectie van vier vooraf ontworpen modellen: standaard, spraakopdrachten en zoeken, telefoongesprekken en videotranscriptie.
SprekerdiarisatieBÈTA
Weet wie wat zei: u kunt nu automatisch voorspellingen krijgen over welke van de sprekers in een gesprek wat heeft gezegd.
Herkenning van meerdere kanalenBÈTA
Bij opnamen met meerdere deelnemers waarbij elke deelnemer wordt opgenomen op een afzonderlijk kanaal (bijvoorbeeld een telefoongesprek met twee kanalen of een videovergadering met vier kanalen), herkent Cloud Speech-to-Text elk kanaal afzonderlijk en annoteert de transcripties zodat ze dezelfde volgorde hebben als in het echte leven.

Prijzen van Cloud Speech-to-Text API

Krachtige spraakherkenning

Kosten voor Cloud Speech-to-Text API worden per 15 seconden aan verwerkte audio in rekening gebracht na een gratis tier van 60 minuten. Zie ons prijsoverzicht voor meer informatie.

Functie 0-60 minuten 60 tot 1 miljoen minuten
Spraakherkenning (alle modellen behalve video) Gratis $ 0,006 USD / 15 seconden*
Spraakherkenning in video's $ 0,006 $ 0,012 USD / 15 seconden*

Deze prijs geldt voor gebruik op persoonlijke systemen (zoals telefoons, tablets, laptops, desktops). Neem contact met ons op voor goedkeuring en prijzen als u de Speech-to-Text API wilt integreren in apparaten (zoals auto's, tv's, huishoudelijke apparatuur of luidsprekers).

* Elk verzoek wordt naar boven afgerond op de dichtstbijzijnde stap van 15 seconden. Voor drie afzonderlijke verzoeken die elk 7 seconden aan audio bevatten, wordt bijvoorbeeld $ 0,018 USD in rekening gebracht voor 45 seconden aan audio (3 x 15 seconden). Fracties van seconden worden meegerekend bij de afronding naar boven op de dichtstbijzijnde stap van 15 seconden. Dat wil zeggen dat 15,14 seconden naar boven worden afgerond en als 30 seconden in rekening worden gebracht.

Producten of functies op deze pagina bevinden zich in de bètafase. Kijk hier voor meer informatie over de lanceringsfasen van onze producten.

Feedback verzenden over...

Cloud Speech-to-Text API