Cloud Speech-to-Text

Makine öğrenimi tarafından desteklenen ve kısa biçim veya uzun biçim ses için mevcut olan konuşmayı metne dönüştürme hizmeti.

Ücretsiz Deneyin

Güçlü konuşma tanıma işlevi

Google Cloud Speech-to-Text, kullanımı kolay API ile güçlü nöral ağ modelleri uygulayarak geliştiricilerin sesi metne dönüştürmesini sağlar. API, global kullanıcı tabanınızı desteklemek için 120 dil ve lehçeyi tanır. Sesli komutu etkinleştirebilir, çağrı merkezlerinde ses dosyalarını yazıya dökebilir ve çok daha fazlasını yapabilirsiniz. API, Google'ın makine öğrenimi teknolojisini kullanarak gerçek zamanlı akışı veya önceden kaydedilmiş ses dosyalarını işleyebilir.

speech-api-lead

Konuşmanızı hemen metne dönüştürün

Dil seçin ve kayda başlamak için "Şimdi Başla" düğmesine tıklayın

Makine öğrenimi desteği

Benzersiz bir doğrulukla konuşma tanıma için, ses üzerinde en gelişmiş derin öğrenme nöral ağ algoritmalarını uygulayın. Google, ürünlerinde kullanılan konuşma tanıma teknolojisini geliştirdikçe, Cloud Speech-to-Text'in doğruluğu da zaman içinde artar.

120 dil ve lehçeyi tanır

Cloud Speech-to-Text, 120 dil ve lehçeyi tanıyarak global kullanıcı tabanınızı destekleyebilir. Ayrıca, tüm diller için metin sonuçlarındaki uygunsuz içerikleri filtreleyebilirsiniz.

Konuşulan dili otomatik olarak tanımlar

Cloud Speech-to-Text'i kullanarak bir ifadenin hangi dilde olduğunu tanımlayabilirsiniz (dört dille sınırlıdır). Bu özellik, sesli arama (ör: “Paris'te hava kaç derece?”) ve komut kullanım alanlarında (ör: “Sesi aç.”) kullanılabilir.

Kısa biçimli veya uzun biçimli sesler için konuşmaları gerçek zamanlı olarak metne dönüştürür

Cloud Speech-to-Text, metin sonuçlarının akışını sağlayabilir ve akışı yapılan sesten tanındıkça veya kullanıcı konuşurken sesi hemen metne dönüştürebilir. Alternatif olarak, Cloud Speech-to-Text dosyada depolanan sesi tanıyarak metne dönüştürebilir. Kısa biçimli ve uzun biçimli sesleri analiz edebilir.

Özel isimleri ve bağlama özgü biçimlendirmeyi otomatik olarak metne dönüştürür

Cloud Speech-to-Text, gerçek konuşmalarla iyi çalışacak şekilde tasarlanmış olup özel isimleri (Sundar Pichai gibi) doğru olarak metne dönüştürebilir ve dili uygun şekilde biçimlendirebilir (tarihler ve telefon numaraları gibi). Google, Oxford İngilizce Sözlüğündeki toplam kelime sayısına kıyasla 10 kattan fazla özel ismi destekler.

Kullanım alanınız için özel olarak tasarlanan, önceden derlenmiş model seçenekleri sunar

Birçok önceden derlenmiş konuşma tanıma modeliyle sunulması sayesinde Cloud Speech-to-Text’i kendi kullanım alanınız (sesli komutlar gibi) için optimize edebilirsiniz. Örnek: Önceden derlenen videoyu metne dönüştürme modelimiz videoları ve/veya çok konuşmacılı içerikleri dizinlemek ya da bunlara altyazı hazırlamak için idealdir ve YouTube altyazı aracına benzer bir makine öğrenimi teknolojisi kullanır.

Model Açıklama
komut_ve_arama Sesli komutlar veya sesli arama gibi kısa sorgular için idealdir.
telefon_araması Bir telefon görüşmesinde kaydedilen sesler için idealdir (tipik olarak 8 khz'lik örnekleme hızında kaydedilmiştir)
video Video kaynaklı olan veya birden fazla konuşmacı içeren sesler için en iyi seçenektir. İdeal senaryoda, ses 16 khz veya daha büyük bir örnekleme hızıyla kaydedilir. Bu, standart ücretten daha pahalı olan bir premium modeldir.
varsayılan Belirli ses modellerinden birine dahil olmayan sesler için idealdir. Örneğin, uzun biçimli ses. İdeal senaryoda, ses yüksek kalitelidir ve 16 khz veya daha büyük bir örnekleme hızıyla kaydedilir.

Cloud Speech-to-Text özellikleri

Makine öğrenimi desteğiyle konuşmayı metne dönüştürme.

Otomatik Konuşma Tanıma
Sesli arama veya konuşmayı yazıya dökme gibi uygulamalarınızı desteklemesi için, derin öğrenme sinir ağıyla güçlendirilmiş Otomatik Konuşma Tanıma (ASR) özelliği.
Global Kelime Listesi
Kapsamlı bir kelime hazinesi ile 120 dili ve bu dillerin lehçelerini tanır.
İfade İpuçları
Konuşma tanıma, söylenebilecek kelime ve ifade kümesi sağlanarak belirli bir bağlama göre özelleştirilebilir. Bu, özellikle kelime listesine özel kelimeler ve adlar ekleneceğinde veya sesli kontrol kullanım durumlarında faydalı bir özelliktir.
Gerçek Zamanlı Akış veya Ön Kayıtlı Ses Desteği
Ses girişi bir uygulamanın mikrofonundan yayınlanabilir ya da önceden kaydedilen bir ses dosyasından gönderilebilir (satır içi veya Google Cloud Storage üzerinden). FLAC, AMR, PCMU ve Linear-16 dahil olmak üzere birçok ses kodlaması desteklenir.
Otomatik Dil Algılama BETA
Çok dilli senaryoları desteklemeniz gerektiğinde, artık iki ila dört dil kodu belirtebilirsiniz. Bunun ardından, Cloud Speech-to-Text konuşulan doğru dili belirleyip sesi metne dönüştürür.
Gürültüye Karşı Dayanıklılık
Ek ses giderme işlemleri gerekmeden, birçok ortamda gürültülü ses verilerini işler.
Uygunsuz İçerik Filtreleme
Bazı dillerde metin sonuçlarındaki uygunsuz içeriği filtreleyin.
Otomatik Noktalama BETA
Makine öğrenimi ile çeviri yazılara doğru noktalama işaretlerini koyar (ör: virgüller, soru işaretleri ve noktalar).
Model Seçimi BETA
Dört önceden derlenmiş model arasından seçim yapın: varsayılan, ses komutları ve arama, telefon aramaları ve video çeviri yazısı.
Konuşmacı Ayrıştırma BETA
Neyi kimin söylediğini bilin: Artık her ifadeyi konuşmadaki kişilerden hangisinin sarf ettiğine ilişkin otomatik tahminler alabilirsiniz.
Çoklu Kanal Tanıma BETA
Her katılımcının ayrı bir kanalda kaydedildiği çok katılımcılı kayıtlarda (ör: iki kanallı telefon görüşmesi veya dört kanallı video konferans), Cloud Speech-to-Text her kanalı ayrı olarak tanır ve ardından çeviri yazılara gerçektekiyle aynı sırayı izleyecekleri şekilde not ekler.

Cloud Speech-to-Text API fiyatlandırması

Güçlü konuşma tanıma işlevi

Cloud Speech-to-Text, 60 dakikalık ücretsiz katmanın ardından işlenen her 15 saniyelik ses için ücretlendirilir. Daha fazla bilgi için fiyatlandırma kılavuzumuzu inceleyin.

Özellik 0-60 dakika 60 dakikadan sonra (1 milyon dakikaya kadar)
Konuşma Tanıma (video hariç tüm modeller) Ücretsiz 0,006 ABD doları/15 saniye*
Video Konuşma Tanıma 0,006 ABD doları 0,012 ABD doları/15 saniye*

Bu fiyatlar, kişisel sistemlerdeki (ör. telefon, tablet, dizüstü ve masaüstü bilgisayar) uygulamalar için geçerlidir. Yerleşik cihazlarda (ör. araba, TV, aygıt veya hoparlörlerde) Speech-to-Text API kullanımı için onay ve fiyatlandırma bilgileri almak isterseniz lütfen bizimle iletişime geçin.

* Her istek, 15 saniyelik en yakın zaman dilimine yuvarlanan artışlarla değerlendirilir. Örneğin, her biri 7 saniyelik ses içeren üç ayrı istek, 45 saniyelik (3×15 saniye) ses için 0,018 ABD doları olarak faturaya yansıtılır. Saniyenin ondalık kısmı, 15 saniyelik en yakın artışa yuvarlama yapılırken hesaplamaya dahil edilir. Bu durumda, 15,14 saniye yuvarlanır ve 30 saniye olarak faturalandırılır.

Bu sayfada listelenen ürün veya özellik, beta sürümündedir. Ürün lansmanı aşamalarımız hakkında daha fazla bilgi için burayı inceleyin.

Şunun hakkında geri bildirim gönderin...

Cloud Speech-to-Text API