Coba Gemini 1.5 Pro, model multimodal kami yang paling canggih di Vertex AI, dan lihat apa yang dapat Anda bangun dengan jendela konteks token 1 juta. Coba Gemini 1.5 Pro, model multimodal kami yang paling canggih di Vertex AI, dan lihat apa yang dapat Anda bangun dengan jendela konteks token 1 juta.

Mentranskripsi ucapan menjadi teks menggunakan API

Halaman ini menjelaskan cara mengirim permintaan pengenalan ucapan ke Speech-to-Text menggunakan antarmuka REST dan perintah curl.

Speech-to-Text memudahkan integrasi teknologi pengenalan ucapan Google ke dalam aplikasi developer. Anda dapat mengirim data audio ke Speech-to-Text API, yang kemudian menampilkan transkripsi teks dari file audio tersebut. Untuk mengetahui informasi selengkapnya tentang layanan ini, lihat Dasar-dasar Speech-to-Text.

Sebelum memulai

Sebelum dapat mengirim permintaan ke Speech-to-Text API, Anda harus sudah menyelesaikan tindakan berikut. Lihat halaman sebelum memulai untuk mengetahui detailnya.

Aktifkan Speech-to-Text di project GCP.
1. Pastikan penagihan diaktifkan untuk Speech-to-Text.
Install the Google Cloud CLI, then initialize it by running the following command:
```
gcloud init
```
(Opsional) Buat bucket Google Cloud Storage baru untuk menyimpan data audio Anda.

Membuat permintaan transkripsi audio

Sekarang Anda dapat menggunakan Speech-to-Text untuk mentranskripsi file audio menjadi teks. Gunakan contoh kode berikut untuk mengirim permintaan REST recognize ke Speech-to-Text API.

Buat file permintaan JSON dengan teks berikut, lalu simpan sebagai file teks biasa sync-request.json:
```
{
  "config": {
      "encoding":"FLAC",
      "sampleRateHertz": 16000,
      "languageCode": "en-US",
      "enableWordTimeOffsets": false
  },
  "audio": {
      "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
  }
}
  
```
Cuplikan JSON di atas menunjukkan bahwa file audio ini memiliki format encoding FLAC, frekuensi sampel 16.000 Hz, dan disimpan di Google Cloud Storage pada URI yang ditentukan. File audio ini dapat diakses secara publik, jadi Anda tidak memerlukan kredensial autentikasi untuk mengaksesnya.
Gunakan curl untuk membuat permintaan speech:recognize, dengan meneruskan nama file permintaan JSON yang Anda siapkan di langkah 1:

Contoh perintah curl ini menggunakan perintah gcloud auth print-access-token untuk mendapatkan token autentikasi.
```
curl -s -H "Content-Type: application/json" \
    -H "Authorization: Bearer "$(gcloud auth print-access-token) \
    https://speech.googleapis.com/v1/speech:recognize \
    -d @sync-request.json
  
```
Perhatikan bahwa untuk meneruskan nama file ke curl, Anda menggunakan opsi -d (untuk "data") dan mengawali nama file dengan tanda @. File ini harus berada di direktori yang sama dengan tempat Anda menjalankan perintah curl.

Anda akan melihat respons seperti berikut:
```
{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "how old is the Brooklyn Bridge",
          "confidence": 0.98267895
        }
      ]
    }
  ]
}
  
```

Selamat! Anda telah mengirimkan permintaan pertama ke Speech-to-Text.

Jika Anda menerima error atau respons kosong dari Speech-to-Text, lihat langkah-langkah pemecahan masalah dan mitigasi error.

Pembersihan

Agar akun Google Cloud Anda tidak dikenakan biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

Gunakan konsol Google Cloud untuk menghapus project jika Anda tidak membutuhkannya.

Langkah selanjutnya

Berlatih mentranskripsikan file audio pendek.
Pelajari cara membuat batch file audio panjang untuk pengenalan ucapan.
Pelajari cara mentranskripsi audio streaming dari, misalnya, mikrofon.
Mulai gunakan Speech-to-Text dalam bahasa pilihan Anda menggunakan library klien Speech-to-Text.
Pelajari contoh aplikasi.
Untuk performa terbaik, akurasi, dan tips lainnya, lihat dokumentasi praktik terbaik.