Halaman ini diterjemahkan oleh Cloud Translation API.

Mendeteksi intent dengan output audio

Aplikasi sering kali memerlukan bot untuk merespons pengguna akhir. Dialogflow dapat menggunakan Cloud Text-to-Speech yang didukung oleh DeepMind WaveNet untuk menghasilkan respons ucapan dari agen Anda. Konversi dari respons teks intent ke audio ini dikenal sebagai output audio, sintesis ucapan, text-to-speech, atau TTS.

Panduan ini memberikan contoh yang menggunakan audio untuk input dan output saat mendeteksi intent. Kasus penggunaan ini umum saat mengembangkan aplikasi yang berkomunikasi dengan pengguna melalui antarmuka audio murni.

Untuk mengetahui daftar bahasa yang didukung, lihat kolom TTS di halaman Bahasa.

Sebelum memulai

Fitur ini hanya berlaku saat menggunakan API untuk interaksi pengguna akhir. Jika Anda menggunakan integrasi, Anda dapat melewati panduan ini.

Anda harus melakukan hal berikut sebelum membaca panduan ini:

Baca Dasar-dasar Dialogflow.
Lakukan langkah-langkah penyiapan.

Buat agen

Jika Anda belum membuat agen, buat sekarang:

Buka konsol Dialogflow ES.
Jika diminta, login ke Konsol Dialogflow. Lihat Ringkasan konsol Dialogflow untuk mengetahui informasi selengkapnya.
Klik Buat Agen di menu sidebar kiri. (Jika Anda sudah memiliki agen lain, klik nama agen, scroll ke bagian bawah, lalu klik Buat agen baru.)
Masukkan nama agen, bahasa default, dan zona waktu default.
Jika Anda sudah membuat project, masukkan project tersebut. Jika Anda ingin mengizinkan Konsol Dialogflow membuat project, pilih Buat project Google baru.
Klik tombol Buat.

Mengimpor file contoh ke agen Anda

Langkah-langkah dalam panduan ini membuat asumsi tentang agen Anda, jadi Anda perlu mengimpor agen yang disiapkan untuk panduan ini. Saat mengimpor, langkah-langkah ini menggunakan opsi restore, yang akan menggantikan semua setelan, maksud (intent), dan entity agen.

Untuk mengimpor file, ikuti langkah-langkah berikut:

Download file room-booking-agent.zip.
Buka konsol Dialogflow ES.
Pilih agen Anda.
Klik tombol setelan di samping nama agen.
Pilih tab Ekspor dan Impor.
Pilih Pulihkan Dari Zip dan ikuti petunjuk untuk memulihkan file zip yang Anda download.

Mendeteksi intent

Untuk mendeteksi maksud, panggil metode detectIntent pada jenis Sessions.

REST

1. Menyiapkan konten audio

Download book-a-room.wav contoh file input_audio, yang mengucapkan "pesan kamar". File audio harus dienkode base64 untuk contoh ini, sehingga dapat diberikan dalam permintaan JSON di bawah. Berikut contoh Linux:

wget https://cloud.google.com/dialogflow/es/docs/data/book-a-room.wav
base64 -w 0 book-a-room.wav > book-a-room.b64

Untuk contoh di platform lain, lihat Menyematkan audio yang dienkode Base64 dalam dokumentasi Cloud Speech API.

2. Membuat permintaan deteksi maksud

Panggil metode detectIntent pada jenis Sessions dan tentukan audio yang dienkode base64.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

PROJECT_ID: project ID Google Cloud Anda
SESSION_ID: ID sesi
BASE64_AUDIO: konten base64 dari file output di atas

Metode HTTP dan URL:

POST https://dialogflow.googleapis.com/v2/projects/PROJECT_ID/agent/sessions/SESSION_ID:detectIntent

Meminta isi JSON:

{
  "queryInput": {
    "audioConfig": {
      "languageCode": "en-US"
    }
  },
  "outputAudioConfig" : {
    "audioEncoding": "OUTPUT_AUDIO_ENCODING_LINEAR_16"
  },
  "inputAudio": "BASE64_AUDIO"
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

curl (Linux, macOS, atau Cloud Shell)

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login , atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dialogflow.googleapis.com/v2/projects/PROJECT_ID/agent/sessions/SESSION_ID:detectIntent"

PowerShell (Windows)

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dialogflow.googleapis.com/v2/projects/PROJECT_ID/agent/sessions/SESSION_ID:detectIntent" | Select-Object -Expand Content

Anda akan melihat respons JSON seperti berikut:

{
  "responseId": "b7405848-2a3a-4e26-b9c6-c4cf9c9a22ee",
  "queryResult": {
    "queryText": "book a room",
    "speechRecognitionConfidence": 0.8616504,
    "action": "room.reservation",
    "parameters": {
      "time": "",
      "date": "",
      "duration": "",
      "guests": "",
      "location": ""
    },
    "fulfillmentText": "I can help with that. Where would you like to reserve a room?",
    "fulfillmentMessages": [
      {
        "text": {
          "text": [
            "I can help with that. Where would you like to reserve a room?"
          ]
        }
      }
    ],
    "intent": {
      "name": "projects/PROJECT_ID/agent/intents/e8f6a63e-73da-4a1a-8bfc-857183f71228",
      "displayName": "room.reservation"
    },
    "intentDetectionConfidence": 1,
    "diagnosticInfo": {},
    "languageCode": "en-us"
  },
  "outputAudio": "UklGRs6vAgBXQVZFZm10IBAAAAABAAEAwF0AAIC7AA..."
}

Perhatikan bahwa nilai kolom queryResult.action adalah room.reservation, dan kolom outputAudio berisi string audio base64 yang besar.

3. Memutar audio output

Salin teks dari kolom outputAudio dan simpan dalam file bernama output_audio.b64. File ini perlu dikonversi menjadi audio. Berikut contoh Linux:

base64 -d output_audio.b64 > output_audio.wav

Untuk contoh di platform lain, lihat Mendekode Konten Audio yang Dienkode Base64 dalam dokumentasi Text-to-Speech API.

Sekarang Anda dapat memutar file audio output_audio.wav dan mendengar bahwa file tersebut cocok dengan teks dari kolom queryResult.fulfillmentMessages[1].text.text[0] di atas. Elemen fulfillmentMessages kedua dipilih, karena merupakan respons teks untuk platform default.

Java

Untuk melakukan autentikasi ke Dialogflow, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.


import com.google.api.gax.rpc.ApiException;
import com.google.cloud.dialogflow.v2.DetectIntentRequest;
import com.google.cloud.dialogflow.v2.DetectIntentResponse;
import com.google.cloud.dialogflow.v2.OutputAudioConfig;
import com.google.cloud.dialogflow.v2.OutputAudioEncoding;
import com.google.cloud.dialogflow.v2.QueryInput;
import com.google.cloud.dialogflow.v2.QueryResult;
import com.google.cloud.dialogflow.v2.SessionName;
import com.google.cloud.dialogflow.v2.SessionsClient;
import com.google.cloud.dialogflow.v2.TextInput;
import com.google.common.collect.Maps;
import java.io.IOException;
import java.util.List;
import java.util.Map;

public class DetectIntentWithTextToSpeechResponse {

  public static Map<String, QueryResult> detectIntentWithTexttoSpeech(
      String projectId, List<String> texts, String sessionId, String languageCode)
      throws IOException, ApiException {
    Map<String, QueryResult> queryResults = Maps.newHashMap();
    // Instantiates a client
    try (SessionsClient sessionsClient = SessionsClient.create()) {
      // Set the session name using the sessionId (UUID) and projectID (my-project-id)
      SessionName session = SessionName.of(projectId, sessionId);
      System.out.println("Session Path: " + session.toString());

      // Detect intents for each text input
      for (String text : texts) {
        // Set the text (hello) and language code (en-US) for the query
        TextInput.Builder textInput =
            TextInput.newBuilder().setText(text).setLanguageCode(languageCode);

        // Build the query with the TextInput
        QueryInput queryInput = QueryInput.newBuilder().setText(textInput).build();

        //
        OutputAudioEncoding audioEncoding = OutputAudioEncoding.OUTPUT_AUDIO_ENCODING_LINEAR_16;
        int sampleRateHertz = 16000;
        OutputAudioConfig outputAudioConfig =
            OutputAudioConfig.newBuilder()
                .setAudioEncoding(audioEncoding)
                .setSampleRateHertz(sampleRateHertz)
                .build();

        DetectIntentRequest dr =
            DetectIntentRequest.newBuilder()
                .setQueryInput(queryInput)
                .setOutputAudioConfig(outputAudioConfig)
                .setSession(session.toString())
                .build();

        // Performs the detect intent request
        DetectIntentResponse response = sessionsClient.detectIntent(dr);

        // Display the query result
        QueryResult queryResult = response.getQueryResult();

        System.out.println("====================");
        System.out.format("Query Text: '%s'\n", queryResult.getQueryText());
        System.out.format(
            "Detected Intent: %s (confidence: %f)\n",
            queryResult.getIntent().getDisplayName(), queryResult.getIntentDetectionConfidence());
        System.out.format(
            "Fulfillment Text: '%s'\n",
            queryResult.getFulfillmentMessagesCount() > 0
                ? queryResult.getFulfillmentMessages(0).getText()
                : "Triggered Default Fallback Intent");

        queryResults.put(text, queryResult);
      }
    }
    return queryResults;
  }
}

Node.js

Untuk melakukan autentikasi ke Dialogflow, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

// Imports the Dialogflow client library
const dialogflow = require('@google-cloud/dialogflow').v2;

// Instantiate a DialogFlow client.
const sessionClient = new dialogflow.SessionsClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const projectId = 'ID of GCP project associated with your Dialogflow agent';
// const sessionId = `user specific ID of session, e.g. 12345`;
// const query = `phrase(s) to pass to detect, e.g. I'd like to reserve a room for six people`;
// const languageCode = 'BCP-47 language code, e.g. en-US';
// const outputFile = `path for audio output file, e.g. ./resources/myOutput.wav`;

// Define session path
const sessionPath = sessionClient.projectAgentSessionPath(
  projectId,
  sessionId
);
const fs = require('fs');
const util = require('util');

async function detectIntentwithTTSResponse() {
  // The audio query request
  const request = {
    session: sessionPath,
    queryInput: {
      text: {
        text: query,
        languageCode: languageCode,
      },
    },
    outputAudioConfig: {
      audioEncoding: 'OUTPUT_AUDIO_ENCODING_LINEAR_16',
    },
  };
  sessionClient.detectIntent(request).then(responses => {
    console.log('Detected intent:');
    const audioFile = responses[0].outputAudio;
    util.promisify(fs.writeFile)(outputFile, audioFile, 'binary');
    console.log(`Audio content written to file: ${outputFile}`);
  });
}
detectIntentwithTTSResponse();

Python

Untuk melakukan autentikasi ke Dialogflow, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

def detect_intent_with_texttospeech_response(
    project_id, session_id, texts, language_code
):
    """Returns the result of detect intent with texts as inputs and includes
    the response in an audio format.

    Using the same `session_id` between requests allows continuation
    of the conversation."""
    from google.cloud import dialogflow

    session_client = dialogflow.SessionsClient()

    session_path = session_client.session_path(project_id, session_id)
    print("Session path: {}\n".format(session_path))

    for text in texts:
        text_input = dialogflow.TextInput(text=text, language_code=language_code)

        query_input = dialogflow.QueryInput(text=text_input)

        # Set the query parameters with sentiment analysis
        output_audio_config = dialogflow.OutputAudioConfig(
            audio_encoding=dialogflow.OutputAudioEncoding.OUTPUT_AUDIO_ENCODING_LINEAR_16
        )

        request = dialogflow.DetectIntentRequest(
            session=session_path,
            query_input=query_input,
            output_audio_config=output_audio_config,
        )
        response = session_client.detect_intent(request=request)

        print("=" * 20)
        print("Query text: {}".format(response.query_result.query_text))
        print(
            "Detected intent: {} (confidence: {})\n".format(
                response.query_result.intent.display_name,
                response.query_result.intent_detection_confidence,
            )
        )
        print("Fulfillment text: {}\n".format(response.query_result.fulfillment_text))
        # The response's audio_content is binary.
        with open("output.wav", "wb") as out:
            out.write(response.output_audio)
            print('Audio content written to file "output.wav"')

Lihat bagian Respons deteksi niat untuk mengetahui deskripsi kolom respons yang relevan.

Respons deteksi maksud

Respons untuk permintaan deteksi maksud adalah jenis DetectIntentResponse.

Pemrosesan maksud deteksi normal mengontrol konten kolom DetectIntentResponse.queryResult.fulfillmentMessages.

Kolom DetectIntentResponse.outputAudio diisi dengan audio berdasarkan nilai respons teks platform default yang ada di kolom DetectIntentResponse.queryResult.fulfillmentMessages. Jika ada beberapa respons teks default, respons tersebut akan digabungkan saat menghasilkan audio. Jika tidak ada respons teks platform default, konten audio yang dihasilkan akan kosong.

Kolom DetectIntentResponse.outputAudioConfig diisi dengan setelan audio yang digunakan untuk menghasilkan audio output.

Mendeteksi intent dari stream

Saat mendeteksi maksud dari aliran, Anda mengirim permintaan yang serupa dengan contoh yang tidak menggunakan output audio: Mendeteksi Maksud dari Aliran. Namun, Anda menyediakan kolom OutputAudioConfig ke permintaan. Kolom output_audio dan output_audio_config diisi dalam respons streaming terakhir yang Anda dapatkan dari server Dialogflow API. Untuk mengetahui informasi selengkapnya, lihat StreamingDetectIntentRequest dan StreamingDetectIntentResponse.

Setelan agen untuk ucapan

Anda dapat mengontrol berbagai aspek sintesis ucapan. Lihat setelan ucapan agen.

Menggunakan simulator Dialogflow

Anda dapat berinteraksi dengan agen dan menerima respons audio melalui simulator Dialogflow:

Ikuti langkah-langkah di atas untuk mengaktifkan text-to-speech otomatis.
Ketik atau ucapkan "book a room" di simulator.
Lihat bagian output audio di bagian bawah simulator.

Sebelumnya

Mendeteksi intent dengan streaming input audio

Berikutnya

Mendeteksi intent dengan analisis sentimen

Mendeteksi intent dengan output audio Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Sebelum memulai

Buat agen

Mengimpor file contoh ke agen Anda

Mendeteksi intent

REST

1. Menyiapkan konten audio

2. Membuat permintaan deteksi maksud

curl (Linux, macOS, atau Cloud Shell)

PowerShell (Windows)

3. Memutar audio output

Java

Node.js

Python

Respons deteksi maksud

Mendeteksi intent dari stream

Setelan agen untuk ucapan

Menggunakan simulator Dialogflow

Mendeteksi intent dengan output audio