Se usó la API de Cloud Translation para traducir esta página.

Genera podcasts (método de API)

Gemini Enterprise ofrece una API que te permite generar podcasts basados en documentos fuente. El resultado es muy similar a los podcasts que los usuarios finales pueden generar desde sus notebooks.

La generación de podcasts a través de la API es adecuada para trabajos por lotes en los que puedes tener docenas o cientos de libros, artículos o cursos, y quieres generar un podcast para cada uno.

La API de Podcasts es una API independiente. Es decir, no necesitas un notebook de NotebookLM Enterprise, una licencia de Gemini Enterprise ni un almacén de datos. Todo lo que necesitas es un proyecto de Google Cloud habilitado y el rol de usuario de la API de Podcast.

Entradas

La entrada para la API es un array de elementos context. Este es el material fuente a partir del cual se genera el podcast. La entrada puede ser en forma de texto, imágenes, audio y video. El contenido total del array de contexto debe ser inferior a 100,000 tokens.

Para obtener una lista de los tipos admitidos, consulta las especificaciones técnicas de imágenes, documentos, video y audio en esta página sobre Gemini 2.5 Flash.

Salida

El resultado de la API es el podcast en formato MP3.

Antes de comenzar

Antes de generar un podcast con la API, debes tener lo siguiente:

Un Google Cloud proyecto con la API de Discovery Engine habilitada Consulta Crea un proyecto y habilita la API.
El rol de Identity and Access Management (IAM) de usuario de la API de Podcast (roles/discoveryengine.podcastApiUser). Para obtener información general sobre cómo otorgar roles, consulta Configura NotebookLM Enterprise.

Genera un podcast a partir de la entrada de contexto

Usa el siguiente comando para generar un podcast llamando al método podcast.

La entrada es un array de objetos multimedia, como texto, imágenes y clips de audio y video.

REST

Para generar y exportar un podcast, haz lo siguiente:

Ejecuta el siguiente comando de curl:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/podcasts" \
  -d '{
      "podcastConfig": {
        "focus": "FOCUS",
        "length": "LENGTH",
        "languageCode": "LANGUAGE_CODE"
      },
      "contexts": [
        {
          "MEDIA_TYPE_1": "MEDIA_CONTENT_1"
        },
        {
          "MEDIA_TYPE_2": "MEDIA_CONTENT_2"
        }
      ],
      "title": "PODCAST_TITLE",
      "description": "PODCAST_DESCRIPTION"
  }'

Reemplaza lo siguiente:

PROJECT_ID: el ID de tu proyecto.
FOCUS: Una instrucción en la que sugieres el enfoque del podcast.
LENGTH: Hay dos opciones:
- SHORT (por lo general, de 4 a 5 minutos)
- STANDARD (por lo general, alrededor de 10 minutos, pero puede ser más corto con conjuntos de datos más pequeños)
LANGUAGE_CODE: es opcional. Especifica el código de idioma del podcast. Usa las etiquetas de idioma definidas por BCP47. Si no se proporciona el código de idioma, el podcast se generará en inglés.
MEDIA_TYPE_N: Especifica el tipo de contenido multimedia al que haces referencia para generar el podcast. Los tipos permitidos son los siguientes:
- text. Texto sin formato.
- blob. Para todos los tipos de medios, excepto el texto sin formato, usa este tipo y sube los datos como bytes sin procesar.
MEDIA_CONTENT_N: Es el contenido en sí, en texto sin formato o bytes sin procesar. El contenido total del array de contexto debe ser inferior a 100,000 tokens.
PODCAST_TITLE: Es un título para el podcast. Esto puede ser para uso interno, o bien puedes optar por mostrarlo a tus usuarios finales.
PODCAST_DESCRIPTION: Es una descripción del podcast. Puede ser para uso interno o puedes optar por mostrarlo a tus usuarios finales.

Ejemplo de comando y resultado

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/my-project-123/locations/global/podcasts" \
-d '{
    "podcastConfig": {
      "focus": "Can you talk about how to find a job in Google?",
      "length": "SHORT"
    },
    "contexts": [
      {
        "text": "Breaking into Google is a highly competitive endeavor, attracting millions of applicants globally due to its reputation as a top employer, its innovative work, and comprehensive perks. Success hinges on a multi-faceted approach, starting with meticulously tailored online applications that incorporate job description keywords for ATS and showcasing Googlyness—a blend of curiosity, collaborative spirit, and leadership potential. The rigorous, multi-stage interview process involves recruiter screens, behavioral interviews (often using the STAR method), and for technical roles, demanding coding challenges and system design questions that assess not just correct answers but also problem-solving thought processes and communication skills. Networking for referrals and informational interviews can significantly boost visibility, but ultimately, thorough preparation through mock interviews and platforms like LeetCode, combined with patience and resilience through the often lengthy process, are paramount for navigating this challenging but rewarding path."
      },
      {
        "text": "Finding your way into a career at Google begins with their comprehensive careers website, a digital gateway brimming with opportunities. To embark on this journey, you first navigate the job board, using keywords like software engineer or product manager to pinpoint potential roles. To refine your search, utilize the array of filters available for location, experience level, degree, skills, and even specific Google organizations. You can even browse by team if you have a particular department in mind, like Engineering and Technology or Marketing and Communications. Once you discover a promising position, delve into its detailed description, paying close attention to the minimum qualifications – these are the foundational criteria against which your application will be assessed. Remember, Google seeks out leaders who can perform at the highest level, and while experience is valued, internships or graduate programs can be a great entry point for those earlier in their career. When you are ready to apply, you will need to create a Careers Profile, using your Google Account for seamless sign-in and communication. Crucially, tailor your resume for each specific role, highlighting relevant experiences and quantifying your achievements with concrete data. While a one-page resume is generally preferred, a two-page resume is acceptable for those with more extensive experience. Notably, cover letters are not typically required unless explicitly stated in the job description. Google encourages quality over quantity, so strategically apply for up to three jobs every 30 days, choosing roles that truly align with your skills and passions. Once you have submitted your applications, your Careers Profile becomes your tracking center, where you can monitor the status of each submission, from Draft to Submitted. If you do not hear back within eight weeks, the search continues, though Google recruiters may proactively reach out for other opportunities later. Remember, perseverance and a solid understanding of Google values, combined with a continuously refined skill set and a well-prepared resume, will greatly enhance your chances of securing a position at this innovative company."
      }
    ],
    "title": "Find a job at Google ",
    "description": "This podcast is based on two plain text documents that describe various aspects of getting a job at Google."
}'

{
"name": "projects/123456/locations/global/operations/create-podcast-54321"
}

La generación de un podcast tarda unos minutos.

Toma nota del nombre de la operación, ya que lo necesitarás para descargar el podcast en el paso 4. En el ejemplo anterior, el nombre de la operación es projects/123456/locations/global/operations/create-podcast-54321.
Opcional. Sondea el estado de la operación de creación de podcasts. Consulta Obtén detalles sobre una operación de larga duración.

Una vez que finalice la operación, ejecuta el siguiente comando curl para descargar el podcast:

curl -v \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  "https://discoveryengine.googleapis.com/v1/OPERATION_NAME:download?alt=media" \
  --output FILENAME.mp3 -L

Reemplaza lo siguiente:

OPERATION_NAME: Es el nombre de la operación que anotaste en el paso 2.
FILENAME: Es el nombre del archivo del podcast.

Este comando descarga el podcast en un archivo MP3 en tu directorio local.

Ejemplo de comando y resultado

curl -v \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  "https://discoveryengine.googleapis.com/v1/projects/123456/locations/global/operations/create-podcast-54321:download?alt=media" \
  --output my-podcast.mp3 -L
  
% Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                               Dload  Upload   Total   Spent    Left  Speed
0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0* Host discoveryengine.googleapis.com:443 was resolved.
  ...
{ [42044 bytes data]
100 14.3M  100 14.3M    0     0  10.9M      0  0:00:01  0:00:01 --:--:-- 29.7M
* Connection #0 to host discoveryengine.googleapis.com left intact

Cumplimiento

La API de Podcasts no cumple con los requisitos de las claves de encriptación administradas por el cliente, CMEK para Gemini Enterprise.