Transferencias de Amazon S3

El Servicio de transferencia de datos de BigQuery para Amazon S3 te permite programar y administrar automáticamente los trabajos de carga recurrentes de Amazon S3 en BigQuery.

Antes de comenzar

Antes de crear una transferencia de Amazon S3:

  • Verifica si completaste todas las acciones necesarias para habilitar el Servicio de transferencia de datos de BigQuery.
  • Si vas a usar la IU web clásica de BigQuery para crear la transferencia, tendrás que habilitar las ventanas emergentes de bigquery.cloud.google.com en tu navegador, ya que de otro modo no verás ventana de permisos. Debes otorgar permiso al servicio de transferencia de datos de BigQuery para que controle tu transferencia.
  • Crea un conjunto de datos de BigQuery para almacenar tus datos.
  • Crea la tabla de destino para tu transferencia y especifica la definición de esquema. La tabla de destino debe seguir las reglas de nombres de las tablas. Los nombres de las tablas de destino también admiten parámetros.
  • Recupera tu URI de Amazon S3, tu ID de clave de acceso y tu clave de acceso secreta. Si deseas obtener más información sobre cómo administrar las claves de acceso, consulta la documentación de AWS.
  • Por el momento, las notificaciones de ejecución de transferencias están en versión Alfa. Si quieres configurar las notificaciones de ejecución de transferencias para Cloud Pub/Sub, debes tener los permisos pubsub.topics.setIamPolicy. Los permisos de Cloud Pub/Sub no son obligatorios si solo configuras las notificaciones por correo electrónico. Para obtener más información, consulta Notificaciones de ejecución del Servicio de transferencia de datos de BigQuery.

Limitaciones

Las transferencias de Amazon S3 están sujetas a las siguientes limitaciones:

  • En este momento, no puedes configurar o actualizar las transferencias de Amazon S3 con la herramienta de línea de comandos.
  • Por ahora, la parte del depósito en el URI de Amazon S3 no admite el uso de parámetros.
  • Según el formato de los datos de origen de Amazon S3, puede haber limitaciones adicionales. Para obtener más información, consulta:

Permisos necesarios

Antes de crear una transferencia de Amazon S3, haz lo siguiente:

  • Asegúrate de que la persona que crea la transferencia tenga los siguientes permisos obligatorios en BigQuery:

    • los permisos bigquery.transfers.update para crear la transferencia
    • los permisos bigquery.datasets.update sobre el conjunto de datos de destino

    La función de IAM bigquery.admin predefinida a nivel de proyecto incluye los permisos bigquery.transfers.update y bigquery.datasets.update. Para obtener más información sobre las funciones de IAM en BigQuery, consulta Control de acceso.

  • Consulta la documentación de Amazon S3 y asegúrate de tener configurados los permisos necesarios para habilitar la transferencia. Como mínimo, los datos de origen de Amazon S3 deben estar sujetos a la política administrada AmazonS3ReadOnlyAccess de AWS.

Configura una transferencia de datos de Amazon S3

Para crear una transferencia de datos de Amazon S3:

Console

  1. Ve a la IU web de BigQuery.

    Ir a la IU web de BigQuery

  2. Haz clic en Transferencias (Transfers).

  3. Haz clic en + CREAR UNA TRANSFERENCIA (CREATE A TRANSFER).

  4. En la página Crear transferencia (Create Transfer):

    • En la sección Tipo de fuente (Source type), elige Amazon S3 como Fuente (Source).

      Fuente de la transferencia

    • En el campo Nombre visible (Display name) de la sección Nombre de la configuración de transferencia (Transfer config name), ingresa un nombre para la transferencia, como My Transfer. El nombre de la transferencia puede ser cualquier valor que te permita identificarla fácilmente si es necesario hacerle modificaciones más tarde.

      Nombre de la transferencia

    • En el campo en Programa de la sección Opciones de programación (Schedule options), deja el valor predeterminado (Comenzar ahora [Start now]) o haz clic en Comenzar a una hora determinada (Start at a set time).

      • En Repeticiones (Repeats), selecciona la frecuencia con la que se ejecutará la transferencia. Incluye las siguientes opciones:

        • Diariamente (Daily) (predeterminada)
        • Por semana (Weekly)
        • Por mes (Monthly)
        • Personalizado (Custom)
        • Según demanda (On demand)

        Si eliges una opción que no sea Diariamente (Daily), tendrás opciones adicionales. Por ejemplo, si eliges Semanalmente (Weekly), aparece una opción para que selecciones el día.

      • En Fecha de inicio y hora de ejecución (Start date and run time), ingresa la fecha y hora para iniciar la transferencia. Si seleccionas Comenzar ahora (Start now), esta opción se inhabilitará.

        Programa de la transferencia

    • En la sección Configuración de destino (Destination settings), en Conjunto de datos de destino (Destination dataset), selecciona el conjunto de datos que creaste para almacenar tus datos.

      Conjunto de datos de la transferencia

    • En la sección Detalles de fuente de datos (Data source details), haz lo siguiente:

      • En Tabla de destino (Destination table), ingresa el nombre de la tabla que creaste para almacenar los datos en BigQuery. Los nombres de las tablas de destino admiten parámetros.
      • En URI de Amazon S3 (Amazon S3 URI), ingresa el URI en el formato s3://mybucket/myfolder/.... Los URI también admiten parámetros.
      • En ID de clave de acceso (Access key ID), ingresa el ID de tu clave de acceso.
      • En Clave de acceso secreta (Secret access key), ingresa tu clave de acceso secreta.
      • En Formato de archivo (File format), elige el formato de datos: JSON (delimitado por saltos de línea), CSV, Avro, Orc o Parquet.

        Detalles de la fuente de S3

    • En la sección Opciones de transferencia (Transfer options), en Cantidad de errores permitidos (Number of errors allowed), ingresa un valor entero para la cantidad máxima de registros erróneos que se pueden ignorar.

      Cantidad de errores permitidos

    • Si eliges los formatos de archivo CSV o JSON, en la sección JSON, CSV, marca Ignorar valores desconocidos (Ignore unknown values) para aceptar las filas con valores que no coinciden con el esquema. Los valores desconocidos se ignoran. En los archivos CSV, esta opción ignora los valores adicionales al final de una línea.

      Ignorar valores desconocidos

    • Si eliges el formato de archivo CSV, en la sección CSV, ingresa las opciones de CSV adicionales para cargar los datos.

      Opciones de CSV

    • En la sección Opciones de notificación (Notification options), haz lo siguiente (opcional):

      • Haz clic en el botón de activación para habilitar las notificaciones por correo electrónico. Si habilitas esta opción, el administrador de transferencias recibirá una notificación por correo electrónico cuando falle la ejecución de una transferencia.
      • En Selecciona un tema de Cloud Pub/Sub (Select a Cloud Pub/Sub topic), elige el nombre de tu tema o haz clic en Crear un tema (Create a topic). Esta opción configura las notificaciones de ejecución de Cloud Pub/Sub para tu transferencia. Por el momento, las notificaciones de ejecución de transferencias están en versión Alfa.
  5. Haz clic en Guardar (Save).

IU clásica

  1. Ve a la IU web de BigQuery.

    Ir a la IU web de BigQuery

  2. Haz clic en Transferencias (Transfers).

  3. Haz clic en Agregar transferencia.

  4. En la página Transferencia nueva (New Transfer):

    • En Fuente (Source), elige Amazon S3.
    • En Nombre visible (Display name), ingresa un nombre para la transferencia, como My Transfer. El nombre visible puede ser cualquier valor que te permita identificar con facilidad la transferencia si necesitas modificarla más tarde.
    • (Opcional) En Schedule (Programa), puedes dejar el valor predeterminado de Daily (Diario) (cada 24 horas, según el tiempo de creación) o puedes hacer clic en Edit (Editar) para cambiar la hora. También puedes cambiar el intervalo a Weekly (Semanal), Monthly (Mensual) o Custom (Personalizado). Cuando seleccionas Personalizado, se espera una especificación de tiempo similar a cron, por ejemplo, every 12 hours. El período más corto permitido es de 12 horas. Consulta el campo de schedule en TransferConfig para conocer los valores de API válidos adicionales.
    • En Destination dataset (Conjunto de datos de destino), selecciona el conjunto de datos que corresponda.
    • En Destination table (Tabla de destino), ingresa el nombre de tu tabla de destino. La tabla de destino debe seguir las reglas de nombres de las tablas. Los nombres de las tablas de destino también admiten parámetros.
    • En URI de Amazon S3 (Amazon S3 URI), ingresa el URI de Amazon S3. Puedes usar comodines y parámetros.
    • En ID de clave de acceso (Access key ID), ingresa el ID de tu clave de acceso.
    • En Clave de acceso secreta (Secret access key), ingresa tu clave de acceso secreta.
    • En Formato de archivo (File format), elige el formato de datos: JSON (delimitado por saltos de línea), CSV, Avro, Orc o Parquet.
    • En la sección Opciones de transferencia: todos los formatos (Transfer Options - All Formats), haz lo siguiente:
      • En Cantidad de errores permitidos (Number of errors allowed), ingresa la cantidad máxima de registros erróneos que BigQuery puede ignorar cuando ejecute el trabajo. Si la cantidad de registros erróneos supera este valor, el trabajo falla y se muestra un error de validez en el resultado. El valor predeterminado es 0.
    • Si eliges los formatos de datos CSV o JSON, en la sección Opciones de transferencia: JSON, CSV (Transfer Options - JSON, CSV), haz lo siguiente:
      • En Ignorar valores desconocidos (Ignore unknown values), marca el cuadro si quieres que la transferencia descarte los datos que no coincidan con el esquema de la tabla de destino.
    • Si eliges el formato de datos CSV, en la sección Opciones de transferencia: CSV (Transfer Options - CSV), haz lo siguiente:

      • En Delimitador de campo (Field delimiter), ingresa el carácter que separa los campos. El valor predeterminado es una coma.
      • En Header rows to skip (Filas de encabezado para omitir), ingresa la cantidad de filas de encabezado de los archivos de origen si no quieres importarlas. El valor predeterminado es 0.
      • En Allow quoted newlines (Permitir saltos de línea con comillas), marca el cuadro si quieres permitir saltos de línea en campos entrecomillados.
      • En Permitir filas irregulares (Allow jagged rows), marca la casilla de verificación si quieres permitir que se transfieran filas con columnas NULLABLE faltantes.
    • Expande la sección Avanzado (Advanced) y configura las notificaciones de ejecución para tu transferencia (opcional). Por el momento, las notificaciones de ejecución de transferencias están en versión Alfa.

    • En Tema de Cloud Pub/Sub (Cloud Pub/Sub Topic), ingresa el nombre de tu tema de Cloud Pub/Sub, por ejemplo, projects/myproject/topics/mytopic.

    • Marca Send email notifications (Enviar notificaciones por correo electrónico) para activar las notificaciones por correo de las ejecuciones de transferencia con errores.

      Tema de Cloud Pub/Sub

  5. Haz clic en Agregar (Add).

Solución de problemas para la configuración de transferencias de Amazon S3

Si tienes problemas para configurar tu transferencia, consulta la página de solución de problemas a fin de conocer los pasos para resolverlos.

Consulta tus datos

Cuando tus datos se transfieren a BigQuery, se escriben en tablas particionadas por tiempo de transferencia. Para obtener más información, consulta Introducción a tablas con particiones.

Si consultas tus tablas directamente en lugar de usar las vistas generadas de manera automática, debes usar la seudocolumna _PARTITIONTIME en tu consulta. Para obtener más información, visita Cómo consultar tablas particionadas.

Pasos siguientes

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

¿Necesitas ayuda? Visita nuestra página de asistencia.