Aprende a replicar datos de una base de datos de origen en conjuntos de datos de BigQuery a través de Datastream.
Para seguir la guía paso a paso en esta tarea directamente en la consola de Google Cloud, haz clic en Guiarme:
Antes de comenzar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Datastream API.
- Asegúrate de tener asignado el rol de administrador de Datastream a tu cuenta de usuario.
Si deseas crear una configuración de conectividad privada para una red de VPC estándar o compartida, debes completar requisitos previos adicionales. Para obtener más información, consulta Cómo crear una configuración de conectividad privada.
Requisitos
Datastream ofrece una variedad de opciones de origen, destino y métodos de conectividad de red.
En esta guía de inicio rápido, suponemos que replicarás datos de una base de datos de Cloud SQL para PostgreSQL en BigQuery. En el caso de la base de datos de origen, deberías poder configurar tu instancia de base de datos para que acepte conexiones desde direcciones IP públicas de Datastream.
Debido a que no podemos saber los detalles de tu entorno, no podemos proporcionar pasos detallados cuando se trata de tu configuración de red.
Para esta guía de inicio rápido, seleccionarás Lista de IP permitidas como el método de conectividad de red. El uso de listas de IP permitidas es una función de seguridad que se usa a menudo para controlar y limitar el acceso a los datos en tu base de datos de origen a usuarios de confianza. Puedes usar las listas de IP permitidas para crear listas de direcciones IP o rangos de IP de confianza desde los que tus usuarios y otros servicios de Google Cloud, como Datastream, pueden acceder a estos datos. Para usar listas de IP permitidas, debes abrir la base de datos de Cloud SQL de origen para las conexiones entrantes desde Datastream.
Crear perfiles de conexión
Cuando creas perfiles de conexión, almacenas información básica sobre la fuente y el destino en Datastream. Luego, puedes volver a usar esta información en varios flujos.
En esta guía de inicio rápido, seleccionarás PostgreSQL como el tipo de perfil de tu perfil de conexión de origen y BigQuery como el tipo de perfil de tu perfil de conexión de destino. Datastream usa la información de los perfiles de conexión para conectarse a la base de datos de origen y a BigQuery.
Crea un perfil de conexión de origen para la base de datos de PostgreSQL
Ve a la página Perfiles de conexión de Datastream en la Google Cloud consola.
Haz clic en CREAR PERFIL.
En la página Crear un perfil de conexión, haz clic en el tipo de perfil PostgreSQL (porque deseas crear un perfil de conexión de origen para la base de datos de PostgreSQL).
Proporciona la siguiente información en la sección Define la configuración de conexión de la página Crear perfil de PostgreSQL:
- Ingresa
My Source Connection Profile
como el Nombre del perfil de conexión de tu base de datos de origen. - Conserva el ID del perfil de conexión generado automáticamente.
Selecciona la región en la que se almacenará el perfil de conexión.
Ingresa los detalles de la conexión:
- En el campo Nombre de host o IP, ingresa un nombre de host o una dirección IP pública que Datastream pueda usar para conectarse a la base de datos de PostgreSQL de origen. Proporcionas una dirección IP pública porque se usará la lista de IP permitidas como el método de conectividad de red para esta guía de inicio rápido.
- En el campo Puerto, ingresa el número de puerto reservado para la base de datos de origen. En el caso de una base de datos de PostgreSQL, el puerto predeterminado suele ser
5432
. - Ingresa un Nombre de usuario y una Contraseña para autenticar tu base de datos de origen.
- En el campo Base de datos, ingresa el nombre que identifica la instancia de la base de datos. En el caso de las bases de datos de PostgreSQL, suele ser
postgres
.
- Ingresa
En la sección Definir configuración de conexión, haz clic en CONTINUAR. La sección Definir método de conectividad de la página Crear perfil de PostgreSQL está activa.
Elige el método de red que deseas usar para establecer la conectividad entre la base de datos de origen y Datastream. En esta guía de inicio rápido, usa el menú desplegable Método de conectividad para seleccionar Lista de IP permitidas como el método de red.
Configura tu base de datos de origen para permitir conexiones entrantes desde las direcciones IP públicas de Datastream que aparezcan.
En la sección Definir método de conectividad, haz clic en CONTINUAR. La sección Probar perfil de conexión de la página Crear perfil de PostgreSQL está activa.
Haz clic en EJECUTAR PRUEBA para verificar que la base de datos de PostgreSQL de origen y Datastream puedan comunicarse entre sí.
Verifica que aparezca el estado “Prueba correcta”.
Si la prueba falla, puedes abordar el problema en la parte adecuada del flujo y volver a realizar la prueba. Consulta la página Cómo diagnosticar problemas para conocer los pasos para solucionar problemas.
Haz clic en CREAR.
Crea un perfil de conexión de destino para BigQuery
Ve a la página Perfiles de conexión de Datastream en la Google Cloud consola.
Haz clic en CREAR PERFIL.
En la página Create a connection profile, haz clic en el tipo de perfil BigQuery (porque quieres crear un perfil de conexión de destino para BigQuery).
Proporciona la siguiente información en la página Create BigQuery profile:
- Ingresa
My Destination Connection Profile
como el Nombre del perfil de conexión de tu servicio de BigQuery de destino. - Conserva el ID del perfil de conexión generado automáticamente.
- Selecciona la región en la que se almacenará el perfil de conexión.
- Ingresa
Haz clic en CREAR.
Después de crear un perfil de conexión de origen para la base de datos de PostgreSQL y un perfil de conexión de destino para BigQuery, puedes usarlos para crear una transmisión.
Crea una transmisión
En esta sección, crearás una transmisión para replicar los datos de una base de datos de PostgreSQL de origen a BigQuery.
Crear una transmisión incluye lo siguiente:
- Definir la configuración de la transmisión
- Selecciona el perfil de conexión que creaste para tu base de datos de origen (el perfil de conexión de origen). Para esta guía de inicio rápido, es Mi perfil de conexión de origen.
- Configura la información sobre la base de datos de origen de la transmisión especificando las propiedades de replicación, y las tablas y los esquemas de la base de datos de origen que Datastream hace lo siguiente:
- Puede transferir al destino.
- No puede transferir al destino.
- Determinar si Datastream reabastecerá los datos históricos, así como la transmisión de los cambios continuos al destino o la transmisión solo de los cambios a los datos.
- Selecciona el perfil de conexión que creaste para BigQuery (el perfil de conexión de destino). Para esta guía de inicio rápido, es Mi perfil de conexión de destino.
- Configurar información sobre el destino de la transmisión, como configurar los conjuntos de datos de BigQuery
- Valida la transmisión.
Define la configuración de la transmisión
Ve a la página Transmisiones para Datastream en la Google Cloud consola.
Haz clic en CREAR TRANSMISIÓN.
Proporciona la siguiente información en el panel Definir detalles de la transmisión de la página Crear transmisión:
- Ingresa
My Stream
como Nombre del flujo. - Mantén el ID de flujo generado automáticamente.
- En el menú Región, selecciona la región en la que creaste el perfil de conexión de origen.
- En el menú Tipo de fuente, selecciona el tipo de perfil PostgreSQL.
- En el menú Tipo de destino, selecciona el tipo de perfil BigQuery.
- Ingresa
Revisa los requisitos previos necesarios que se generan automáticamente para reflejar cómo se debe preparar tu entorno para una transmisión. Estos requisitos previos incluyen cómo configurar la base de datos de origen y cómo configurar BigQuery.
Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de PostgreSQL de la página Crear transmisión.
Especifica la información sobre el perfil de conexión de origen
En el menú Perfil de conexión de origen, selecciona tu perfil de conexión de origen para la base de datos de PostgreSQL.
Haz clic en EJECUTAR PRUEBA para verificar que la base de datos de origen y Datastream puedan comunicarse entre sí.
Si la prueba falla, aparecerá el problema asociado con el perfil de conexión. Consulta la página Cómo diagnosticar problemas para conocer los pasos para solucionar problemas. Realiza los cambios necesarios para corregir el problema y, luego, vuelve a realizar la prueba.
Haga clic en CONTINUE. Aparecerá el panel Configurar origen de transmisión de la página Crear transmisión.
Configura la información sobre la base de datos de origen de la transmisión
Proporciona los nombres de ranura de replicación y publicación para tu base de datos de origen. La ranura de replicación y la publicación se crearon cuando configuraste tu base de datos de PostgreSQL.
Usa el menú Objetos que se incluyen para especificar las tablas y esquemas de la base de datos de origen que Datastream replicará en BigQuery. El menú solo se carga si tu base de datos tiene hasta 5,000 objetos.
En esta guía de inicio rápido, deseas que Datastream transfiera todas las tablas y esquemas. Por lo tanto, selecciona Todas las tablas de todos los esquemas en el menú.
Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de BigQuery de la página Crear transmisión.
Selecciona un perfil de conexión de destino
En el menú Destination connection profile, selecciona tu perfil de conexión de destino para BigQuery.
Haz clic en CONTINUAR. Aparecerá el panel Configurar destino de transmisión de la página Crear transmisión.
Configura la información sobre el destino de la transmisión
Elige la opción Dataset for each schema para que Datastream cree automáticamente un conjunto de datos en BigQuery para cada esquema de la base de datos de origen.
Selecciona el tipo de ubicación en el que se crearán los conjuntos de datos en BigQuery. Aunque esta ubicación no tiene que ser la misma que la región en la que se crea el flujo de Datastream, te recomendamos que mantengas todos los recursos, así como los conjuntos de datos, en la misma región para optimizar el costo y el rendimiento.
Establece el Prefijo en
quickstart-
. Datastream agregará esta cadena al comienzo de cada conjunto de datos que cree en BigQuery.Deja el valor del modo de escritura de flujo establecido en Merge. De esta manera, las tablas de BigQuery permanecen sincronizadas con la fuente.
Deja el valor de la lista desplegable Specify the limit of data staleness establecido en 15 minutos. BigQuery usa este valor para decidir qué tan inactivos pueden estar tus datos cuando se consultan.
Haz clic en CONTINUAR. Aparecerá el panel Revisar los detalles de la transmisión y crearla de la página Crear transmisión.
Crea la transmisión
Verifica los detalles sobre la transmisión y los perfiles de conexión de origen y de destino que usará la transmisión para transferir datos de una base de datos de PostgreSQL de origen a BigQuery.
Haz clic en EJECUTAR VALIDACIÓN para validar la transmisión. Cuando se valida una transmisión, Datastream verifica que la fuente esté configurada correctamente, que la transmisión pueda conectarse a la fuente y al destino, y que la configuración de extremo a extremo de la transmisión sea correcta.
Después de pasar todas las verificaciones de validación, haz clic en CREAR.
En el cuadro de diálogo ¿Quieres crear un flujo?, haz clic en CREAR.
Inicia la transmisión
En la sección anterior de la guía de inicio rápido, creaste una transmisión, pero no la iniciaste. Puedes hacerlo ahora.
En esta guía de inicio rápido, crearás y comenzarás una transmisión por separado en caso de que el proceso de creación de la transmisión genere una carga mayor en tu base de datos de origen. Para posponer esa carga, crea la transmisión sin iniciarla y, luego, iníciala cuando se pueda incurrir en la carga.
Cuando se inicia la transmisión, Datastream puede transferir datos, esquemas y tablas de la base de datos de origen al destino.
Ve a la página Transmisiones para Datastream en la Google Cloud consola.
Selecciona la casilla de verificación a la izquierda de la transmisión que deseas iniciar. Para esta guía de inicio rápido, es Mi transmisión.
Haz clic en INICIAR.
En el cuadro de diálogo, haz clic en INICIAR. El estado de la transmisión cambia de
Not started
aStarting
y, luego, aRunning
.Después de iniciar una transmisión, puedes verificar que Datastream haya transferido datos de la base de datos de origen al destino.
Verifica la transmisión
En esta sección, confirmas que Datastream transfiere los datos de todas las tablas de tu base de datos de PostgreSQL de origen a BigQuery.
Ve a la página Transmisiones para Datastream en la Google Cloud consola.
Haz clic en la transmisión que creaste. Para esta guía de inicio rápido, es Mi transmisión.
En la página Detalles del flujo, haz clic en el vínculo que aparece debajo del campo Ruta de escritura de destino. BigQuery Studio se abrirá en una pestaña independiente.
Verifica que veas conjuntos de datos y tablas que representen esquemas y tablas de tu base de datos de PostgreSQL de origen.
Haga clic en una de las tablas para obtener una vista previa de los datos.
Limpia
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
- Usa la consola de Google Cloud para borrar tu proyecto, la transmisión de Datastream y los perfiles de conexión, y los conjuntos de datos de BigQuery.
Si limpias los recursos que creaste en Datastream, no consumirán tu cuota y no se te cobrará por ellos en el futuro. En las secciones siguientes, se describe cómo borrar o desactivar estos recursos.
Borra tu proyecto
La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para esta guía de inicio rápido.
En la consola de Cloud, ve a la página Administrar recursos.
En la lista de proyectos, selecciona el proyecto que quieres borrar y haz clic en Borrar.
En el cuadro de diálogo, escribe el ID del proyecto y haz clic en Cerrar para borrar el proyecto.
Borra la transmisión
Ve a la página Transmisiones para Datastream en la Google Cloud consola.
Haz clic en el flujo que quieres borrar. Para esta guía de inicio rápido, es Mi transmisión.
Haz clic en PAUSAR.
En el cuadro de diálogo, haz clic en PAUSAR.
En el panel Estado de la transmisión de la página Detalles de la transmisión, verifica que el estado de la transmisión sea
Paused
.Haz clic en BORRAR.
En el cuadro de diálogo, ingresa
Delete
en el campo de texto y, luego, haz clic en BORRAR.
Borra los perfiles de conexión
Ve a la página Perfiles de conexión de Datastream en la Google Cloud consola.
Selecciona la casilla de verificación de cada perfil de conexión que deseas borrar. Para esta guía de inicio rápido, selecciona las casillas de verificación Mi perfil de conexión de origen y Mi perfil de conexión de destino.
Haz clic en BORRAR.
En el cuadro de diálogo, haz clic en BORRAR.
Borra tus conjuntos de datos de BigQuery
Ve a la página de BigQuery Studio en la Google Cloud consola.
Expande el nodo del proyecto en el que creaste esta guía de inicio rápido.
Para cada conjunto de datos que desees borrar, haz clic en el menú Ver acciones y, luego, en Borrar.
En el cuadro de diálogo, ingresa
delete
en el campo de texto y, luego, haz clic en BORRAR.
¿Qué sigue?
- Obtén más información sobre Datastream.
- Prueba otras Google Cloud funciones por tu cuenta. Consulta nuestras guías de inicio rápido.
- Obtén información para trabajar con tablas de captura de datos modificados en BigQuery.