Dataprep de Trifacta
Servicio inteligente de datos en la nube que te permite examinar, limpiar y preparar datos de forma visual para analizarlos y crear modelos de aprendizaje automático
Consulta la documentación de este producto.
Preparación inteligente de datos
Novedades


Simplicidad sin servidor
Cloud Dataprep es un servicio integrado y operado por un partner, Trifacta, que se basa en su solución de preparación de datos líder en el sector. En Google, colaboramos estrechamente con este partner para ofrecer una experiencia de usuario fluida en la que no sea necesario instalar software de forma anticipada, adquirir licencias independientes ni incurrir en gastos operativos innecesarios. En función del volumen de datos que debas preparar, puedes escalar bajo demanda este servicio totalmente gestionado y centrar tu atención únicamente en el análisis.
Examen de datos y detección de anomalías con rapidez
Interpreta y examina los datos al momento gracias a las funciones visuales de distribución de datos. Cloud Dataprep detecta de forma automática esquemas, tipos de datos, posibles uniones y anomalías (como duplicados y valores que faltan o que son atípicos) para que ahorres tiempo, ya que te permite saltarte la evaluación de la calidad de los datos y pasar directamente a su examen y a su análisis.
Preparación de datos fácil y potente
Cloud Dataprep responde a las acciones que realizas en su interfaz; así pues, sugiere y predice la transformación de datos idónea que deberías llevar a cabo. Una vez que hayas definido la secuencia de transformaciones, Dataprep utiliza Dataflow o BigQuery de forma interna, con lo que podrás procesar conjuntos de datos estructurados o sin estructurar de cualquier tamaño con solo unos clics y sin programación.
Características de Dataprep
Ediciones Starter, Professional y Enterprise.
Transformación predictiva
Cloud Dataprep utiliza un algoritmo de inferencia propio para interpretar el intent de transformación que implica la selección de datos del usuario. Entonces, genera automáticamente una lista ordenada con sugerencias y patrones adecuados para esa selección.
Transformaciones enriquecidas
Aprovecha los centenares de funciones de transformación para convertir los datos en el recurso que te interesa. Basta un clic para aplicar funciones de agregación, columnas dinámicas, anulación de columnas dinámicas, incorporación de columnas, incorporación de filas, extracción, cálculo, comparación, condición, combinación, expresión regular y muchas más.
Rendimiento de procesamiento optimizado
Dataprep selecciona automáticamente el mejor motor de procesamiento de Google Cloud subyacente para transformar los datos lo más rápido posible. De acuerdo con la localidad y el volumen de los datos, Dataprep utiliza BigQuery (transformaciones de ELT in situ) para preparar los datos, Dataflow o el motor en memoria de Dataprep de volúmenes pequeños.
Elaboración activa de perfiles
Consulta y examina tus datos mediante distribuciones visuales interactivas que facilitan el descubrimiento, la limpieza y la transformación. Las representaciones visuales ayudan a interpretar grandes volúmenes de datos, y las innovadoras técnicas de elaboración de perfiles de Cloud Dataprep reflejan información estadística clave en un formato dinámico e intuitivo.
Reglas de calidad de los datos
Las reglas de calidad de los datos sugieren indicadores de calidad para monitorizar y dar solución a la precisión, exhaustividad, coherencia, validez y exclusividad de los datos, lo que permite tener una visión exhaustiva de estos.
Colaboración
Si los usuarios forman equipos, puede resultar útil que varios colaboren en los mismos recursos o que se creen copias de los trabajos de calidad óptima para utilizarlas como plantillas. Cloud Dataprep permite a los usuarios colaborar en tiempo real en los mismos objetos del flujo, así como generar copias para que las utilicen otros compañeros en trabajos distintos.
Conectividad completa
Además de BigQuery, Cloud Storage, Microsoft Excel y la conectividad estándar de Hojas de cálculo de Google, optimiza tus analíticas de autoservicio con cientos de fuentes de datos, como Salesforce, Oracle, Microsoft SQL Server, MySQL o PostgreSQL. y muchas más.
Orquestación de flujos de procesamiento de datos
Programa y automatiza tus tareas de preparación de datos encadenándolas en orden secuencial y condicional. Informa a los usuarios de si los resultados son correctos o tienen errores, y activa tareas externas (como Cloud Functions). Aprovecha la gran variedad de APIs para integrar Cloud Dataprep como solución integral de empresa.
Operacionalización a escala empresarial
Adopta una práctica de despliegue continua con la importación y exportación de recetas en diferentes ediciones y versiones, parámetros de flujo, configuración personalizada para el ajuste del rendimiento de Google Dataflow y API avanzadas para automatizar y monitorizar los ciclos de vida del proceso de desarrollo de software.
Tipos de datos habituales
Transforma conjuntos de datos, tanto estructurados como sin estructurar, almacenados en formato CSV, JSON, de tabla relacional o de aplicaciones de software como servicio de cualquier tamaño, desde megabytes hasta petabytes: siempre te resultará igual de fácil manipularlos.
Coincidencia de patrones
Utiliza la coincidencia de patrones en columnas para identificar los patrones de datos que te interesan, mostrarlos en la interfaz y usarlos para crear tus recetas. También puedes aplicar expresiones regulares o patrones de Cloud Dataprep a los pasos de las recetas para localizar patrones y transformar los datos de tus conjuntos que coincidan.
Estandarización
Agrupa los valores según su semejanza ortográfica o el parecido en la pronunciación en todos los idiomas y crea clústeres estandarizados de valores coherentes.
Muestreo
Para optimizar el rendimiento, Dataprep genera automáticamente una o varias muestras de los datos que se deben visualizar y manipular en la aplicación del cliente. No obstante, puedes cambiar fácilmente el tamaño de las muestras, su alcance y el método con el que se crean.
Seguridad avanzada
Amplía los estándares de seguridad actuales ofreciendo un control de acceso individual a los datos mediante una combinación de derechos de acceso entre los roles de gestión de identidades y accesos de Google y BigQuery, Cloud Storage y Hojas de cálculo de Google para determinar el acceso.
Arquitectura de flujo de procesamiento de ELT de Dataprep
"Dataprep nos permite consultar rápidamente nuevos conjuntos de datos, y su flexibilidad es capaz de satisfacer todas nuestras necesidades en cuanto a transformación de datos. Ahora, en Merkle completamos las tareas de preparación de datos en cuestión de minutos en lugar de horas o días; es decir, hemos reducido en un 90 % el tiempo de preparación.
Henry Culver, arquitecto de TI de Merkle
Leer el casoNuestros clientes
Recursos
-
Da tus primeros pasos con la guía de inicio rápido de Dataprep
-
Novedades y anuncios de productos de Dataprep
-
Interactúa con otros usuarios de Cloud Dataprep en Stack Overflow
-
Preguntas frecuentes sobre Dataprep de TrifactaDescubre las estrategias que sigue Trifacta para cumplir con la seguridad, la privacidad y la protección de los datos.
-
Automatizar los flujos de procesamiento de Cloud Dataprep en la llegada de archivos con Cloud Functions
-
Trabajar con experimentos de autoaprendizaje de Cloud Dataprep
-
Automatizar el aprendizaje automático con BigQuery ML, Cloud Dataprep y Cloud Composer
-
Construir un almacén de datos de marketing
-
Transmitir datos de IoT Core a Cloud Dataprep
Precios
Consulta nuestra página de precios en Google Cloud Marketplace.
Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.
Pon en marcha tu próximo proyecto, descubre tutoriales interactivos y gestiona tu cuenta.