Apache Spark es un motor unificado de analíticas para procesar datos a gran escala que integra módulos para SQL, streaming, aprendizaje automático y procesamiento de grafos. Spark se puede ejecutar de forma independiente o en Apache Hadoop, Kubernetes, la nube y distintas fuentes de datos. Proporciona APIs completas en Java, Scala, Python (PySpark) y R, lo que lo hace accesible a una amplia gama de desarrolladores y científicos de datos.
En Google Cloud, Apache Spark se transforma en una plataforma de datos a IA. Al aprovechar las opciones sin servidor y las mejoras de rendimiento innovadoras como Lightning Engine, Google Cloud resuelve el "impuesto de ajuste" asociado a las implementaciones tradicionales de Spark. Las integraciones profundas en una plataforma unificada de datos e IA permiten a los usuarios pasar de los datos brutos a la acción basada en IA más rápido que nunca.
Muchas veces, no se sabe si utilizar Apache Spark o Apache Hadoop. Hadoop se emplea principalmente cuando las operaciones exigen un uso intensivo de los discos y siguen el paradigma de MapReduce, mientras que Spark es una arquitectura de procesamiento en memoria más flexible y, con frecuencia, más cara. Spark es un motor rápido de uso general para computación de clústeres que se puede desplegar en clústeres de Hadoop o de forma independiente. Para decidir cuál te conviene, debes conocer sus características a fondo y tener en cuenta los requisitos de latencia y memoria de tu carga de trabajo.
El ecosistema de Spark incluye cinco componentes clave, cada uno de ellos mejorado por la infraestructura de Google Cloud:
Google Cloud proporciona un entorno especializado que aborda las necesidades únicas de los profesionales de datos:
Empieza a crear en Google Cloud con 300 USD en crédito y más de 20 productos sin coste.