Ir al contenido principal
Google Cloud
Documentación Áreas de tecnología
  • IA y AA
  • Desarrollo de aplicaciones
  • Hosting de aplicaciones
  • Procesamiento
  • Canalizaciones y análisis de datos
  • Bases de datos
  • Múltiples nubes distribuidas e híbridas
  • IA generativa
  • Soluciones de la industria
  • Redes
  • Observabilidad y supervisión
  • Seguridad
  • Storage
Herramientas para productos cruzados
  • Administración de accesos y recursos
  • Administración de uso y costos
  • SDK de Google Cloud, lenguajes, frameworks y herramientas
  • Infraestructura como código
  • Migración
Sitios relacionados
  • Página principal de Google Cloud
  • Prueba gratuita y nivel gratuito
  • Centro de arquitectura
  • Blog
  • Comunicarse con Ventas
  • Google Cloud Developer Center
  • Google Developer Center
  • Google Cloud Marketplace
  • Documentación de Google Cloud Marketplace
  • Google Cloud Skills Boost
  • Google Cloud Solutions Center
  • Atención al cliente de Google Cloud
  • Canal de YouTube sobre tecnología de Google Cloud
/
  • English
  • Deutsch
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어
Consola Acceder
  • Dataproc
Guías Referencia Ejemplos Recursos
Comunicarse con nosotros Comenzar gratis
Google Cloud
  • Documentación
    • Guías
    • Referencia
    • Ejemplos
    • Recursos
  • Áreas de tecnología
    • Más
  • Herramientas para productos cruzados
    • Más
  • Sitios relacionados
    • Más
  • Consola
  • Comunicarse con nosotros
  • Comenzar gratis
  • Descubrimiento
  • Descripción general del producto
  • Componentes
    • Descripción general
    • Delta Lake
    • Docker
    • Flink
    • HBase
    • Hive WebHCat
    • Hudi
    • Iceberg
    • Jupyter
    • Pig
    • Presto
    • Ranger
      • Instalar Ranger
      • Usa Ranger con Kerberos
      • Usa Ranger con almacenamiento en caché y reducción del alcance
      • Crea una copia de seguridad de un esquema de Ranger y restablecelo
    • Solr
    • Trino
    • Zeppelin
    • Zookeeper
  • Servicios
  • Opciones de Compute
    • Tipos de máquina
    • GPU
    • Plataforma de CPU mínima
    • Trabajadores secundarios
    • Unidades de estado sólido locales
    • Discos de arranque
  • Control de versiones
    • Descripción general
    • Versiones 2.3.x
    • Versiones de actualización 2.2.x
    • Versiones 2.1.x
    • Versiones de actualización 2.0.x
    • Listas de versiones de imágenes del clúster
  • Preguntas frecuentes
  • Comenzar
  • Ejecuta Spark en Dataproc
    • Usa Console
    • Usa la línea de comandos
    • Usa el Explorador de APIs de REST
      • Crea un clúster
      • Ejecuta un trabajo de Spark
      • Actualizar un clúster
      • Borra un clúster
    • Usar las bibliotecas cliente
    • Ejecuta Spark con Kubernetes
  • Crear
  • Configura un proyecto
  • Usa plantillas de Dataproc
  • Crea clústeres de Dataproc
    • Crea un clúster
    • Crea un clúster de alta disponibilidad
    • Crea un clúster de grupo de nodos
    • Crea un clúster parcial
    • Crea un clúster de nodo único
    • Crea un clúster de usuario único
    • Cómo volver a crear un clúster
    • Crea una imagen personalizada
  • Crea clústeres de Kubernetes
    • Descripción general
    • Versiones de actualización
    • Cómo volver a crear un clúster
    • Crea grupos de nodos
    • Crea una imagen personalizada
  • Crea una tabla de Apache Iceberg con metadatos en BigQuery Metastore
  • Desarrollo
  • Apache Hadoop
  • Apache HBase
  • Apache Hive y Kafka
  • Apache Spark
    • Configurar
      • Administra las dependencias de Spark
      • Personaliza el entorno de Spark
      • Habilita las operaciones de escritura simultáneas
      • Mejora el rendimiento de Spark
      • Tune Spark
    • Conéctate
      • Usa el conector de BigQuery de Spark
      • Usa el conector de Cloud Storage
      • Usa el conector de Spanner de Spark
    • Ejecución
      • Usa HBase
      • Usa la simulación de Montecarlo
      • Usa Spark ML
      • Usa Spark Scala
  • Usa notebooks
    • Descripción general
    • Ejecuta un notebook de Jupyter en un clúster de Dataproc
    • Ejecuta un análisis de genómica en un notebook
    • Usa la extensión de JupyterLab para desarrollar cargas de trabajo de Spark sin servidores
  • Python
    • Configura el entorno
    • Usa las bibliotecas cliente de Cloud.
  • Trino
  • Implementar
  • Ejecuta los trabajos
    • El ciclo de un trabajo
    • Envía un trabajo
    • Reinicia trabajos
    • Cómo ver el historial de trabajos
  • Usa plantillas de flujo de trabajo
    • Descripción general
    • Parametrización
    • Usa archivos YAML
    • Usa selectores de clústeres
    • Usa flujos de trabajo intercalados
  • Organiza flujos de trabajo
    • Soluciones de programación del flujo de trabajo
    • Usa plantillas de flujos de trabajo de Dataproc
    • Usa Cloud Composer
    • Usa Cloud Functions
    • Usa Cloud Scheduler
  • Cómo ajustar el rendimiento
    • Optimiza el rendimiento de Spark
    • Métricas de Dataproc
    • Crea alertas de métricas
    • Cómo generar perfiles del uso de recursos
  • Administrar
  • Administrar clústeres
    • Cómo iniciar y detener clústeres
      • Cómo iniciar y detener un clúster de forma manual
      • Programa la detención del clúster
    • Actualiza y borra un clúster
    • Rota los clústeres
    • Configura los clústeres
      • Cómo configurar las propiedades del clúster
      • Seleccionar región
      • Zona de selección automática
      • Define acciones de inicialización
      • Prioriza los tipos de VM
      • Programa la eliminación de clústeres
    • Escala clústeres
      • Escala clústeres
      • Ajustar la escala automática del clúster
    • Administrar datos
      • Almacenamiento de datos en Hadoop
      • Selecciona el tipo de almacenamiento
      • Almacena en caché los datos del clúster
      • Descarga datos de reproducción aleatoria
    • Administra redes
      • Configura una red
      • Redes de clústeres de Dataproc con Private Service Connect
  • Administra clústeres de Kubernetes
    • Escala clústeres
    • Borra un clúster
  • Clústeres de acceso
    • Usa SSH
    • Conéctate a interfaces web
    • Usa la puerta de enlace de componentes
    • Cómo configurar el acceso de los empleados
  • Administra metadatos y etiquetas
    • Habilita el linaje de datos de Spark
    • Habilita el linaje de datos de Hive
    • Configurar metadatos
    • Cómo establecer etiquetas para filtrar
    • Usa etiquetas seguras
  • Cómo conectarse a Dataproc
    • Migra Hadoop
    • Cómo conectarse con BigQuery
      • Conector de BigQuery
      • Conector de Hive-BigQuery
      • Muestras de código
    • Cómo conectarse con Bigtable
    • Cómo conectarse con Cloud Storage
    • Cómo conectarse con Pub/Sub Lite
  • Prácticas recomendadas de producción
  • Seguridad y cumplimiento
  • Prácticas recomendadas de seguridad
  • Autenticar usuarios
    • Autentícate en Dataproc
    • Autentica clústeres personales
  • Asignar roles y permisos
    • Roles y permisos de Dataproc
    • Principales de Dataproc
    • IAM detallada
    • Asignar roles para Kubernetes
  • Crea cuentas de servicio
  • Clústeres seguros
    • Instancias múltiples seguras con Kerberos
    • Multiusuario seguro con cuentas de servicio
    • Encripta la memoria
    • Administra las claves de encriptación de datos
    • Habilita el servicio de autorización de Ranger
    • Usa el proveedor de credenciales de Secret Manager
    • Crea y protege un clúster de Hive Metastore
  • Crea restricciones personalizadas
  • Assured Workloads
  • Cumplimiento de FedRAMP
  • Cómo revisar la facturación
  • Solución de problemas
  • Descripción general
  • Analizar los registros
    • Registros de Dataproc
    • Registros de salida del trabajo
    • Registros de auditoría
  • Soluciona problemas de clústeres
    • Cómo ver los datos de diagnóstico del clúster
    • Soluciona problemas de creación de clústeres
    • Cómo diagnosticar clústeres de Kubernetes
    • Habilita el registro de Kubernetes
  • Soluciona problemas de trabajos
    • Soluciona problemas de trabajos
    • Soluciona problemas de errores de memoria
    • Soluciona problemas de retrasos en los trabajos
    • Cómo ver el historial de trabajos
    • Soluciona problemas de plantillas de flujo de trabajo
  • IA y AA
  • Desarrollo de aplicaciones
  • Hosting de aplicaciones
  • Procesamiento
  • Canalizaciones y análisis de datos
  • Bases de datos
  • Múltiples nubes distribuidas e híbridas
  • IA generativa
  • Soluciones de la industria
  • Redes
  • Observabilidad y supervisión
  • Seguridad
  • Storage
  • Administración de accesos y recursos
  • Administración de uso y costos
  • SDK de Google Cloud, lenguajes, frameworks y herramientas
  • Infraestructura como código
  • Migración
  • Página principal de Google Cloud
  • Prueba gratuita y nivel gratuito
  • Centro de arquitectura
  • Blog
  • Comunicarse con Ventas
  • Google Cloud Developer Center
  • Google Developer Center
  • Google Cloud Marketplace
  • Documentación de Google Cloud Marketplace
  • Google Cloud Skills Boost
  • Google Cloud Solutions Center
  • Atención al cliente de Google Cloud
  • Canal de YouTube sobre tecnología de Google Cloud
Se usó la API de Cloud Translation para traducir esta página.
  • Home
  • Documentación
  • Dataproc
  • Documentation
  • Guías

Migra Hadoop
Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Para migrar flujos de trabajo y datos de Apache Hadoop a Google Cloudy Dataproc, consulta los siguientes documentos:

  • Migra la infraestructura de Hadoop local a Google Cloud
  • Migra datos de HDFS local a Google Cloud

Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2025-09-04 (UTC)

  • Ventajas de Google

    • Por qué elegir Google Cloud
    • Confianza y seguridad
    • Nube de infraestructura moderna
    • Múltiples nubes
    • Infraestructura global
    • Clientes y casos de éxito
    • Informes de analistas
    • Informes
  • Productos y precios

    • Ve todos los productos
    • Ve todas las soluciones
    • Google Cloud for Startups
    • Google Cloud Marketplace
    • Precios de Google Cloud
    • Comunícate con Ventas
  • Asistencia

    • Comunidad de Google Cloud
    • Asistencia
    • Notas de versión
    • Estado del sistema
  • Recursos

    • GitHub
    • Primeros pasos con Google Cloud
    • Documentación de Google Cloud
    • Muestras de código
    • Cloud Architecture Center
    • Capacitación y certificación
    • Developer Center
  • Interactúa

    • Blog
    • Eventos
    • X (Twitter)
    • Google Cloud en YouTube
    • Google Cloud Tech en YouTube
    • Conviértete en socio
    • Google Cloud Affiliate Program
    • Sección de prensa
  • Acerca de Google
  • Privacidad
  • Condiciones del sitio
  • Condiciones de Google Cloud
  • Manage cookies
  • Nuestra tercera década de acción climática: Únete a nosotros
  • Regístrate en el boletín informativo de Google Cloud Suscribirse
  • English
  • Deutsch
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어