Crea un servicio de Dataproc Metastore

En esta página, se muestra cómo crear un servicio de Dataproc Metastore.

Después de crear tu servicio de Dataproc Metastore, puedes importar metadatos y se conecta a cualquiera de los siguientes servicios:

Después de conectar uno de estos servicios, este usa tu El servicio de Dataproc Metastore como su almacén de metadatos de Hive durante la consulta ejecución.

Antes de comenzar

Funciones requeridas

A fin de obtener el permiso que necesitas para crear un Dataproc Metastore, solicita a tu administrador que te otorgue el los siguientes roles de IAM en tu proyecto, según el principio de privilegio mínimo:

Si quieres obtener más información para otorgar roles, consulta Administra el acceso.

Este rol predefinido contiene las metastore.services.create, que es necesario para crear Dataproc Metastore.

También puedes obtener este permiso con roles personalizados o con otros roles predefinidos.

Para obtener más información sobre roles y permisos específicos de Dataproc Metastore, consulta Administra el acceso con la IAM.

Crea Dataproc Metastore con la configuración predeterminada

Crea un Dataproc Metastore con la configuración predeterminada configura tu servicio con un nivel empresarial, una instancia de tamaño mediano, la versión más reciente de Hive Metastore, un extremo de Thrift y una ubicación de datos de us-central.

Dataproc Metastore 2

En las siguientes instrucciones, se muestra cómo crear un Dataproc Metastore 2 con un extremo de Thrift y otra configuración predeterminada proporcionada.

Console

  1. En la consola de Google Cloud, ve a Dataproc Metastore. .

    Ir a Dataproc Metastore

  2. En la barra de navegación, haz clic en +Crear.

    Se abrirá el diálogo Crear servicio de Metastore.

  3. Selecciona Dataproc Metastore 2.

  4. En la sección Precios y capacidad, elige un tamaño de instancia.

    Para obtener más información, consulta Planes de precios y parámetros de configuración de escalamiento.

  5. En el campo Nombre del servicio, ingresa un nombre único para tu servicio.

    Para obtener información sobre las convenciones de nombres, consulta Convenciones de nomenclatura de recursos.

  6. Selecciona la Ubicación de los datos.

    Para obtener más información sobre cómo seleccionar la región adecuada, consulte Regiones y zonas disponibles y Extremo regional.

  7. Para las opciones de configuración del servicio restantes, usa los valores predeterminados proporcionados.

  8. Para crear y, luego, iniciar el servicio, haz clic en Enviar.

    Tu nuevo servicio de almacén de metadatos aparece en Dataproc Metastore . El estado mostrará Creando hasta que el servicio esté listo para usarse. Cuando esté lista, el estado cambiará a Activa. Es posible que el aprovisionamiento del servicio tarde unos minutos.

gcloud CLI

Para crear un servicio 2 de almacén de metadatos de Dataproc Metastore con la los valores predeterminados proporcionados, ejecuta el siguiente comando gcloud metastore services create :

gcloud metastore services create SERVICE \
  --location=LOCATION \
  --instance-size=INSTANCE_SIZE \
  --scaling-factor=SCALING_FACTOR

Reemplaza lo siguiente:

  • SERVICE: Es el nombre del nuevo. Servicio de Dataproc Metastore.
  • LOCATION: Es la región de Google Cloud que deseas. para crear tu Dataproc Metastore. También puedes establecer una ubicación predeterminada.

    Para obtener información sobre las convenciones de nombres, consulta Convenciones de nomenclatura de recursos.

  • INSTANCE_SIZE: Es el tamaño de la instancia. de tu instancia de Dataproc Metastore multirregional. Por ejemplo, small, medium o large. Si especificas un valor para INSTANCE_SIZE, no especifica un valor para SCALING_FACTOR.

  • SCALING_FACTOR: Es el factor de escala. de tu servicio de Dataproc Metastore. Por ejemplo, 0.1. Si especificas un valor para SCALING_FACTOR, no especifiques un valor para INSTANCE_SIZE

REST

Sigue las instrucciones de la API para crear un servicio con el Explorador de APIs.

Dataproc Metastore 1

En las siguientes instrucciones, se muestra cómo crear un Dataproc Metastore 1 con un extremo de Thrift y otra configuración predeterminada proporcionada.

Console

  1. En la consola de Google Cloud, ve a Dataproc Metastore. .

    Ir a Dataproc Metastore

  2. En la barra de navegación, haz clic en +Crear.

    Se abrirá el diálogo Crear servicio de Metastore.

  3. Selecciona Dataproc Metastore 1.

  4. En el campo Nombre del servicio, ingresa un nombre único para tu servicio.

    Para obtener información sobre las convenciones de nombres, consulta Convenciones de nomenclatura de recursos.

  5. Selecciona la Ubicación de los datos.

    Para obtener más información sobre cómo seleccionar la región adecuada, consulte Regiones y zonas disponibles y Extremo regional.

  6. Para las opciones de configuración del servicio restantes, usa los valores predeterminados proporcionados.

  7. Para crear y, luego, iniciar el servicio, haz clic en Enviar.

    Tu nuevo servicio de almacén de metadatos aparece en Dataproc Metastore . El estado mostrará Creando hasta que el servicio esté listo para usarse. Cuando esté lista, el estado cambiará a Activa. Aprovisionar el servicio puede tardar unos minutos.

gcloud CLI

Para crear un servicio de almacén de metadatos básico con los valores predeterminados proporcionados, ejecuta el siguiente comando gcloud metastore services create. :

gcloud metastore services create SERVICE \
  --location=LOCATION

Reemplaza lo siguiente:

REST

Sigue las instrucciones de la API para crear un servicio mediante el Explorador de API.

Crea Dataproc Metastore con la configuración avanzada

Crea un Dataproc Metastore con la configuración avanzada muestra que debes modificar parámetros de configuración, como los de red, de extremo, de seguridad y de funciones opcionales.

Dataproc Metastore 2 o 1

En las siguientes instrucciones, se muestra cómo crear un Dataproc Metastore o un servicio de Dataproc Metastore 1 con configuración.

Console

Comenzar

  1. En la consola de Google Cloud, abre la página Dataproc Metastore:

    Abrir Dataproc Metastore

  2. En el menú de navegación, haz clic en +Crear.

    Se abrirá el diálogo Crear servicio de Metastore.

  3. Selecciona la versión de Metastore que deseas usar, Dataproc Metastore 1. o Dataproc Metastore 2.

    Información del servicio

    Página Crear servicio
    Ejemplo de la página Crear servicio

    1. (Opcional): Para Dataproc Metastore 2. En la sección Precios y capacidad, elige un tamaño de instancia.

      Para obtener más información, consulta Planes de precios y parámetros de configuración de escalamiento.

    2. En el campo Nombre del servicio, ingresa un nombre único para tu servicio.

      Para obtener información sobre las convenciones de nombres, consulta Convenciones de nomenclatura de recursos.

    3. Selecciona la Ubicación de los datos.

      Para obtener más información sobre cómo seleccionar la región adecuada, consulte Regiones y zonas disponibles y Extremo regional.

    4. Selecciona la versión de Metastore de Hive.

      Si este valor no se modifica, tu servicio usará la versión más reciente admitida versión de Hive (actualmente, versión 3.1.2).

      Para obtener más información sobre cómo seleccionar la versión correcta, consulta Política de versiones.

    5. Selecciona el Canal de versiones.

      Si este valor no se modifica, tu almacén de metadatos usa el valor Stable. Para obtener más información, consulta Canal de versiones.

    6. Ingresa el Puerto TCP.

      El puerto TCP al que se conecta tu extremo de Thrift. Si este valor es no se modifica, se usa el número de puerto 9083. Si cambias tu extremo a gRPC, este valor cambia automáticamente a 443 y no puede cambiarse.

    7. (Opcional) Para Dataproc Metastore 1. Selecciona el Nivel de servicio.

      El nivel de servicio influye en la capacidad de tu servicio. Para obtener más información, consulta Nivel de servicio.

    Protocolo de extremo

    • Opcional: Elige un protocolo de extremo.

      La opción predeterminada seleccionada es Apache Thrift. Más información acerca de los diferentes extremos, consulta Elige el protocolo de extremo.

    Configuración de red

    1. Selecciona una Configuración de red.

      De forma predeterminada, tu servicio solo se expone en una red de VPC y usa la red default. La red default solo permite tu servicio para conectarse a otros servicios en el mismo proyecto.

      Cambia la configuración de red predeterminada para completar la siguientes acciones:

      • Conecta tu servicio de Dataproc Metastore a Dataproc Metastore servicios en otros proyectos.
      • Usa tu servicio de Dataproc Metastore con otras Servicios de Google Cloud, como un clúster de Dataproc.
    2. Opcional: Haz clic en Usar red de VPC compartida y, luego, ingresa el ID del proyecto y Nombre de la red de VPC.

    3. De manera opcional, haz clic en Hacer que los servicios sean accesibles en varias subredes de VPC. y selecciona Subredes. Puedes especificar hasta cinco subredes.

    4. Haz clic en Listo.

    Integración de metadatos

    Período de mantenimiento

    • Opcional: Selecciona el Día de la semana y la Hora del día de tu durante el período de mantenimiento.

      Para obtener más información, consulta Períodos de mantenimiento.

    Seguridad

    1. Opcional: Habilita Kerberos.

      1. Para habilitar Kerberos, haz clic en el botón de activación.
      2. Selecciona o ingresa el ID de recurso del secreto.
      3. Elige usar la versión del secreto más reciente o selecciona una anterior es usar uno.
      4. Ingresa el principal de Kerberos.

        Esta es la principal asignada a este Dataproc Metastore servicio.

      5. Ve al archivo krb5 config.

    2. Opcional: Elige un tipo de encriptación.

      • La opción predeterminada seleccionada es Clave de encriptación administrada por Google.

      • Para seleccionar una clave administrada por el cliente, haz clic en Usar una clave administrada por el cliente clave de encriptación (CMEK).

        Para obtener más información, consulta Usa claves de encriptación administradas por el cliente.

    Anulaciones de configuración de Metastore

    Configuración de la versión auxiliar

    • Opcional: Para agregar una configuración de versión auxiliar, haz clic en Habilitar.

      Para obtener más información, consulta Versiones auxiliares.

    Tipo de base de datos

    • Opcional: Elige un tipo de base de datos.

      En Tipo de base de datos, selecciona MySQL o Spanner. MySQL es el el tipo de base de datos predeterminado.

      Para obtener más información sobre cómo elegir un tipo de base de datos específico, consulta Tipos de bases de datos.

    Etiquetas

    • Opcional: Para agregar o quitar etiquetas opcionales que describen tus metadatos, sigue estos pasos: Haz clic en + Agregar etiquetas.

Inicia el servicio

Para crear y, luego, iniciar el servicio, haz clic en Enviar.

Tu nuevo servicio de almacén de metadatos aparece en Dataproc Metastore . El estado mostrará Creando hasta que el servicio esté listo para usarse. Cuando esté lista, el estado cambiará a Activa. Es posible que el aprovisionamiento del servicio tarde unos minutos.

gcloud CLI

  1. Para crear un almacén de metadatos, ejecuta el siguiente comando gcloud metastore services create:

    gcloud metastore services create SERVICE \
      --location=LOCATION \
      --instance-size=INSTANCE_SIZE \
      --scaling-factor=SCALING_FACTOR \
      --port=PORT \
      --tier=TIER \
      --endpoint-protocol=ENDPOINT_PROTOCOL \
      --database-type=DATABASE_TYPE \
      --hive-metastore-version=HIVE_METASTORE_VERSION \
      --data-catalog-sync=DATA_CATALOG_SYNC \
      --release-channel=RELEASE_CHANNEL \
      --hive-metastore-configs=METADATA_OVERRIDE \
      --labels=LABELS \
      --auxiliary-versions=AUXILIARY_VERSION \
      --network=NETWORK \
      --consumer-subnetworks="projects/PROJECT_ID/regions/LOCATION/subnetworks/SUBNET1, projects/PROJECT_ID/regions/LOCATION/subnetworks/SUBNET2" \
      --kerberos-principal=KERBEROS_PRINCIPAL \
      --krb5-config=KRB5_CONFIG \
      --keytab=CLOUD_SECRET \
      --encryption-kms-key=KMS_KEY

    Reemplaza lo siguiente:

    Configuración del servicio:

    • SERVICE: Es el nombre del nuevo. Servicio de Dataproc Metastore. de tu servicio de Dataproc Metastore. Por ejemplo, 0.1 Si especificas un valor para SCALING_FACTOR, no especifiques un valor para INSTANCE_SIZE.
    • LOCATION: Es la región de Google Cloud que deseas. para crear tu Dataproc Metastore. También puedes establecer una ubicación predeterminada.
    • PORT: es el puerto TCP al que Usos del extremo de ahorro. Si no se establece, se usa el puerto 9083. Si eliges usar un extremo de gRPC, el número de puerto se cambia a 443.
    • TIER: Opcional para Dataproc Metastore 1: El nivel de servicio de tu nuevo servicio. Si no se establece, se usa el valor Developer.
    • ENDPOINT_PROTOCOL: Opcional: Elige el protocolo de extremo para tu servicio.
    • DATABASE_TYPE: Opcional: Elige el tipo de base de datos para tu servicio. Para obtener más información sobre cómo elegir un tipo de base de datos específico, consulta Tipos de bases de datos.
    • DATA_CATALOG_SYNC: Habilita las siguientes funciones (opcional) Función de sincronización de Data Catalog.
    • HIVE_METASTORE_VERSION: El Hive (opcional) del almacén de metadatos que desees usar con tu servicio. Por ejemplo, 3.1.2 Si no la estableces, se usará la versión más reciente de Hive.
    • RELEASE_CHANNEL: El canal de versiones (opcional) del servicio. Si no se establece, se usa el valor Stable.
    • METADATA_OVERRIDE: El almacén de metadatos de Hive (opcional) y anula las configuraciones que quieres aplicar a tu servicio. Usa una lista separada por comas en el siguiente formato: k1=v1,k2=v2,k3=v3.
    • LABELS: Pares clave-valor para agregar (opcional) metadatos adicionales a tu servicio. Usa una lista separada por comas en el siguiente formato: k1=v1,k2=v2,k3=v3. Dataproc Metastore
    • AUXILIARY_VERSION: Habilita el modo auxiliar (opcional) versions. Para obtener más información, consulta Versiones auxiliares.

    Configuración de escalamiento:

    • INSTANCE_SIZE (opcional para Dataproc Metastore 2): el tamaño de la instancia de tu instancia de Dataproc Metastore multirregional. Por ejemplo: small, medium o large. Si especificas un valor para INSTANCE_SIZE, no especifiques un valor para SCALING_FACTOR
    • SCALING_FACTOR: Opcional para Dataproc Metastore 2: el factor de escalamiento de tu servicio de Dataproc Metastore. Por ejemplo, 0.1. Si especifica un valor para SCALING_FACTOR, no especifiques un valor para INSTANCE_SIZE

    Configuración de red:

    • NETWORK: Es el nombre de la red de VPC a la que te conectarás a tu servicio. Si no se establece, se usa el valor default.

      Si usas una red de VPC que pertenece a un diferente al de tu servicio, debes proporcionar toda la nombre del recurso relativo. Por ejemplo, projects/HOST_PROJECT/global/networks/NETWORK_ID.

    • SUBNET1, SUBNET2: Una lista de subredes que pueden acceder a tu servicio (opcional) Puedes usar el ID, la URL completamente calificada o el nombre relativo de la subred. Puedes especificar hasta 5 subredes.

    Configuración de Kerberos:

    • KERBEROS_PRINCIPAL: (Opcional) Un principal de Kerberos que existe en el archivo keytab y en el KDC. Un principal típico tiene la forma “principal/instancia@DOMINIO”, pero no hay un formato exacto.
    • KRB5_CONFIG: (Opcional) El archivo krb5.config especifica el KDC y la información del dominio de Kerberos, que incluye ubicaciones del KDC y configuraciones predeterminadas para las aplicaciones de Kerberos y el dominio.
    • CLOUD_SECRET: Es el recurso relativo (opcional) nombre de un Secret Manager versión del Secret.
    • KMS_KEY: Hace referencia al recurso clave (opcional). ID.
  2. Verifica que la creación se haya realizado correctamente.

REST

Sigue las instrucciones de la API para crear un servicio mediante el Explorador de API.

Establece una anulación de configuración del almacén de metadatos de Hive para Dataproc Metastore

Si tu directorio de almacén de Apache Hive está en Cloud Storage, debes establecer una anulación de la configuración del almacén de metadatos. Esta anulación establece tu almacén de datos personalizado como el directorio de almacén predeterminado para tu servicio de Dataproc Metastore.

Antes de establecer esta anulación, asegúrate de que tu instancia tiene permisos de lectura y escritura de objetos para acceder al directorio del almacén. Para obtener más información, consulta el directorio del almacén de Hive.

En las siguientes instrucciones, se muestra cómo establecer una anulación de configuración de Metastore de Hive para un nuevo servicio de Dataproc Metastore.

Console

  1. En la consola de Google Cloud, abre la página Dataproc Metastore:

    Abrir Dataproc Metastore

  2. En la barra de navegación, haz clic en +Crear.

  3. En las anulaciones de configuración de Metastore, ingresa los siguientes valores:

    • Clave: hive.metastore.warehouse.dir.
    • Valor: La ubicación en Cloud Storage de tu directorio de almacén. Por ejemplo: gs://my-bucket/path/to/location.
  4. Configura las opciones de servicio restantes según sea necesario o usa el los valores predeterminados proporcionados.

  5. Haz clic en Enviar.

    Regresa a la página Dataproc Metastore. verificarás que tu servicio se haya creado correctamente.

gcloud CLI

  1. Para crear un servicio de Dataproc Metastore con una anulación de Hive, haz lo siguiente: ejecuta el siguiente comando gcloud metastore services create. :

    gcloud metastore services create SERVICE \
      --location=LOCATION \
      --hive-metastore-configs="hive.metastore.warehouse.dir=CUSTOMER_DIR"
    

    Reemplaza lo siguiente:

    • SERVICE: Es el nombre del nuevo. Servicio de Dataproc Metastore.
    • LOCATION: Es la región de Google Cloud que deseas. para crear tu Dataproc Metastore. También puedes establecer un ubicación predeterminada.
    • CUSTOMER_DIR: Es la ubicación en Cloud Storage de en el directorio de tu almacén. Por ejemplo: gs://my-bucket/path/to/location.
  2. Verifica que la creación se haya realizado correctamente.

Crea Dataproc Metastore con ajuste de escala automático

Dataproc Metastore 2 admite el ajuste de escala automático. Si activas el ajuste de escala automático, puedes establecer un factor de escala mínimo y un factor de escala máximo. Luego de esto se tu servicio aumenta o disminuye automáticamente el factor de escala necesarios para ejecutar tus cargas de trabajo.

Consideraciones sobre el ajuste de escala automático

  • El ajuste de escala automático y los factores de escalamiento son opciones mutuamente excluyentes. Por ejemplo: Si activas el ajuste de escala automático, no puedes establecer un factor de escala o tamaño de forma manual.
  • El ajuste de escala automático solo está disponible para Dataproc Metastore de una sola región individuales.
  • Cuando se habilita el ajuste de escala automático, se borra la configuración existente de los factores de escala.
  • Cuando el ajuste de escala automático está inhabilitado, ocurre lo siguiente:
    • Se borra la configuración existente del ajuste de escala automático.
    • El factor de escala se estableció en el último autoscaling_factor que se configuró en el servicio.
  • Los factores de ajuste de escala automático mínimo y máximo son opcionales. Si no la estableces, los valores predeterminados son 0.1 y 6, respectivamente.

Elige una de las siguientes pestañas para aprender a crear un Dataproc Metastore servicio 2 con el ajuste de escala automático habilitado.

Console

  1. En la consola de Google Cloud, ve a Dataproc Metastore. .

    Ir a Dataproc Metastore

  2. En la barra de navegación, haz clic en +Crear.

    Se abrirá el diálogo Crear servicio de Metastore.

  3. Selecciona Dataproc Metastore 2.

  4. En la sección Precios y capacidad, selecciona Enterprise - Single region

  5. En Tamaño de instancia, haz clic en Habilitar ajuste de escala automático.

  6. En Tamaño de instancia, usa el control deslizante para elegir una instancia mínima y máxima. de tamaño del ensamble.

  7. Para crear y, luego, iniciar el servicio, haz clic en Enviar.

    Tu nuevo servicio de almacén de metadatos aparece en Dataproc Metastore . El estado mostrará Creando hasta que el servicio esté listo para usarse. Cuando esté lista, el estado cambiará a Activa. Es posible que el aprovisionamiento del servicio tarde unos minutos.

REST

curl -X POST -s -i -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-d '{"scaling_config":{"autoscaling_config":{"autoscaling_enabled": true,"limit_config":{"max_scaling_factor":MAX_SCALING_FACTOR,"min_scaling_factor": MIN_SCALING_FACTOR}}}}' \
-H "Content-Type:application/json" \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/services?service_id=SERVICE_ID

Reemplaza lo siguiente:

  • MIN_INSTANCES (Opcional) La cantidad mínima de instancias para usarlos en la configuración del ajuste de escala automático. Si estos valores no se especifican, se usa un valor predeterminado de 0.1.
  • MAX_INSTANCESOpcional: El número máximo de instancias para usarlos en la configuración del ajuste de escala automático. Si estos valores no se especifican, se usa un valor predeterminado de 6.

Crea un servicio multirregional de Dataproc Metastore

Para crear un Dataproc Metastore multirregional, consulta Configura un servicio multirregional de Dataproc Metastore.

Crea un servicio de Dataproc Metastore con una VPC compartida

Una VPC compartida te permite conectar Dataproc Metastore recursos de varios proyectos a una red de VPC común.

Para crear un servicio de Dataproc Metastore configurado con un VPC compartida, consulta Crea un servicio con la configuración avanzada.

Consideraciones

  • Las redes de VPC no son relevantes para los servicios de Dataproc Metastore configurados con el protocolo de extremo de gRPC.

  • Para los servicios de Dataproc Metastore configurados con el extremo Thrift asegúrate de que tu servicio de Dataproc Metastore y El clúster de Dataproc al que está conectado usa la misma VPC compartida. en cada red.

  • Para los servicios de Dataproc Metastore configurados con el extremo Thrift y Private Service Connect, asegúrate de usar subredes de la red de VPC compartida.

Roles de IAM necesarios para las redes de VPC compartida

Para crear un servicio de Dataproc Metastore con una VPC a la que se pueda acceder en una red que pertenece a un proyecto diferente, debes otorgar roles/metastore.serviceAgent al bucket del proyecto de servicio Agente de servicio de Dataproc Metastore (service-SERVICE_PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com) en la política de IAM del proyecto de red.

gcloud projects add-iam-policy-binding NETWORK_PROJECT_ID \
   --role "roles/metastore.serviceAgent" \
   --member "serviceAccount:service-SERVICE_PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com"

Soluciona los problemas comunes.

Estos son algunos problemas habituales:

  • Restricción del intercambio de tráfico entre VPC. Antes de crear un almacén de metadatos, no establezcas un restricción de la política de la organización para restringir el intercambio de tráfico entre VPC o, de lo contrario, la creación del almacén de metadatos falla. Para obtener más información sobre cómo establecer la configuración de VPC correcta, Consulta La creación del servicio falla debido a una restricción para restringir la VPC intercambio de tráfico entre redes de VPC.

  • Problemas con redes de VPC. Cuando creas un almacén de metadatos, la red de VPC que podrían quedarse sin direcciones RFC 1918 disponibles requeridas por Servicios de Dataproc Metastore. Para obtener más información solucionar este problema, consulta El rango de IP asignado es agotados.

¿Qué sigue?