Composant Dataproc facultatif pour Presto

Vous pouvez installer des composants supplémentaires lorsque vous créez un cluster Dataproc à l'aide de la fonctionnalité Composants facultatifs. Cette page explique comment installer le composant Presto sur un cluster Dataproc.

Presto est un moteur de requêtes SQL Open Source distribué. Le serveur Presto et l'interface utilisateur Web sont disponibles par défaut sur le port 8060 (ou le port 7778 si Kerberos est activé) sur le premier nœud maître du cluster.

Par défaut, Presto sur Dataproc est configuré pour fonctionner avec les catalogues hive, tpch, tpcds, bigquery et memory.

Après avoir créé un cluster avec le composant Presto, vous pouvez exécuter des requêtes :

Installer le composant

Installez le composant lorsque vous créez un cluster Dataproc. Des composants peuvent être ajoutés aux clusters créés avec Dataproc version 1.3 et ultérieure.

Consultez la section Versions Dataproc compatibles pour connaître la version de composant incluse dans chaque version d'image Dataproc.

Commande gcloud

Pour créer un cluster Dataproc incluant le composant Presto, utilisez la commande gcloud dataproc clusters create cluster-name avec l'option --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Configurer les propriétés

Ajoutez l'option --properties à la commande gcloud dataproc clusters create pour définir les propriétés de configuration de Presto, Presto-Jvm et Presto-Catalog.

  • Propriétés de l'application : utilisez les propriétés du cluster avec le préfixe presto: pour configurer les propriétés de l'application Presto (par exemple, --properties:presto:join-distribution-type=AUTOMATIC).
  • Propriétés de configuration de la machine virtuelle Java : utilisez les propriétés de cluster avec le préfixe presto-jvm: pour configurer les propriétés de la machine virtuelle Java pour les processus Java des coordinateurs et des nœuds de calcul de Presto, par exemple --properties:presto-jvm:XX:+HeapDumpOnOutOfMemoryError.
  • Créer des catalogues et ajouter des propriétés de catalogue : utilisez presto-catalog:catalog-name.property-name pour configurer les catalogues Presto.

    Exemple : l'option "propriétés" suivante peut être utilisée avec la commande "gcloud dataproc clusters create" pour créer un cluster Presto avec un catalogue Hive "prodhive". Un fichier prodhive.properties sera créé sous $PRESTO_HOME/etc/catalog/ pour activer le catalogue de prodhives.

    --properties="presto-catalog:prodhive.connecter.name=hive,presto-catalog:prodhive.hive.metastore.uri=localhost:9000"

API REST

Le composant Presto peut être spécifié via l'API Dataproc à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.

Console

  1. Activez le composant.
    • Dans Cloud Console, ouvrez la page Dataproc Créer un cluster. Cliquez sur "Advanced options" (Options avancées) au bas de la page pour afficher la section "Optional Components" (Composants facultatifs).

    • Cliquez sur "Select component" (Sélectionner un composant) pour ouvrir le panneau de sélection Optional components (Composants facultatifs). Sélectionnez "Presto" et les autres composants facultatifs à installer sur votre cluster.

  2. Activez la passerelle des composants (nécessite la version en images 1.3.29 ou supérieure) pour faciliter l'accès à l'interface utilisateur Web Presto et aux autres interfaces Web des composants depuis Google Cloud Console (voir la section Afficher les URL de la passerelle des composants et y accéder).
    • Cochez la case "Component Gateway" (Passerelle des composants) dans le formulaire "Create a cluster" (Créer un cluster).