Modèle Pub/Sub vers Datadog

Le modèle Pub/Sub vers Datadog est un pipeline de flux de données qui lit les messages d'un abonnement Pub/Sub et écrit leur charge utile dans Datadog à l'aide d'un point de terminaison Datadog. Le cas d'utilisation le plus courant de ce modèle consiste à exporter des fichiers journaux vers Datadog.

Avant d'écrire dans Datadog, vous pouvez appliquer une fonction JavaScript définie par l'utilisateur à la charge utile du message. Tous les messages dont le traitement échoue sont transférés vers un sujet Pub/Sub non traité en vue d'opérations de dépannage supplémentaires et d'un nouveau traitement.

Pour ajouter une couche de protection à vos clés API et à vos secrets, vous pouvez également transmettre une clé Cloud KMS ainsi que le paramètre de clé API encodé en base64 et chiffré avec cette clé. Pour en savoir plus sur le chiffrement du paramètre de clé API, consultez le point de terminaison de chiffrement de l'API Cloud KMS.

Conditions requises pour ce pipeline

  • L'abonnement Pub/Sub source doit exister avant l'exécution du pipeline.
  • Le sujet Pub/Sub non traité doit exister avant l'exécution du pipeline.
  • L'URL Datadog doit être accessible à partir du réseau de nœuds de calcul Dataflow.
  • La clé API Datadog doit être générée et disponible.

Paramètres de modèle

Paramètres obligatoires

  • inputSubscription: abonnement Pub/Sub à partir duquel lire l'entrée. Exemple :projects/your-project-id/subscriptions/your-subscription-name
  • url: URL de l'API Datadog Logs. Cette URL doit être routable depuis le VPC dans lequel le pipeline est exécuté. Pour en savoir plus, consultez la page sur l'envoir des journaux (https://docs.datadoghq.com/api/latest/logs/#send-logs) dans la documentation Datadog Par exemple, https://http-intake.logs.datadoghq.com.
  • outputDeadletterTopic: sujet Pub/Sub auquel transférer les messages non distribuables. Exemple :projects/<PROJECT_ID>/topics/<TOPIC_NAME>

Paramètres facultatifs

  • apiKey: clé API Datadog. Vous devez fournir cette valeur si apiKeySource est défini sur PLAINTEXT ou KMS. Pour en savoir plus, consultez la page API et clés d'application (https://docs.datadoghq.com/account_management/api-app-keys/) dans la documentation Datadog.
  • batchCount: taille de lot pour l'envoi de plusieurs événements vers Datadog. La valeur par défaut est 1 (pas de traitement par lots).
  • parallelism: nombre maximal de requêtes en parallèle. La valeur par défaut est 1 (aucun parallélisme).
  • includePubsubMessage: indique s'il faut inclure le message Pub/Sub complet dans la charge utile. La valeur par défaut est true (tous les éléments, y compris l'élément de données, sont inclus dans la charge utile).
  • apiKeyKMSEncryptionKey: clé Cloud KMS à utiliser pour déchiffrer la clé API. Vous devez fournir ce paramètre si apiKeySource est défini sur KMS. Si la clé Cloud KMS est fournie, vous devez transmettre une clé API chiffrée. Par exemple, projects/your-project-id/locations/global/keyRings/your-keyring/cryptoKeys/your-key-name.
  • apiKeySecretId: ID du secret fourni par Secret Manager pour la clé API. Vous devez fournir ce paramètre si apiKeySource est défini sur SECRET_MANAGER. Par exemple, projects/your-project-id/secrets/your-secret/versions/your-secret-version.
  • apiKeySource: source de la clé API. Les valeurs suivantes sont acceptées : PLAINTEXT, KMS et SECRET_MANAGER. Vous devez fournir ce paramètre si vous utilisez Secret Manager. Si apiKeySource est défini sur KMS, vous devez également fournir apiKeyKMSEncryptionKey et API Key chiffré. Si apiKeySource est défini sur SECRET_MANAGER, vous devez également fournir apiKeySecretId. Si apiKeySource est défini sur PLAINTEXT, vous devez également fournir apiKey.
  • javascriptTextTransformGcsPath: URI Cloud Storage du fichier .js qui définit la fonction JavaScript définie par l'utilisateur (UDF) à utiliser. Exemple :gs://my-bucket/my-udfs/my_file.js
  • javascriptTextTransformFunctionName: nom de la fonction JavaScript définie par lUDF;utilisateur à utiliser. Par exemple, si le code de votre fonction JavaScript est myTransform(inJson) { /*...do stuff...*/ }, le nom de la fonction est myTransform. Pour obtenir des exemples de fonctions JavaScript définies par l'utilisateur, consultez la section https://github.com/GoogleCloudPlatform/DataflowTemplates#udf-examples.
  • javascriptTextTransformReloadIntervalMinutes: définissez l'intervalle que les nœuds de calcul peuvent vérifier pour les modifications des UDF JavaScript pour actualiser les fichiers. La valeur par défaut est 0.

Fonction définie par l'utilisateur

Vous pouvez éventuellement étendre ce modèle en écrivant une fonction définie par l'utilisateur (UDF). Le modèle appelle l'UDF pour chaque élément d'entrée. Les charges utiles des éléments sont sérialisées sous forme de chaînes JSON. Pour en savoir plus, consultez la page Créer des fonctions définies par l'utilisateur pour les modèles Dataflow.

Spécification de la fonction

La spécification de l'UDF se présente comme suit :

  • Entrée : champ de données du message Pub/Sub, sérialisé en tant que chaîne JSON.
  • Sortie : données d'événement à envoyer au point de terminaison du journal Datadog. Le résultat doit être une chaîne ou un objet JSON concaténé.

Exécuter le modèle

Console

  1. Accédez à la page Dataflow Créer un job à partir d'un modèle.
  2. Accéder à la page Créer un job à partir d'un modèle
  3. Dans le champ Nom du job, saisissez un nom de job unique.
  4. Facultatif : pour Point de terminaison régional, sélectionnez une valeur dans le menu déroulant. La région par défaut est us-central1.

    Pour obtenir la liste des régions dans lesquelles vous pouvez exécuter un job Dataflow, consultez la page Emplacements Dataflow.

  5. Dans le menu déroulant Modèle Dataflow, sélectionnez the Pub/Sub to Datadog template.
  6. Dans les champs fournis, saisissez vos valeurs de paramètres.
  7. Cliquez sur Run Job (Exécuter la tâche).

gcloud

Dans le shell ou le terminal, exécutez le modèle :

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Cloud_PubSub_to_Datadog \
    --region REGION_NAME \
    --staging-location STAGING_LOCATION \
    --parameters \
inputSubscription=projects/PROJECT_ID/subscriptions/INPUT_SUBSCRIPTION_NAME,\
apiKey=API_KEY,\
url=URL,\
outputDeadletterTopic=projects/PROJECT_ID/topics/DEADLETTER_TOPIC_NAME,\
javascriptTextTransformGcsPath=PATH_TO_JAVASCRIPT_UDF_FILE,\
javascriptTextTransformFunctionName=JAVASCRIPT_FUNCTION,\
batchCount=BATCH_COUNT,\
parallelism=PARALLELISM

Remplacez les éléments suivants :

  • JOB_NAME : nom de job unique de votre choix
  • REGION_NAME : région dans laquelle vous souhaitez déployer votre job Dataflow, par exemple us-central1
  • VERSION : version du modèle que vous souhaitez utiliser

    Vous pouvez utiliser les valeurs suivantes :

  • STAGING_LOCATION : emplacement des fichiers locaux de préproduction (par exemple, gs://your-bucket/staging)
  • INPUT_SUBSCRIPTION_NAME : nom de l'abonnement Pub/Sub
  • API_KEY : clé API de Datadog
  • URL : URL du point de terminaison Datadog (par exemple, https://http-intake.logs.datadoghq.com)
  • DEADLETTER_TOPIC_NAME : nom du sujet Pub/Sub
  • JAVASCRIPT_FUNCTION : Nom de la fonction JavaScript définie par l'utilisateur que vous souhaitez utiliser.

    Par exemple, si le code de votre fonction JavaScript est myTransform(inJson) { /*...do stuff...*/ }, le nom de la fonction est myTransform. Pour obtenir des exemples de fonctions JavaScript définies par l'utilisateur, consultez la page Exemples de fonctions définies par l'utilisateur.

  • PATH_TO_JAVASCRIPT_UDF_FILE : URI Cloud Storage du fichier .js contenant la fonction JavaScript définie par l'utilisateur que vous souhaitez utiliser (par exemple, gs://my-bucket/my-udfs/my_file.js).
  • BATCH_COUNT : taille de lot à utiliser pour envoyer plusieurs événements vers Datadog
  • PARALLELISM : nombre de requêtes parallèles à utiliser pour envoyer des événements vers Datadog

API

Pour exécuter le modèle à l'aide de l'API REST, envoyez une requête HTTP POST. Pour en savoir plus sur l'API, ses autorisations et leurs champs d'application, consultez la section projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Cloud_PubSub_to_Datadog
{
   "jobName": "JOB_NAME",
   "environment": {
       "ipConfiguration": "WORKER_IP_UNSPECIFIED",
       "additionalExperiments": []
   },
   "parameters": {
       "inputSubscription": "projects/PROJECT_ID/subscriptions/INPUT_SUBSCRIPTION_NAME",
       "apiKey": "API_KEY",
       "url": "URL",
       "outputDeadletterTopic": "projects/PROJECT_ID/topics/DEADLETTER_TOPIC_NAME",
       "javascriptTextTransformGcsPath": "PATH_TO_JAVASCRIPT_UDF_FILE",
       "javascriptTextTransformFunctionName": "JAVASCRIPT_FUNCTION",
       "batchCount": "BATCH_COUNT",
       "parallelism": "PARALLELISM"
   }
}

Remplacez les éléments suivants :

  • PROJECT_ID : ID du projet Google Cloud dans lequel vous souhaitez exécuter le job Dataflow
  • JOB_NAME : nom de job unique de votre choix
  • LOCATION : région dans laquelle vous souhaitez déployer votre job Dataflow, par exemple us-central1
  • VERSION : version du modèle que vous souhaitez utiliser

    Vous pouvez utiliser les valeurs suivantes :

  • STAGING_LOCATION : emplacement des fichiers locaux de préproduction (par exemple, gs://your-bucket/staging)
  • INPUT_SUBSCRIPTION_NAME : nom de l'abonnement Pub/Sub
  • API_KEY : clé API de Datadog
  • URL : URL du point de terminaison Datadog (par exemple, https://http-intake.logs.datadoghq.com)
  • DEADLETTER_TOPIC_NAME : nom du sujet Pub/Sub
  • JAVASCRIPT_FUNCTION : Nom de la fonction JavaScript définie par l'utilisateur que vous souhaitez utiliser.

    Par exemple, si le code de votre fonction JavaScript est myTransform(inJson) { /*...do stuff...*/ }, le nom de la fonction est myTransform. Pour obtenir des exemples de fonctions JavaScript définies par l'utilisateur, consultez la page Exemples de fonctions définies par l'utilisateur.

  • PATH_TO_JAVASCRIPT_UDF_FILE : URI Cloud Storage du fichier .js contenant la fonction JavaScript définie par l'utilisateur que vous souhaitez utiliser (par exemple, gs://my-bucket/my-udfs/my_file.js).
  • BATCH_COUNT : taille de lot à utiliser pour envoyer plusieurs événements vers Datadog
  • PARALLELISM : nombre de requêtes parallèles à utiliser pour envoyer des événements vers Datadog

Étape suivante