Modèle Pub/Sub vers Datadog

Le modèle Pub/Sub vers Datadog est un pipeline de flux de données qui lit les messages d'un abonnement Pub/Sub et écrit leur charge utile dans Datadog à l'aide d'un point de terminaison Datadog. Le cas d'utilisation le plus courant de ce modèle consiste à exporter des fichiers journaux vers Datadog.

Avant d'écrire dans Datadog, vous pouvez appliquer une fonction JavaScript définie par l'utilisateur à la charge utile du message. Tous les messages dont le traitement échoue sont transférés vers un sujet Pub/Sub non traité en vue d'opérations de dépannage supplémentaires et d'un nouveau traitement.

Pour ajouter une couche de protection à vos clés API et à vos secrets, vous pouvez également transmettre une clé Cloud KMS ainsi que le paramètre de clé API encodé en base64 et chiffré avec cette clé. Pour en savoir plus sur le chiffrement du paramètre de clé API, consultez le point de terminaison de chiffrement de l'API Cloud KMS.

Conditions requises pour ce pipeline

  • L'abonnement Pub/Sub source doit exister avant l'exécution du pipeline.
  • Le sujet Pub/Sub non traité doit exister avant l'exécution du pipeline.
  • L'URL Datadog doit être accessible à partir du réseau de nœuds de calcul Dataflow.
  • La clé API Datadog doit être générée et disponible.

Paramètres de modèle

Paramètres Description
inputSubscription Abonnement Pub/Sub à partir duquel lire l'entrée. Par exemple, projects/<project-id>/subscriptions/<subscription-name>.
url URL de l'API Datadog Logs. Cette URL doit être routable depuis le VPC dans lequel le pipeline est exécuté. Par exemple, https://http-intake.logs.datadoghq.com. Pour en savoir plus, consultez la section Envoyer des journaux dans la documentation Datadog.
apiKeySource Source de la clé API. Les valeurs suivantes sont acceptées : PLAINTEXT, KMS et SECRET_MANAGER. Vous devez fournir ce paramètre si vous utilisez Secret Manager. Si apiKeySource est défini sur KMS, vous devez également fournir apiKeyKMSEncryptionKey, et API Key chiffré. Si apiKeySource est défini sur SECRET_MANAGER, vous devez également fournir apiKeySecretId. Si apiKeySource est défini sur PLAINTEXT, vous devez également fournir apiKey.
apiKeyKMSEncryptionKey Facultatif : clé Cloud KMS permettant de déchiffrer la clé API. Vous devez fournir ce paramètre si apiKeySource est défini sur KMS. Si la clé Cloud KMS est fournie, vous devez transmettre une clé API chiffrée.
apiKey Facultatif : clé API Datadog. Vous devez fournir cette valeur si apiKeySource est défini sur PLAINTEXT ou KMS. Pour en savoir plus, consultez la page API et clés d'application dans la documentation Datadog.
apiKeySecretId Facultatif : ID du secret fourni par Secret Manager pour la clé API. Vous devez fournir ce paramètre si apiKeySource est défini sur SECRET_MANAGER. Utilisez le format projects/<project-id>/secrets/<secret-name>/versions/<secret-version>.
outputDeadletterTopic Sujet Pub/Sub auquel transférer les messages non distribuables. Par exemple, projects/<project-id>/topics/<topic-name>.
javascriptTextTransformGcsPath Facultatif : URI Cloud Storage du fichier .js qui définit la fonction JavaScript définie par l'utilisateur (UDF, user-defined function) que vous souhaitez utiliser. Exemple : gs://my-bucket/my-udfs/my_file.js.
javascriptTextTransformFunctionName Facultatif : Nom de la fonction JavaScript définie par l'utilisateur (UDF) que vous souhaitez utiliser. Par exemple, si le code de votre fonction JavaScript est myTransform(inJson) { /*...do stuff...*/ }, le nom de la fonction est myTransform. Pour obtenir des exemples de fonctions JavaScript définies par l'utilisateur, consultez la page Exemples de fonctions définies par l'utilisateur.
javascriptTextTransformReloadIntervalMinutes Facultatif : spécifie la fréquence d'actualisation de l'UDF, en minutes. Si la valeur est supérieure à 0, Dataflow vérifie régulièrement le fichier UDF dans Cloud Storage et actualise l'UDF si le fichier est modifié. Ce paramètre vous permet de mettre à jour l'UDF pendant l'exécution du pipeline, sans avoir à redémarrer le job. Si la valeur est 0, l'actualisation de l'UDF est désactivée. La valeur par défaut est 0.
batchCount Facultatif : Taille de lot pour l'envoi de plusieurs événements vers Datadog. La valeur par défaut est 1 (pas de traitement par lot).
parallelism Facultatif : Nombre maximal de requêtes en parallèle. La valeur par défaut est 1 (aucun parallélisme).
includePubsubMessage Facultatif : Inclus le message Pub/Sub complet dans la charge utile. La valeur par défaut est false (seul l'élément de données est inclus dans la charge utile).

Fonction définie par l'utilisateur

Vous pouvez éventuellement étendre ce modèle en écrivant une fonction définie par l'utilisateur (UDF). Le modèle appelle l'UDF pour chaque élément d'entrée. Les charges utiles des éléments sont sérialisées sous forme de chaînes JSON. Pour en savoir plus, consultez la page Créer des fonctions définies par l'utilisateur pour les modèles Dataflow.

Spécification de la fonction

La spécification de l'UDF se présente comme suit :

  • Entrée : champ de données du message Pub/Sub, sérialisé en tant que chaîne JSON.
  • Sortie : données d'événement à envoyer au point de terminaison du journal Datadog. Le résultat doit être une chaîne ou un objet JSON concaténé.

Exécuter le modèle

Console

  1. Accédez à la page Dataflow Créer un job à partir d'un modèle.
  2. Accéder à la page Créer un job à partir d'un modèle
  3. Dans le champ Nom du job, saisissez un nom de job unique.
  4. Facultatif : pour Point de terminaison régional, sélectionnez une valeur dans le menu déroulant. La région par défaut est us-central1.

    Pour obtenir la liste des régions dans lesquelles vous pouvez exécuter un job Dataflow, consultez la page Emplacements Dataflow.

  5. Dans le menu déroulant Modèle Dataflow, sélectionnez the Pub/Sub to Datadog template.
  6. Dans les champs fournis, saisissez vos valeurs de paramètres.
  7. Cliquez sur Run Job (Exécuter la tâche).

gcloud

Dans le shell ou le terminal, exécutez le modèle :

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Cloud_PubSub_to_Datadog \
    --region REGION_NAME \
    --staging-location STAGING_LOCATION \
    --parameters \
inputSubscription=projects/PROJECT_ID/subscriptions/INPUT_SUBSCRIPTION_NAME,\
apiKey=API_KEY,\
url=URL,\
outputDeadletterTopic=projects/PROJECT_ID/topics/DEADLETTER_TOPIC_NAME,\
javascriptTextTransformGcsPath=PATH_TO_JAVASCRIPT_UDF_FILE,\
javascriptTextTransformFunctionName=JAVASCRIPT_FUNCTION,\
batchCount=BATCH_COUNT,\
parallelism=PARALLELISM

Remplacez les éléments suivants :

  • JOB_NAME : nom de job unique de votre choix
  • REGION_NAME : région dans laquelle vous souhaitez déployer votre job Dataflow, par exemple us-central1
  • VERSION : version du modèle que vous souhaitez utiliser

    Vous pouvez utiliser les valeurs suivantes :

  • STAGING_LOCATION : emplacement des fichiers locaux de préproduction (par exemple, gs://your-bucket/staging)
  • INPUT_SUBSCRIPTION_NAME : nom de l'abonnement Pub/Sub
  • API_KEY : clé API de Datadog
  • URL : URL du point de terminaison Datadog (par exemple, https://http-intake.logs.datadoghq.com)
  • DEADLETTER_TOPIC_NAME : nom du sujet Pub/Sub
  • JAVASCRIPT_FUNCTION Nom de la fonction JavaScript définie par l'utilisateur que vous souhaitez utiliser.

    Par exemple, si le code de votre fonction JavaScript est myTransform(inJson) { /*...do stuff...*/ }, le nom de la fonction est myTransform. Pour obtenir des exemples de fonctions JavaScript définies par l'utilisateur, consultez la page Exemples de fonctions définies par l'utilisateur.

  • PATH_TO_JAVASCRIPT_UDF_FILE : URI Cloud Storage du fichier .js contenant la fonction JavaScript définie par l'utilisateur que vous souhaitez utiliser (par exemple, gs://my-bucket/my-udfs/my_file.js).
  • BATCH_COUNT : taille de lot à utiliser pour envoyer plusieurs événements vers Datadog
  • PARALLELISM : nombre de requêtes parallèles à utiliser pour envoyer des événements vers Datadog

API

Pour exécuter le modèle à l'aide de l'API REST, envoyez une requête HTTP POST. Pour en savoir plus sur l'API, ses autorisations et leurs champs d'application, consultez la section projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Cloud_PubSub_to_Datadog
{
   "jobName": "JOB_NAME",
   "environment": {
       "ipConfiguration": "WORKER_IP_UNSPECIFIED",
       "additionalExperiments": []
   },
   "parameters": {
       "inputSubscription": "projects/PROJECT_ID/subscriptions/INPUT_SUBSCRIPTION_NAME",
       "apiKey": "API_KEY",
       "url": "URL",
       "outputDeadletterTopic": "projects/PROJECT_ID/topics/DEADLETTER_TOPIC_NAME",
       "javascriptTextTransformGcsPath": "PATH_TO_JAVASCRIPT_UDF_FILE",
       "javascriptTextTransformFunctionName": "JAVASCRIPT_FUNCTION",
       "batchCount": "BATCH_COUNT",
       "parallelism": "PARALLELISM"
   }
}

Remplacez les éléments suivants :

  • PROJECT_ID : ID du projet Google Cloud dans lequel vous souhaitez exécuter le job Dataflow
  • JOB_NAME : nom de job unique de votre choix
  • LOCATION : région dans laquelle vous souhaitez déployer votre job Dataflow, par exemple us-central1
  • VERSION : version du modèle que vous souhaitez utiliser

    Vous pouvez utiliser les valeurs suivantes :

  • STAGING_LOCATION : emplacement des fichiers locaux de préproduction (par exemple, gs://your-bucket/staging)
  • INPUT_SUBSCRIPTION_NAME : nom de l'abonnement Pub/Sub
  • API_KEY : clé API de Datadog
  • URL : URL du point de terminaison Datadog (par exemple, https://http-intake.logs.datadoghq.com)
  • DEADLETTER_TOPIC_NAME : nom du sujet Pub/Sub
  • JAVASCRIPT_FUNCTION Nom de la fonction JavaScript définie par l'utilisateur que vous souhaitez utiliser.

    Par exemple, si le code de votre fonction JavaScript est myTransform(inJson) { /*...do stuff...*/ }, le nom de la fonction est myTransform. Pour obtenir des exemples de fonctions JavaScript définies par l'utilisateur, consultez la page Exemples de fonctions définies par l'utilisateur.

  • PATH_TO_JAVASCRIPT_UDF_FILE : URI Cloud Storage du fichier .js contenant la fonction JavaScript définie par l'utilisateur que vous souhaitez utiliser (par exemple, gs://my-bucket/my-udfs/my_file.js).
  • BATCH_COUNT : taille de lot à utiliser pour envoyer plusieurs événements vers Datadog
  • PARALLELISM : nombre de requêtes parallèles à utiliser pour envoyer des événements vers Datadog

Étapes suivantes