Cette page a été traduite par l'API Cloud Translation.

Utiliser l'analyseur de mise en page Document AI avec le moteur de RAG Vertex AI

Cette page présente l'analyseur de mise en page Document AI et explique comment il est utilisé avec le moteur RAG.

Document AI

Document AI est une plate-forme de traitement et de compréhension de documents qui convertit les données non structurées des documents en champs adaptés au stockage dans une base de données. Les données structurées sont des données que vous pouvez comprendre, analyser et utiliser.

Document AI s'appuie sur des produits Vertex AI avec l'IA générative pour vous aider à créer des applications de traitement de documents évolutives, de bout en bout et basées sur le cloud. Aucune expertise spécialisée en machine learning n'est requise pour utiliser ces produits.

Analyseur de mise en page Document AI

L'analyseur de mise en page extrait des éléments de contenu du document, comme du texte, des tableaux et des listes. L'analyseur de mise en page crée ensuite des segments contextuels qui facilitent la récupération d'informations dans les applications d'IA générative et de découverte.

Lorsqu'il est utilisé pour la récupération et la génération de LLM, la mise en page du document est prise en compte lors du processus de segmentation, ce qui améliore la cohérence sémantique et réduit le bruit dans le contenu. Tout le texte d'un bloc provient de la même entité de mise en page, comme un titre, un sous-titre ou une liste.

Pour connaître les types de fichiers utilisés par la détection de la mise en page, consultez Détection de la mise en page par type de fichier.

Utiliser l'analyseur de mise en page dans le moteur RAG Vertex AI

Pour utiliser l'analyseur de mise en page dans le moteur RAG Vertex AI, vous devez créer un corpus. Pour créer un corpus, procédez comme suit :

Dans la console Google Cloud , accédez à la page RAG Engine.

Accéder au moteur RAG
Sélectionnez Créer un corpus.
Dans le champ Région, sélectionnez votre région.
Dans le champ Nom du corpus, saisissez le nom de votre corpus.
Dans le champ Description, saisissez une description.
Dans la section Données, sélectionnez l'emplacement où vous souhaitez importer vos données.
Développez la section Options avancées.
1. Dans la section Stratégie de segmentation, les tailles par défaut suivantes sont recommandées :
  - Taille de la fragmentation : 1 024
  - Chevauchement des blocs : 256
2. Dans la section Analyseur de mise en page, sélectionnez l'option Analyseur LLM, qui offre la plus grande précision pour les documents contenant des images ou des graphiques.
  1. Dans le champ Modèle, sélectionnez votre modèle.
  2. Facultatif : Dans le champ Nombre maximal de requêtes d'analyse par minute, saisissez le nombre maximal de requêtes d'analyse.
  3. Facultatif : Dans le champ Requête d'analyse personnalisée, saisissez votre requête d'analyse.
  4. Cliquez sur Continuer.
Sur la page Configurer le magasin de vecteurs, procédez comme suit :
1. Dans le champ Modèle d'embedding, sélectionnez votre modèle d'embedding.
2. Dans la section Base de données vectorielle, sélectionnez votre base de données.
Cliquez sur Créer un corpus.

Limites

L'API ImportRagFiles est compatible avec l'analyseur de mise en page. Toutefois, les limites suivantes s'appliquent :

Saisissez la taille maximale de fichier de 20 Mo pour tous les types de fichiers.
Chaque fichier PDF ne peut pas comporter plus de 500 pages.

Les quotas et les tarifs de Document AI s'appliquent.

Activer l'API Document AI

Vous devez activer l'API Document AI pour votre projet. Pour en savoir plus sur l'activation des API, consultez la documentation concernant Service Usage.

Enable the Document AI API.

Enable the API

Activer votre analyseur de mise en page

Pour activer l'analyseur de mise en page, procédez comme suit :

Créez un analyseur de mise en page en suivant les instructions de la section Créer et gérer des processeurs.

Le nom du type de processeur est LAYOUT_PARSER_PROCESSOR.
Activez l'analyseur de mise en page en suivant les instructions de la section Activer un processeur.

Votre base de connaissances RAG (corpus)

Si vous n'avez pas de corpus RAG, créez-en un. Par exemple, consultez Exemple de création d'un corpus RAG.

Si vous disposez déjà d'un corpus RAG, les fichiers existants qui ont été importés sans analyseur de mise en page ne seront pas réimportés lorsque vous importerez des fichiers à l'aide de l'analyseur de mise en page. Si vous souhaitez utiliser un analyseur de mise en page avec vos fichiers, supprimez-les d'abord. Pour en savoir plus, consultez l'exemple de suppression d'un fichier RAG.

Importer des fichiers à l'aide de l'analyseur de mise en page

Vous pouvez importer des fichiers et des dossiers provenant de différentes sources à l'aide de l'analyseur de mise en page.

Python

Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API Python.

Remplacez les variables suivantes utilisées dans l'exemple de code :

PROJECT_ID : ID de votre projet.
LOCATION : région dans laquelle traiter la requête.
RAG_CORPUS_ID : ID de la ressource du corpus RAG.
GCS_URIS : liste d'emplacements Cloud Storage. Par exemple : "gs://my-bucket1", "gs://my-bucket2".
LAYOUT_PARSER_PROCESSOR_NAME : chemin d'accès à la ressource du processeur d'analyseur de mise en page qui a été créé. Exemple : "projects/{project}/locations/{location}/processors/{processor_id}".
CHUNK_SIZE : (facultatif) nombre de jetons que chaque fragment doit avoir.

from vertexai import rag
import vertexai

PROJECT_ID = YOUR_PROJECT_ID
corpus_name = "projects/{PROJECT_ID}/locations/us-central1/ragCorpora/{rag_corpus_id}"
paths = ["https://drive.google.com/file/123", "gs://my_bucket/my_files_dir"]  # Supports Cloud Storage and Google Drive.

# Initialize Vertex AI API once per session
vertexai.init(project=PROJECT_ID, location="us-central1")

response = rag.import_files(
    corpus_name=corpus_name,
    paths=paths,
    transformation_config=rag.TransformationConfig(
        rag.ChunkingConfig(chunk_size=1024, chunk_overlap=256)
    ),
    import_result_sink="gs://sample-existing-folder/sample_import_result_unique.ndjson",  # Optional: This must be an existing storage bucket folder, and the filename must be unique (non-existent).
    llm_parser=rag.LlmParserConfig(
      model_name="gemini-2.5-pro-preview-05-06",
      max_parsing_requests_per_min=100,
    ),  # Optional
    max_embedding_requests_per_min=900,  # Optional
)
print(f"Imported {response.imported_rag_files} files.")

REST

L'exemple de code montre comment importer des fichiers Cloud Storage à l'aide de l'analyseur de mise en page. Pour en savoir plus sur les options de configuration, y compris l'importation de fichiers depuis une autre source, consultez la documentation de référence sur ImportRagFilesConfig.

Avant d'utiliser les données de requête ci-dessous, remplacez les variables utilisées dans l'exemple de code :

PROJECT_ID : ID de votre projet.
LOCATION : région dans laquelle traiter la requête.
RAG_CORPUS_ID : ID de la ressource du corpus RAG.
GCS_URIS : liste d'emplacements Cloud Storage. Par exemple : "gs://my-bucket1", "gs://my-bucket2".
LAYOUT_PARSER_PROCESSOR_NAME : chemin d'accès à la ressource du processeur d'analyseur de mise en page qui a été créé. Exemple : "projects/{project}/locations/{location}/processors/{processor_id}".
CHUNK_SIZE : (facultatif) nombre de jetons que chaque fragment doit avoir.

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/ragCorpora/RAG_CORPUS_ID/ragFiles:import

Corps JSON de la requête :

{
  "import_rag_files_config": {
    "gcs_source": {
      "uris": "GCS_URIS"
    },
    "rag_file_parsing_config": {
      "layout_parser": {
        "processor_name": "LAYOUT_PARSER_PROCESSOR_NAME"
      }
    },
    "rag_file_transformation_config": {
      "rag_file_chunking_config": {
        "fixed_length_chunking": {
          "chunk_size": CHUNK_SIZE
        }
      }
    },
  }
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json et exécutez la commande suivante :

curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/ragCorpora/RAG_CORPUS_ID/ragFiles:import"

Powershell