Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
BigQuery s'intègre à Document AI pour vous aider à créer des cas d'utilisation d'analyse de documents et d'IA générative. Alors que la transformation numérique s'accélère, les organisations génèrent d'énormes quantités de texte et d'autres données de documents, qui offrent un immense potentiel pour obtenir des insights et alimenter de nouveaux cas d'utilisation de l'IA générative. Pour vous aider à exploiter ces données, nous sommes heureux d'annoncer l'intégration de BigQuery et de Document AI. Vous pourrez ainsi extraire des insights à partir des données de vos documents et créer de nouvelles applications de grands modèles de langage (LLM).
Présentation
Les clients BigQuery peuvent désormais créer des extracteurs personnalisés Document AI, optimisés par les modèles de fondation de pointe de Google, qu'ils peuvent personnaliser en fonction de leurs propres documents et métadonnées. Ces modèles personnalisés peuvent ensuite être appelés depuis BigQuery pour extraire des données structurées à partir de documents de manière sécurisée et contrôlée, en utilisant la simplicité et la puissance de SQL.
Avant cette intégration, certains clients ont essayé de créer des pipelines Document AI indépendants, ce qui impliquait de sélectionner manuellement la logique et le schéma d'extraction. L'absence de fonctionnalités d'intégration intégrées les a obligés à développer une infrastructure sur mesure pour synchroniser et maintenir la cohérence des données. Chaque projet d'analyse de documents s'est ainsi transformé en une entreprise considérable nécessitant un investissement important.
Grâce à cette intégration, les clients peuvent désormais créer des modèles distants dans BigQuery pour leurs extracteurs personnalisés dans Document AI, et les utiliser pour effectuer des analyses de documents et de l'IA générative à grande échelle. Ils ouvrent ainsi une nouvelle ère d'insights et d'innovations basés sur les données.
Une expérience unifiée et régie pour passer des données à l'IA
Vous pouvez créer un extracteur personnalisé dans Document AI en trois étapes :
Définissez les données que vous devez extraire de vos documents. Il s'agit de document schema, qui est stocké avec chaque version de l'extracteur personnalisé et accessible depuis BigQuery.
Si vous le souhaitez, vous pouvez fournir des documents supplémentaires avec des annotations comme exemples d'extraction.
Entraînez le modèle pour l'extracteur personnalisé, en fonction des modèles de fondation fournis dans Document AI.
En plus des extracteurs personnalisés qui nécessitent un entraînement manuel, Document AI fournit également des extracteurs prêts à l'emploi pour les dépenses, les reçus, les factures, les formulaires fiscaux, les pièces d'identité délivrées par le gouvernement et une multitude d'autres scénarios, dans la galerie de processeurs.
Une fois l'extracteur personnalisé prêt, vous pouvez passer à BigQuery Studio pour analyser les documents à l'aide de SQL en quatre étapes :
Enregistrez un modèle distant BigQuery pour l'extracteur à l'aide de SQL. Le modèle peut comprendre le schéma du document (créé ci-dessus), appeler l'extracteur personnalisé et analyser les résultats.
Créez des tables d'objets à l'aide de SQL pour les documents stockés dans Cloud Storage. Vous pouvez régir les données non structurées dans les tables en définissant des règles d'accès au niveau des lignes. Cela limite l'accès des utilisateurs à certains documents et restreint ainsi la puissance de l'IA pour la confidentialité et la sécurité.
Utilisez la fonction ML.PROCESS_DOCUMENT sur le tableau d'objets pour extraire les champs pertinents en effectuant des appels d'inférence au point de terminaison de l'API. Vous pouvez également filtrer les documents pour les extractions avec une clause WHERE en dehors de la fonction.
La fonction renvoie une table structurée, chaque colonne étant un champ extrait.
Joignez les données extraites à d'autres tables BigQuery pour combiner les données structurées et non structurées, et générer ainsi de la valeur commerciale.
# Create an object table in BigQuery that maps to the document files stored in Cloud Storage.CREATEORREPLACEEXTERNALTABLE`my_dataset.document`WITHCONNECTION`my_project.us.example_connection`OPTIONS(object_metadata='SIMPLE',uris=['gs://my_bucket/path/*'],metadata_cache_mode='AUTOMATIC',max_staleness=INTERVAL1HOUR);# Create a remote model to register your Doc AI processor in BigQuery.CREATEORREPLACEMODEL`my_dataset.layout_parser`REMOTEWITHCONNECTION`my_project.us.example_connection`OPTIONS(remote_service_type='CLOUD_AI_DOCUMENT_V1',document_processor='PROCESSOR_ID');# Invoke the registered model over the object table to parse PDF documentSELECTuri,total_amount,invoice_dateFROMML.PROCESS_DOCUMENT(MODEL`my_dataset.layout_parser`,TABLE`my_dataset.document`,PROCESS_OPTIONS=> (JSON'{"layout_config": {"chunking_config": {"chunk_size": 250}}}'))WHEREcontent_type='application/pdf';
Table de résultats
Cas d'utilisation de l'analyse de texte, de la synthèse et d'autres analyses de documents
Une fois le texte extrait de vos documents, vous pouvez effectuer des analyses de documents de plusieurs manières :
Utilisez BigQuery ML pour effectuer des analyses de texte : BigQuery ML permet d'entraîner et de déployer des modèles d'embedding de différentes manières. Par exemple, vous pouvez utiliser BigQuery ML pour identifier le sentiment des clients lors d'appels d'assistance ou pour classer les commentaires sur les produits dans différentes catégories. Si vous utilisez Python, vous pouvez également utiliser BigQuery DataFrames pour pandas et des API de type scikit-learn pour l'analyse de texte sur vos données.
Utilisez le LLM text-embedding-004 pour générer des embeddings à partir des documents segmentés : BigQuery dispose d'une fonction ML.GENERATE_EMBEDDING qui appelle le modèle text-embedding-004 pour générer des embeddings. Par exemple, vous pouvez utiliser Document AI pour extraire les commentaires des clients et les résumer à l'aide de PaLM 2, le tout avec BigQuery SQL.
Joignez les métadonnées des documents à d'autres données structurées stockées dans des tables BigQuery :
Par exemple, vous pouvez générer des embeddings à l'aide des documents segmentés et les utiliser pour la recherche vectorielle.
# Example 1: Parse the chunked dataCREATEORREPLACETABLEdocai_demo.demo_result_parsedAS(SELECTuri,JSON_EXTRACT_SCALAR(json,'$.chunkId')ASid,JSON_EXTRACT_SCALAR(json,'$.content')AScontent,JSON_EXTRACT_SCALAR(json,'$.pageFooters[0].text')ASpage_footers_text,JSON_EXTRACT_SCALAR(json,'$.pageSpan.pageStart')ASpage_span_start,JSON_EXTRACT_SCALAR(json,'$.pageSpan.pageEnd')ASpage_span_endFROMdocai_demo.demo_result,UNNEST(JSON_EXTRACT_ARRAY(ml_process_document_result.chunkedDocument.chunks,'$'))json)# Example 2: Generate embeddingCREATEORREPLACETABLE`docai_demo.embeddings`ASSELECT*FROMML.GENERATE_EMBEDDING(MODEL`docai_demo.embedding_model`,TABLE`docai_demo.demo_result_parsed`);
Implémenter des cas d'utilisation de la recherche et de l'IA générative
Une fois que vous avez extrait le texte structuré de vos documents, vous pouvez créer des index optimisés pour les requêtes de type "chercher une aiguille dans une botte de foin". Grâce aux fonctionnalités de recherche et d'indexation de BigQuery, vous pouvez ainsi effectuer des recherches puissantes.
Cette intégration permet également de débloquer de nouvelles applications LLM génératives, comme l'exécution du traitement de fichiers texte pour le filtrage de la confidentialité, les vérifications de la sécurité du contenu et le découpage de jetons à l'aide de requêtes SQL et de modèles Document AI personnalisés. Le texte extrait, combiné à d'autres métadonnées, simplifie la curation du corpus d'entraînement nécessaire pour affiner les grands modèles de langage. De plus, vous créez des cas d'utilisation de LLM sur des données d'entreprise régies, ancrées grâce aux fonctionnalités de génération d'embeddings et de gestion d'index vectoriels de BigQuery. En synchronisant cet index avec Vertex AI, vous pouvez implémenter des cas d'utilisation de génération augmentée par récupération pour une expérience d'IA plus gouvernée et rationalisée.
Exemple d'application
Exemple d'application de bout en bout utilisant le connecteur Document AI :
Consultez la démonstration de cette note de frais sur GitHub.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eBigQuery now integrates with Document AI, enabling users to extract insights from document data and create new large language model (LLM) applications.\u003c/p\u003e\n"],["\u003cp\u003eCustomers can create custom extractors in Document AI, powered by Google's foundation models, and then invoke these models from BigQuery to extract structured data using SQL.\u003c/p\u003e\n"],["\u003cp\u003eThis integration simplifies document analytics projects by eliminating the need for manually building extraction logic and schemas, thus reducing the investment needed.\u003c/p\u003e\n"],["\u003cp\u003eBigQuery's \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e function, along with remote models, object tables, and SQL, facilitates the extraction of relevant fields from documents and the combination of this data with other structured data.\u003c/p\u003e\n"],["\u003cp\u003ePost-extraction, BigQuery ML and the \u003ccode\u003etext-embedding-004\u003c/code\u003e model can be leveraged for text analytics, generating embeddings, and building indexes for advanced search and generative AI applications.\u003c/p\u003e\n"]]],[],null,["# BigQuery integration\n====================\n\nBigQuery integrates with Document AI to help build document analytics and generative AI\nuse cases. As digital transformation accelerates, organizations are generating vast\namounts of text and other document data, all of which holds immense potential for\ninsights and powering novel generative AI use cases. To help harness this data,\nwe're excited to announce an integration between [BigQuery](/bigquery)\nand [Document AI](/document-ai), letting you extract insights from document data and build\nnew large language model (LLM) applications.\n\nOverview\n--------\n\nBigQuery customers can now create Document AI [custom extractors](/blog/products/ai-machine-learning/document-ai-workbench-custom-extractor-and-summarizer), powered by Google's\ncutting-edge foundation models, which they can customize based on their own documents\nand metadata. These customized models can then be invoked from BigQuery to\nextract structured data from documents in a secure, governed manner, using the\nsimplicity and power of SQL.\nPrior to this integration, some customers tried to construct independent Document AI\npipelines, which involved manually curating extraction logic and schema. The\nlack of built-in integration capabilities left them to develop bespoke infrastructure\nto synchronize and maintain data consistency. This turned each document analytics\nproject into a substantial undertaking that required significant investment.\nNow, with this integration, customers can create remote models in BigQuery\nfor their custom extractors in Document AI, and use them to perform document analytics\nand generative AI at scale, unlocking a new era of data-driven insights and innovation.\n\nA unified, governed data to AI experience\n-----------------------------------------\n\nYou can build a custom extractor in the Document AI with three steps:\n\n1. Define the data you need to extract from your documents. This is called `document schema`, stored with each version of the custom extractor, accessible from BigQuery.\n2. Optionally, provide extra documents with annotations as samples of the extraction.\n3. Train the model for the custom extractor, based on the foundation models provided in Document AI.\n\nIn addition to custom extractors that require manual training, Document AI also\nprovides ready to use extractors for expenses, receipts, invoices, tax forms,\ngovernment ids, and a multitude of other scenarios, in the processor gallery.\n\nThen, once you have the custom extractor ready, you can move to BigQuery Studio\nto analyze the documents using SQL in the following four steps:\n\n1. Register a BigQuery remote model for the extractor using SQL. The model can understand the document schema (created above), invoke the custom extractor, and parse the results.\n2. Create object tables using SQL for the documents stored in Cloud Storage. You can govern the unstructured data in the tables by setting row-level access policies, which limits users' access to certain documents and thus restricts the AI power for privacy and security.\n3. Use the function `ML.PROCESS_DOCUMENT` on the object table to extract relevant fields by making inference calls to the API endpoint. You can also filter out the documents for the extractions with a `WHERE` clause outside of the function. The function returns a structured table, with each column being an extracted field.\n4. Join the extracted data with other BigQuery tables to combine structured and unstructured data, producing business values.\n\nThe following example illustrates the user experience:\n\n # Create an object table in BigQuery that maps to the document files stored in Cloud Storage.\n CREATE OR REPLACE EXTERNAL TABLE `my_dataset.document`\n WITH CONNECTION `my_project.us.example_connection`\n OPTIONS (\n object_metadata = 'SIMPLE',\n uris = ['gs://my_bucket/path/*'],\n metadata_cache_mode= 'AUTOMATIC',\n max_staleness= INTERVAL 1 HOUR\n );\n\n # Create a remote model to register your Doc AI processor in BigQuery.\n CREATE OR REPLACE MODEL `my_dataset.layout_parser`\n REMOTE WITH CONNECTION `my_project.us.example_connection`\n OPTIONS (\n remote_service_type = 'CLOUD_AI_DOCUMENT_V1', \n document_processor='\u003cvar translate=\"no\"\u003ePROCESSOR_ID\u003c/var\u003e'\n );\n\n # Invoke the registered model over the object table to parse PDF document\n SELECT uri, total_amount, invoice_date\n FROM ML.PROCESS_DOCUMENT(\n MODEL `my_dataset.layout_parser`,\n TABLE `my_dataset.document`,\n PROCESS_OPTIONS =\u003e (\n JSON '{\"layout_config\": {\"chunking_config\": {\"chunk_size\": 250}}}')\n )\n WHERE content_type = 'application/pdf';\n\nTable of results\n\nText analytics, summarization and other document analysis use cases\n-------------------------------------------------------------------\n\nOnce you have extracted text from your documents, you can then perform document\nanalytics in a few ways:\n\n- Use BigQuery ML to perform text-analytics: BigQuery ML supports training and deploying embedding models in a variety of ways. For example, you can use BigQuery ML to identify customer sentiment in support calls, or to classify product feedback into different categories. If you are a Python user, you can also use BigQuery DataFrames for pandas, and scikit-learn-like APIs for text analysis on your data.\n- Use `text-embedding-004` LLM to generate embeddings from the chunked documents: BigQuery has a `ML.GENERATE_EMBEDDING` function that calls the `text-embedding-004` model to generate embeddings. For example, you can use a Document AI to extract customer feedback and summarize the feedback using PaLM 2, all with BigQuery SQL.\n- Join document metadata with other structured data stored in BigQuery tables:\n\nFor example, you can generate embeddings using the chunked documents and use it for vector search. \n\n # Example 1: Parse the chunked data\n\n CREATE OR REPLACE TABLE docai_demo.demo_result_parsed AS (SELECT\n uri,\n JSON_EXTRACT_SCALAR(json , '$.chunkId') AS id,\n JSON_EXTRACT_SCALAR(json , '$.content') AS content,\n JSON_EXTRACT_SCALAR(json , '$.pageFooters[0].text') AS page_footers_text,\n JSON_EXTRACT_SCALAR(json , '$.pageSpan.pageStart') AS page_span_start,\n JSON_EXTRACT_SCALAR(json , '$.pageSpan.pageEnd') AS page_span_end\n FROM docai_demo.demo_result, UNNEST(JSON_EXTRACT_ARRAY(ml_process_document_result.chunkedDocument.chunks, '$')) json)\n\n # Example 2: Generate embedding\n\n CREATE OR REPLACE TABLE `docai_demo.embeddings` AS\n SELECT * FROM ML.GENERATE_EMBEDDING(\n MODEL `docai_demo.embedding_model`,\n TABLE `docai_demo.demo_result_parsed`\n );\n\nImplement search and generative AI use cases\n--------------------------------------------\n\nOnce you've extracted structured text from your documents, you can build indexes\noptimized for needle in the haystack queries, made possible by BigQuery's search\nand indexing capabilities, unlocking powerful search capability.\nThis integration also helps unlock new generative LLM applications like executing\ntext-file processing for privacy filtering, content safety checks, and token chunking\nusing SQL and custom Document AI models. The extracted text, combined with other metadata,\nsimplifies the curation of the training corpus required to fine-tune large language\nmodels. Moreover, you're building LLM use cases on governed, enterprise data\nthat's been grounded through BigQuery's embedding generation and vector index\nmanagement capabilities. By synchronizing this index with Vertex AI, you can\nimplement retrieval-augmented generation use cases, for a more governed and\nstreamlined AI experience.\n\nSample application\n------------------\n\nFor an example of an end-to-end application using the Document AI Connector:\n\n- Refer to this expense report demo on [GitHub](https://github.com/GoogleCloudPlatform/smart-expenses).\n- Read the companion [blog post](/blog/topics/developers-practitioners/smarter-applications-document-ai-workflows-and-cloud-functions).\n- Watch a deep dive [video](https://www.youtube.com/watch?v=Bnac6JnBGQg&t=1s) from Google Cloud Next 2021."]]