Nombre maximal d'éléments dans l'ensemble de données d'entraînement: 300 documents, 300 pages
Ensemble de données d'entraînement minimal: chaque étiquette sur au moins trois documents
Nombre maximal d'éléments dans l'ensemble de données de test: 2 000 documents ; 8 000 pages
Ensemble de données de test minimal: chaque étiquette sur au moins trois documents
20 pages maximum par document
Limites concernant l'entraînement d'un classificateur de documents personnalisé (CDC) ou d'un séparateur de documents personnalisé (CDS)
Nombre maximal d'éléments dans l'ensemble de données d'entraînement: 30 000 documents ; 100 000 pages
Ensemble de données d'entraînement minimal: chaque étiquette sur au moins 10 documents
Nombre maximal d'éléments dans l'ensemble de données de test: 2 000 documents ; 8 000 pages
Ensemble de données de test minimal: chaque étiquette sur au moins deux documents
200 pages maximum par document
Étiquetage
Pour commencer, assurez-vous que les libellés des documents respectent les seuils minimaux d'entraînement et d'évaluation définis.
Pour commencer à évaluer les performances du modèle pour les documents présentant des variations de mise en page, libellez au moins 100 documents. Plus précisément, assurez-vous que chaque étiquette figure sur 50 documents d'entraînement et 50 documents d'évaluation.
Nombre maximal d'étiquettes (champs) autorisé : 150
Limites de taille des libellés (caractères): les éléments longs ne sont pas bien acceptés, mais aucune limite explicite n'est appliquée. Divisez les documents en morceaux de 800 ou 1 000 jetons, avec 100 à 200 jetons de chevauchement entre les morceaux. (Les éléments plus longs que la zone de chevauchement peuvent rencontrer des problèmes de qualité.)
Nombre d'occurrences de libellés dans un document: illimité
Couverture géographique
Régions généralement compatibles: États-Unis, UE (multirégion)
Régions où l'accès est limité: Allemagne, Australie, Canada, Inde, Royaume-Uni et Singapour
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/02/14 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/02/14 (UTC)."],[],[]]