Fonctionnement des polygones en Document AI

The Mindee Team

The Mindee Team

polygones bleus sur fond sombre

Lors de l'extraction de données à partir de documents, les rectangles ne suffisent souvent pas. Un cadre de délimitation peut vous indiquer approximativement où se trouve un champ, mais que se passe-t-il si le texte est incliné, pivoté ou s'il se trouve dans une zone irrégulière telle qu'une boîte de signature ou un tampon ? C'est là polygones entrez.

Les polygones permettent aux systèmes d'IA documentaire de décrire des formes avec précision, ce qui les rend essentiels pour une extraction et une visualisation fiables des données.

Que sont les polygones dans le traitement des documents ?

Un polygone est série de points (coordonnées x, y) connectées pour former une forme fermée. Au lieu de simplement dessiner un rectangle, les polygones peuvent délimiter les régions irrégulières ou pivotées d'un document.

Cadre de délimitation ou polygone :

  • UNE boîte de délimitation est toujours rectangulaire.
  • UNE polygone peut suivre le contour exact du texte ou de l'objet, quel que soit son angle ou sa forme.

Exemples de cas d'utilisation :

  • Indiquer un montant total incliné sur un reçu.
  • Capture d'un sceau rond ou d'un logo sur un document officiel.
  • Repérer la forme exacte d'une signature manuscrite.

Pourquoi utiliser des polygones au lieu de cadres de délimitation ?

Encadré autour du texte : simple mais moins précis lorsque le texte est incliné ou irrégulier.
an "example" text with polygons around it
Polygones autour du texte : suivent la forme et l'angle du texte pour une meilleure précision.

Les polygones apportent une valeur ajoutée car ils :

  • Fournir précision supérieure pour localiser du texte ou des éléments.
  • Poignée scans pivotés ou asymétriques mieux que les rectangles.
  • Préservez le contexte de mises en page complexes tels que des PDF ou des tableaux à plusieurs colonnes.
  • Aide avec validation visuelle, afin que les utilisateurs puissent voir exactement quelle partie du document a été extraite.

Fonctionnement technique des polygones

Les polygones sont stockés sous forme de tableaux de coordonnées, généralement normalisés entre 0 et 1 par rapport à la largeur et à la hauteur du document.

Voici un exemple d'extrait JSON :

"locations": [
        {
          "page": 0,
          "polygon": [
            [
              0.3145,
              0.574667
            ],
            [
              0.4499749485051495,
              0.4162655217478252
            ],
            [
              0.4243856094390561,
              0.394379902809719
            ],
            [
              0.2889106609339066,
              0.5527813810618938
            ]
          ]
        }
      ]

Utiliser des polygones avec Mindee

Mindee renvoie des polygones pour chaque champ extrait. Cela signifie que vous obtenez non seulement la valeur, mais également cela provenait du document.

Avantages des données polygonales de Mindee

  • Disponible sur tous les modèles de catalogue (factures, reçus, cartes d'identité, etc.).
  • Utilisé dans les modèles personnalisés lorsque vous définissez vos propres champs.
  • Facile à superposer sur des PDF/images pour validation.

Avec ces coordonnées, vous pouvez superposer le polygone sur le document à l'aide de bibliothèques telles que Ouvrez CV ou Matplotlib, créant un surlignage visuel autour du champ extrait.

Applications du monde réel avec Mindee

  • Gestion des dépenses : mettez en évidence la TVA et les totaux sur les reçus pour une validation rapide.
  • Processus KYC : recadrez et vérifiez les photos des cartes d'identité ou les zones MRZ.
  • Détection des fraudes : détecter les sceaux altérés ou les boîtes de signature modifiées.
  • Flux de travail automatisés : valider que les données extraites se situent dans les zones de document attendues.

Les polygones sont l'épine dorsale de la précision de l'IA documentaire. Ils permettent d'identifier, d'extraire et de valider des informations avec une précision que de simples rectangles ne peuvent égaler.

Avec Mindee, les polygones peuvent être inclus dans chaque prédiction. Les développeurs et les entreprises ne se contentent pas de capturer du texte, mais bénéficient également de contexte de sa localisation exacte, ce qui rend l'extraction des données plus transparente et plus fiable.

À propos

Qu'il s'agisse de simples photos, de fichiers PDF complexes ou de fichiers manuscrits, l'API de Mindee transforme les données de vos documents en JSON structuré de manière hautement fiable. Aucune formation sur les modèles n'est requise. Tous les alphabets et toutes les langues sont pris en charge.

,
,

Key Takeway

Key Takeway