Transformez n'importe quel type de document en données structurées

Doug Sillars

Doug Sillars

Les API d'apprentissage automatique de Mindee constituent un moyen très pratique et puissant de extraire les informations clés des documents. Nos API vous permettent de rapidement et avec précision extrayez des informations à partir de factures, de reçus, de permis de conduire et plus encore ! Si vous recherchez des ressources sur la façon d'extraire des données à partir de fichiers courants, nos API sont simples et faciles à mettre en œuvre.

Mais les documents standardisés sont excellents, pour les processus standard. Mais combien de fichiers que nous utilisons tous les jours sont standard ? Chaque entreprise et chaque dossier sont légèrement différents.

Alors que nous discutions de nos API d'extraction de données avec de plus en plus de clients, il s'est avéré que la plupart des applications qui bénéficieraient de nos API ont besoins uniques en matière d'extraction de données, et que pour intégrer pleinement nos outils d'automatisation à votre chaîne d'outils, il faudrait créer un modèle de données unique pour chacun de vos documents. Cela semble presque impossible, mais...

Nous sommes très heureux de vous annoncer notre API Document Builder. Nous pouvons l'utiliser pour former un modèle pour n'importe quel document et en quelques heures, commencez à extraire les données du modèle !

Spoiler : C'est magique, mais ce n'est pas TOTALEMENT magique

Depuis la sortie de l'API Document Builder, nous avons eu de nombreuses conversations passionnantes sur la création d'un produit sur mesure API pour chaque processus. Mais lorsque les roues ont pris la route, il y a eu une prise de conscience. Il ne s'agit pas d'un outil magique, il y a encore du travail à faire.

C'est magique... mais ce n'est pas totalement magique. Si vous prévoyez de courir un marathon, vous ne pouvez pas simplement lacer vos chaussures et courir 42 km. Il faut beaucoup d'entraînement avant de pouvoir terminer un marathon. En fait, il existe des guides et des plans pour vous aider à vous entraîner. Nous ne pouvons pas (encore) simplement donner à l'algorithme un fichier et quelques critères pour que tout fonctionne. Tout comme pour l'entraînement au marathon, nous devons déployer des efforts sur le front end pour tirer parti des avantages de l'API.

Considérez cet article comme votre guide pour former votre Modèle Mindee Document Builder. Je vous promets que l'entraînement de votre modèle Mindee sera beaucoup plus facile que l'entraînement pour un marathon, qu'il prendra beaucoup moins de temps et qu'il ne vous causera pas de douleurs aux genoux.

Le processus de formation

Commençons à planifier le modèle de générateur d'API que nous aimerions créer. Pour cet exemple, nous allons entraîner un modèle pour lire le formulaire fiscal W-9 des États-Unis. Nous allons créer l'API pour extraire le nom, adresse (adresse, ville, État et code postal) et numéro de sécurité sociale à partir de chaque formulaire.

Pour que cela soit amusant, j'ai généré 22 formulaires W-9 pour les personnages de la série Harry Potter.

Le Mindee API Builder nécessite la formation de 20 images avant de pouvoir faire des prédictions. Il y aura une formation initiale sur le modèle, et vous pourrez commencer à utiliser l'API pour obtenir des résultats. Ce n'est peut-être pas parfait, mais cela va commencer à fonctionner. Considérez cela comme votre première tentative de marathon : vous y arriverez, mais vous en tirerez des leçons et utiliserez ces connaissances pour vous améliorer. Les résultats de l'API seront bons, mais ils ne seront pas encore parfaits. Au fur et à mesure que vous entraînez le modèle, il deviendra de plus en plus précis. Toutes les 20 images entraînées, le modèle se recyclera (40, 60, 80, etc.) et après chaque entraînement, vous constaterez une nette amélioration du fonctionnement du modèle. Regardons-le en action !

Préparation à la formation

Vous pouvez suivre ces étapes et suivre cette vidéo :

Nous avons notre liste de documents, alors commençons à construire notre modèle :

Étape 1 : Créez un compte

Étape 2 : créer une nouvelle API

Étape 3 : donnez un nom à votre API, et donnez-lui une description et une image :

Étape 4 : Passons maintenant à la partie amusante, à savoir la définition du modèle.

Le formulaire W-9 est utilisé pour identifier chaque personne pour laquelle vous allez effectuer une retenue d'impôt. Vous souhaiterez extraire :

  • Nom
  • Adresse postale
  • Ville
  • État
  • Code postal
  • Numéro de sécurité sociale

Identifier et nommer les champs

Nous allons maintenant construire le modèle de formation. Vous pouvez utiliser de nombreux types de champs pour chaque entrée :

Pour les formulaires W9, nous les appellerons tous des champs de texte.

Chaque champ de texte possède un nom (et la clé API), et vous pouvez définir s'il contient des chiffres et des caractères :

Par exemple :

  • Nom : ne contient jamais de chiffres
  • Adresse postale (peut comporter à la fois des valeurs alphabétiques et numériques)
  • Ville : ne contient jamais de chiffres
  • État : ne contient jamais de chiffres
  • Code postal : ne contient jamais de caractères alphabétiques
  • SSN : ne contient jamais de caractères alphabétiques

Une fois ces informations saisies, le modèle de données ressemble à ceci :

Et maintenant, nous sommes prêts à entraîner le modèle

Formation au modèle Document Builder

Si vous souhaitez visionner une vidéo de la formation :

Un coureur avisé a dit un jour : il suffit de mettre un pied devant l'autre et vous arriverez à la ligne d'arrivée. Certaines descentes sont longues et peu amusantes. C'est la partie « pas amusante ». Nous devons suivre la formation pour que nous (et notre modèle) soyons prêts pour la production.

Vous pouvez télécharger des images (jpg, png, webp) ou des fichiers pdf. Ou si vous avez plusieurs fichiers prêts, vous pouvez télécharger un fichier zip.

Au fur et à mesure du chargement des fichiers, vous pouvez commencer votre entraînement. Voici le W-9 pour Tom Riddle :

Chaque mot qui correspond aux paramètres du champ de nom (surligné à droite) est marqué par une case bleue. Zoomez avec votre trackpad ou votre souris et vous pouvez cliquer sur les cases contenant le nom. Si vous cliquez accidentellement sur la mauvaise case, vous verrez apparaître un « x » qui la supprime du champ de droite.

Conseil : l'entraînement ne se soucie pas de l'ordre dans lequel vous cliquez sur les mots. « Tom Riddle » et « Riddle Tom » sont traités exactement de la même manière.

Continuez pour chaque champ du document et, lorsque vous avez terminé, cliquez sur le bouton « Valider ».

Une fois que vous avez entraîné le modèle avec 20 documents, l'API passe en mode entraînement. Vous recevrez un e-mail lorsqu'il aura terminé sa formation. (Cela se produira également lorsque 40, 60, 80 documents auront été formés)

Donc, nous entraînons le modèle avec 20 images, et Mindee nous dit que l'entraînement du modèle est en cours. Voyons comment fonctionne le modèle !

un peu plus tard...

Regardez la vidéo présentant les résultats de la formation sur l'API :

Après quelques minutes, vous recevrez un e-mail indiquant que le modèle a été entraîné sur les 20 premières images. Nous nous sommes entraînés et entraînés, et maintenant nous pouvons essayer de voir si nous sommes prêts pour notre marathon.

La 21e image que vous téléchargerez sera testée par rapport au modèle, et nous pourrons voir si elle fonctionne bien. Dans ce cas, nous avons affaire au W-9 de Cornelius Fudge (senior, nous savons tous que le junior est en train de pourrir à Azkaban)

Avec seulement 20 documents de formation, notre API W-9 extrait tous les champs avec une grande précision !

Conclusion

Vous pouvez créer votre propre API Document Builder pour votre formulaire ou document unique. Avec juste un peu de formation, vous aurez créé une API qui pourra être utilisée en production avec un haut degré de précision !

Essayez-le. L'essai est gratuit et nous aimerions savoir ce que vous en pensez !

À propos

Qu'il s'agisse de simples photos, de fichiers PDF complexes ou de fichiers manuscrits, l'API de Mindee transforme les données de vos documents en JSON structuré de manière hautement fiable. Aucune formation sur les modèles n'est requise. Tous les alphabets et toutes les langues sont pris en charge.

,
,

Key Takeway

Key Takeway