Améliorez la précision du traitement des factures avec Nanonets et ChatGPT

Republié par Platon

Suiveurs: 0

Je n'exagèrerais pas si je disais qu'une personne moyenne envoie/reçoit au moins 10 factures par semaine. Avec la numérisation croissante, les entreprises sont confrontées chaque jour à des volumes massifs de factures. Traditionnellement, le traitement des factures était un processus manuel et chronophage, qui nécessitait des ressources importantes et était sujet aux erreurs.

Avec l'avènement de l'IA et du traitement du langage naturel, le traitement des factures peut désormais être automatisé et rationalisé, ce qui améliore l'efficacité et la précision. GPT signifie « Generative Pre-trained Transformer » et fait référence à une famille de puissants modèles de traitement du langage développés par OpenAI. Les modèles GPT sont pré-formés sur de grandes quantités de données textuelles et peuvent ensuite être affinés pour des tâches spécifiques, y compris le traitement des factures.

Prenons le cas du traitement des factures pour les commandes d'une librairie, un exemple de facture est présenté dans l'image ci-dessous. Cette facture contient les informations sur l'expédition, la facturation, les articles et les prix. Imaginez devoir collecter manuellement les données de milliers de factures ! Heureusement, nous avons des outils d'IA qui accélèrent le processus.

Améliorez la précision du traitement des factures avec Nanonets et ChatGPT PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Dans ce blog, je vais vous guider à travers les étapes de traitement de votre facture à l'aide de GPT-4 et de Nanonets. Prenez une tasse de café et préparez-vous !

Étape 1 : Créer un compte Nanonets et télécharger l'image

La première étape consiste à extraire les données textuelles de l'image de notre facture. Les techniques OCR (Optical Character Recognition) utilisent des algorithmes de reconnaissance de formes pour identifier et convertir des caractères en texte sur des images ou des documents numérisés. La plate-forme d'intelligence artificielle (IA) basée sur le cloud Nanonets propose des outils OCR sélectionnés pour des tâches spécifiques, y compris Invoice OCR. Vous pouvez simplement vous inscrire ici et accédez gratuitement à leur outil OCR de facturation.

Une fois que vous vous êtes connecté et que vous avez cliqué sur l'OCR de la facture, vous pouvez trouver une option "Télécharger des fichiers". Nanonets est très convivial et vous permet de télécharger des fichiers à partir de plus de 6 applications.

J'ai téléchargé l'exemple de facture d'Agatha Book Store ici. L'extraction serait terminée en quelques minutes et vous obtiendrez les résultats supprimés comme indiqué. Ici, un modèle d'apprentissage en profondeur pré-formé est utilisé pour extraire les entités et leurs valeurs.

Tous les champs de texte identifiés par les Nanonets sont délimités par des cases séparées. Les valeurs extraites pour ces champs peuvent être consultées dans l'onglet « RÉSULTATS FINAUX » à droite. Cette extraction d'entité effectuée par Nanonets peut être améliorée en utilisant GPT-4. Nanonets fournit également des options pour ajouter ou modifier les noms de champ, ce qui améliore la personnalisation et l'expérience utilisateur pour les clients.

Vous cherchez à automatiser vos processus AP manuels ? Réservez une démonstration en direct de 30 minutes pour voir comment les nanonets peuvent aider votre équipe à mettre en œuvre de bout en bout Automatisation AP.

Étape 2 : Télécharger les données texte OCR

Les données de texte OCR extraites peuvent être téléchargées sous plusieurs formes. Consultez le GIF ci-dessous pour voir la démonstration du téléchargement des données de facturation dans un fichier Excel ou CSV. Dans le fichier CSV, tous les noms de champs d'entité/données sont stockés sous forme de colonnes et leurs valeurs se trouvent dans les lignes correspondantes.

Nous copions et collons les données du CSV téléchargé et obtenons le texte généré par OCR. Voici le texte que j'ai téléchargé à partir de notre exemple de facture dans Nanonets.

Le texte généré par l'OCR peut être amélioré à l'aide de Chat GPT3 avec les étapes suivantes.

L'extraction d'entités peut être mise à l'échelle pour prendre en charge différentes requêtes si nous utilisons des modèles GPT4 en plus du texte traité par Nanonets. Vous pouvez créer un compte Open AI à partir de ici et accédez aux grands modèles de langage. Une fois votre compte configuré, vous recevrez une clé API unique. C'est par mesure de sécurité, pour authentifier et autoriser les requêtes faites aux serveurs d'OpenAI. Importez le package OpenAI et définissez la valeur de la clé API.

Concevoir une invite de manière claire et structurée est le secret pour libérer la puissance des grands modèles de langage. Afin d'extraire le champ de données ou les entités et leurs valeurs, nous pouvons utiliser l'invite ci-dessous.

#définir votre invite

prompt_text= Ceci est le texte généré par l'OCR des factures pour les commandes de la librairie » +ocr_generated_text » + « Extrayez les entités et leurs valeurs sous forme de paire clé-valeur à partir du texte OCR fourni et affichez-les au format clé : valeur »

Une fois que vous avez une invite, vous pouvez la transmettre à n'importe quel modèle pré-formé d'OpenAI et obtenir une réponse via le " fonction openai.Completion.create()". Il y a quelques paramètres que vous pouvez choisir pour obtenir le meilleur résultat.

Paramètres de GPT :

moteur: Ce paramètre vous permet de choisir un modèle de grande langue (LLM) pré-formé spécifique à utiliser pour générer le texte. Il peut être défini sur un modèle pré-formé ou sur un modèle personnalisé affiné. Text Davinci est un choix puissant et efficace.
Rapide: Il s'agit de l'invite de texte initiale à donner au modèle pour commencer à générer le texte. Dans notre cas, la variable "prompt_text" que nous avons définie précédemment.
Max_tokens : Indique le nombre maximal de jetons que le modèle peut générer pour une invite donnée. Vous pouvez contrôler la longueur du texte généré grâce à cela.
Température: Utilisez-le pour contrôler le degré d'aléatoire ou de créativité dans le texte généré. Une valeur à basse température produit une sortie plus conservatrice et prévisible, tandis qu'une valeur à haute température conduit à une sortie plus créative et variée. La valeur de température varie de 0 à 1, 1 étant la plus créative.

Maintenant que vous êtes familiarisé avec les paramètres GPT, écrivons le code pour générer une sortie en transmettant le texte d'invite avec d'autres paramètres.

Nous avons obtenu la sortie comme suit :

Les entités et leurs valeurs ont été rapidement extraites en quelques étapes seulement !

Étape 4 : Améliorer les corrections de données

Parmi les milliers de factures qui circulent dans toute entreprise, les incohérences et les erreurs mineures dans les données des clients sont inévitables. Par exemple, certains clients peuvent avoir donné un format d'e-mail ou des numéros de contact non valides ou la date peut être dans des formats différents. Avec Nanonets et GPT-4, vous pouvez facilement identifier ces problèmes et effectuer des corrections de données. Nous pouvons implémenter des validations basées sur des règles, pour vérifier l'exactitude et le format et également vérifier les incohérences.

Je donne une invite à GPT pour effectuer la validation de la date et de l'e-mail pour nous.

prompt_text= "Dans les données d'entités extraites ci-dessus, validez si le format de la date (JJ/MM/AAAA) et de l'e-mail sont corrects ?"

Le LLM fournit un code Python utilisant des expressions régulières pour vérifier le format, comme indiqué dans l'image ci-dessous. Dans une expression régulière, nous recherchons un modèle particulier et le faisons correspondre. Les entités extraites sont stockées dans un dictionnaire et des fonctions sont définies séparément pour valider l'e-mail et les dates de la facture.

Après avoir défini, on peut transmettre n'importe quelle date telle que ('Date de facture'), identifiant de messagerie du vendeur ou de l'acheteur à ces fonctions pour obtenir le résultat.

GPT vous aide également à apporter des corrections et des modifications aux données de manière rapide et pratique. Notez que sur notre facture, la date est '02/05/2023'. Je donne l'invite ci-dessous pour convertir la date au format "MM/JJ/AA".

prompt=" changez le format des données dans les entités extraites en 'MM/DD/YY'. Ne gardez que les 2 derniers chiffres de l'année"

Dans la sortie, les données ont été corrigées comme souhaité. Nous pouvons donner des invites similaires pour vérifier si le numéro de contact a 10 chiffres, si l'adresse est au format souhaité et également vérifier les valeurs de données manquantes.

Configurez des flux de travail AP sans contact et rationaliser le processus des comptes fournisseurs en secondes. Réservez une démo en direct de 30 minutes maintenant.

Étape 5 : Vérifiez les problèmes de données

Toute incohérence dans les données peut être facilement identifiée avec GPT-4. Dans notre exemple, vous pouvez vérifier si le montant total dû ne correspond pas à la somme des prix des articles individuels. Fournissons une invite pour cela.

prompt="Vérifier si le solde total dû sur la facture est cohérent avec la quantité et les prix des articles sur la facture"

GPT-4 génère une fonction en Python qui calcule la somme des prix de toutes les commandes, en multipliant la quantité et le prix de l'article individuel. Dans le cas où le solde total est incompatible avec le montant inscrit sur la facture, la facture particulière est signalée et étudiée. Cela pourrait aider les entreprises à éviter les erreurs, les écarts et à valider leurs données financières.

Si vous disposez d'un grand ensemble de données de factures, vous pouvez également vérifier la cohérence entre plusieurs factures. Par exemple, vous pouvez comparer les informations du vendeur et de l'acheteur sur plusieurs factures pour identifier toute divergence ou anomalie.

Étape 6 : Interroger avec GPT

Une fois que vous avez extrait les entités, GPT peut également être utilisé pour obtenir des réponses à des requêtes spécifiques à partir de l'ensemble des informations. Par exemple, que faire si vous souhaitez connaître les informations sur les détails d'expédition d'un numéro de facture particulier.

Faisons une invite pour cela:

#définir votre invite

prompt_text= "Extraire les détails sur l'expédition des paires clé-valeur de l'entité"

L'achèvement généré pour cette invite était :

>> Bien sûr ! Sur la base des données OCR fournies, nous pouvons extraire les informations d'expédition et les informations de facturation en deux groupes comme suit :

Informations sur la livraison:

"numéro_facture": "3522"

ship_to_name: Gayatri Natarajan

ship_to_address : 600053 No.22B, Chetpet, Chennai, Tamil Nadu, Inde : Tanaya Pakahale

Une requête similaire peut également être effectuée pour obtenir les détails du vendeur. Voici les informations extraites sur les vendeurs à partir des données fournies :

seller_name : MAISON DU LIVRE AGATHA
seller_address: No.13, 2nd avenue, Indiranagar, Bangalore, Karnataka, Inde, 721302
seller_phone : 6783456723

Lorsque vous travaillez avec plusieurs documents, nous pouvons également rechercher et filtrer les factures avec un solde total dû supérieur à Rs.5000 pour analyser les commandes groupées. Étant donné que GPT a la capacité de conserver les invites passées en mémoire, il offre la meilleure facilité d'utilisation.

Pourquoi choisir Nanonets + Chat GPT pour le traitement des factures ?

GPT peut analyser le texte des factures et identifier et extraire avec précision les entités pertinentes, même lorsqu'elles sont écrites dans des formats différents ou présentent des variations d'orthographe ou de formulation. Cela peut aider à réduire les erreurs et à augmenter la précision
Automatiser et faire évoluer le pipeline de données pour les entreprises
La méthode la plus efficace pour traiter de gros volumes de factures. Réduit considérablement le temps nécessaire à la saisie et au traitement des données.
Les outils offrent flexibilité et adaptabilité. Ces outils peuvent être facilement intégré dans les systèmes existants et peut être personnalisé pour répondre aux besoins spécifiques de l'entreprise
L'un des avantages de la solution OCR de factures de Nanonets est sa capacité à apprendre de ses erreurs. Le système utilise l'apprentissage automatique pour améliorer sa précision au fil du temps, la rendant plus précise à chaque nouvelle facture traitée. La plate-forme permet également aux utilisateurs d'examiner et de corriger manuellement les erreurs, en s'assurant que les données extraites sont exactes et fiables.

Bien qu'il existe de nombreux avantages, nous devons également comprendre les limites de cette méthode. La précision est médiocre dans les situations où la qualité de l'image/du PDF est faible. Les outils basés sur Al sont également sujets à des biais ou à des erreurs inhérentes aux données de formation.

Dans l'ensemble, l'utilisation de GPT pour l'extraction d'entités dans le traitement des factures peut aider les entreprises à rationaliser leurs opérations, à réduire le travail manuel et à améliorer la précision, ce qui améliore la gestion financière et la prise de décision.

Configurez des flux de travail AP sans contact et rationaliser le processus des comptes fournisseurs en secondes. Réservez une démo en direct de 30 minutes maintenant.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
Financement EVM. Interface unifiée pour la finance décentralisée. Accéder ici.
Groupe de médias quantiques. IR/PR amplifié. Accéder ici.
PlatoAiStream. Intelligence des données Web3. Connaissance Amplifiée. Accéder ici.
La source: https://nanonets.com/blog/improving-invoice-processing-accuracy-nanonets-chat-gpt-4/

Horodatage: Le 14 juin 2023