Une tribune de Xavier Gaulle, VP Products chez Dhatim.
Il y a plein d'idées reçues sur les factures. Voici la première d'une petite série. Serez-vous surpris ?
En 2019, seul un tiers des cabinets utilisait de manière significative l’extraction des pièces comptables par OCR (reconnaissance optique des caractères).
L’usage de l’OCR consiste à la mise en place de gabarits à partir desquels les données des factures sont récupérées : pour chaque champ utile de la facture, des zones géographiques sont définies et tous les mots qui entrent dans ces zones sont stockés avec une signification correspondant à la zone en question. Ainsi, par exemple, pour une facture particulière, un rectangle en bas à droite va être défini et le système d’OCR ira systématiquement récupérer les caractères qui sont dans ce rectangle. Et c’est ce qui sera interprété comme étant le montant total HT de la facture.
Alors, comment expliquer cette très lente progression de l’utilisation de l’OCR dans la saisie comptable ?
Au travers des observations de nos data scientists, nous nous attaquons à une première idée reçue sur les factures : elles suivraient des formats standards, faciles à décrire et donc à figer dans l’espace, permettant ainsi à des systèmes déterministes à base d’OCR de récupérer les données des factures. Nous allons voir que la réalité est bien plus hétérogène, complexe et variable.
Où se trouvent les données ?
La détection de l’émetteur et du destinataire des factures est critique pour distinguer une facture d’achat d’une facture de vente, mais également pour affecter la dépense ou la vente au bon compte de tiers, réaliser le lettrage des écritures de banque.
Plusieurs éléments dans la facture permettent de détecter le tiers. Il s’agit du nom de la société, une adresse, un RIB ou un SIREN. Nos observations ont été réalisées sur 200 000 factures contenant 20 000 fournisseurs, avec un mélange de factures d’achat et de vente (80 % contre 20 %), des factures (80 %), des facturettes (13 %), des factures manuscrites (5 %) et des avoirs (2 %).
Comme le montre l’image suivante où chaque point correspondant à un exemple réel de positionnement de l’émetteur (en vert) et du destinataire (en rouge), il en ressort que l’émetteur se trouve en partie haute ou en partie basse de la facture et que le destinataire est majoritairement en partie haute. Mais aucun des deux n’est systématiquement « latéralisé » : on les trouve sur toute la largeur de la facture. On constate également que la superficie de superposition des deux champs est importante, de l’ordre de 25 % de la facture.
Répartition des SIREN sur une facture
Cette première image illustre la grande difficulté du travail qui consisterait à isoler pour chaque type de facture la zone correspondant à l’émetteur et celle renvoyant au destinataire (c’est ce que requiert les systèmes à base d’OCR).
On comprend bien avec cette illustration qu’une très grande quantité de gabarits serait nécessaire pour couvrir l’intégralité des cas représentés.
En réalité, nous retrouvons cette très grande hétérogénéité pour tous les champs utiles de la facture. Les images suivantes l’illustrent pour les dates de la facture, les numéros de facture, les montants HT d’une ligne et les montants totaux HT. On peut constater que les dates et numéros de facture se trouvent principalement dans la partie haute de la facture. Mais de nombreuses exceptions existent, représentées par tous les points rouges et verts qui se détachent. Quant au montant HT des lignes, il se trouve naturellement sur la partie de droite mais réparti sur toute la hauteur de la facture. En effet, les factures peuvent comporter plusieurs pages, les lignes articles ne se retrouvent donc pas uniquement en milieu de facture. Le total HT est pour sa part plutôt en bas de facture, sur toute la largeur. Mais compte tenu de la remarque précédente, on le retrouve également réparti sur la hauteur.
Position des données de la facture
Que conclure ?
Alors que peut-on conclure de ces observations ? Que la position géographique dans la facture n’est pas un critère suffisant pour déterminer la nature d’un mot et que la lecture d’une facture ne consiste donc pas seulement à récupérer des mots dans des emplacements définis au préalable. Lire une facture requiert une intelligence d’analyse capable de compiler un ensemble de paramètres, tels que la position relative, les mots clés environnants, la taille de la police... en plus de la position géographique.
Xavier Gaulle, VP Products chez Dhatim