Manual de uso del OCR
Manual de uso del OCR
¿Qué es el sistema OCR (Reconocimiento Óptico de Caracteres) para facturas de tucomunidad.com?
Es una herramienta para el reconocimiento óptico de datos, que permite extraer la información (datos de la factura) contenida en un PDF o una imagen (factura digitalizada) para trasladarlos a los receptores de la factura de forma que puedan procesar y contabilizar la factura de manera automática sin necesidad de registrar manualmente los datos. Con este proceso se minimizan los errores manuales y se agiliza la contabilización y el pago.
Dado que los sistemas OCR son sistemas complejos, te recomendamos que leas este documento y sigas las sugerencias para el correcto funcionamiento y optimización del sistema.
Es preferible que leas el documento completo una primera vez y luego comiences a seguirlo paso a paso en una segunda lectura
Conceptos básicos
Los campos necesarios dentro de una factura para conseguir automatizar su contabilización es un número relativamente pequeño de datos y se denominan metadatos (NIF/CIF emisor, NIF/CIF receptor, fecha factura, fecha de vencimiento, nº de factura, base imponible, % IVA, IVA e importe total)
Adicionalmente, se permite definir metadatos adicionales, ya que pueden ser de interés en determinados casos (nº contrato suministro, comentarios, segundos datos de IVA o en el caso de autónomos %IRPF, IRPF)
El mecanismo que se utiliza en un OCR consiste en hacer un “mapa” de una factura estándar (plantilla). En ese mapa se va a indicar en qué punto físico de la factura (coordenadas o pixeles) se encuentran cada uno de los datos que constituyen los metadatos (ubicación de los metadatos), es decir dónde va el CIF emisor, dónde el CIF receptor, etc… y qué tipo de dato es (una fecha, un número, un texto, etc…) de manera que posteriormente el OCR pueda ir a las facturas y encontrar cada dato en el punto dónde debe estar.
La plantilla se crea una única vez y es el mapa que se utiliza para que el OCR capture de forma automática los datos de todas las facturas posteriormente.
Un metadato puede estar en horizontal en el papel (esto es lo normal) o en vertical (a veces los CIF del emisor se encuentran escritos en vertical en el lateral de la factura)
En ocasiones un metadato siempre tiene el mismo valor en todas las facturas (p.e: el CIF emisor o el % IVA en determinados servicios). En estas ocasiones es mucho más práctico asignarle un valor fijo al metadato de forma que el OCR no tenga que trabajar en balde.
Las facturas no tienen siempre el mismo tamaño, la longitud del concepto de la factura puede variar, el número de productos facturados no es siempre el mismo, etc… Esta situación puede provocar que algunos metadatos no estén siempre en la misma ubicación. Para resolver esta circunstancia se emplea un truco, se define una referencia relativa, es decir, un texto fijo que siempre está cercano al metadato que se quiere identificar (por ejemplo, el texto “total” suele ir al lado del importe total de la factura). Estos textos que nos ayudan a mapear un metadato que no está siempre en el mismo punto de la factura se denominan puntos de referencia
En el gráfico que sigue a continuación podrás ver un ejemplo de estos conceptos
¿Qué tipo de facturas puedo introducir en el OCR?
El sistema de OCR de tucomunidad.com ofrece un rendimiento óptimo para facturas generadas como PDF original. MS Office permite crearlas desde Word, Excel y Power Point si al guardar eliges el formato PDF. Además la mayoría de los programas de facturación permiten crear facturas en formato PDF también.
Aunque también es posible introducir imágenes o PDF escaneados NO te recomendamos este método ya que tanto fotos como PDF escaneados pueden haberse movido al ser escaneadas lo cual dificulta la labor del OCR dando malos resultados
Si tu empresa emite cientos de facturas al mes consúltanos, para esos volúmenes existen otras soluciones alternativas al OCR
¿Cómo empiezo?
Lo primero que debes hacer es crear una plantilla partiendo de tu factura estándar de referencia. Debes ir al apartado de facturas…
Ahora selecciona Imp. OCR…
Selecciona plantillas…
Y haz click en nueva plantilla. El proceso de creación tiene tres pasos (seleccionar el fichero, asistente de creación y creación de campos)
El sistema te pedirá ahora que selecciones un fichero con una factura estándar en PDF para empezar a crear la plantilla a partir de ella (Recuerda que debe ser PDF original para obtener la máxima fiabilidad)
Te darás cuenta que existe un indicador que te avisa en qué paso te encuentras en cada momento:
El sistema se tomará unos segundos para reconocer el documento y crear un “mapa” del contenido de la factura estándar que le hemos proporcionado.
Puedes ayudarte con el asistente o bien pulsar el botón “siguiente” para ir paso a paso (nuestra recomendación en esta primera ocasión es que pulses “siguiente” y vayas paso a paso. Más adelante te enseñaremos a utilizar el asistente)
Dar un nombre a la plantilla y crear los metadatos fijos
A partir de aquí vamos a darle un nombre a la plantilla y a decirle al OCR dónde están nuestros metadatos ((NIF/CIF emisor, NIF/CIF receptor, fecha factura, fecha de vencimiento, nº de factura, base imponible, % IVA, IVA e importe total)
Dale un nombre a tu plantilla y el idioma de la misma
Ahora vamos a empezar con los metadatos. Nuestra recomendación es que empieces por los valores fijos (si es que los hay). Normalmente el CIF emisor lo suele ser. Para ello debes seleccionar el metadato de la lista (los que tienen * son obligatorios, el resto son opcionales)
Selecciona que es de tipo fijo en el check, tipo CIF en el combo, dale el valor y pulsa “guardar”
¡Enhorabuena! Acabas de dar de alta el primer metadato de valor fijo. Continúa con el resto de metadatos fijos que tenga tu factura estándar, por ejemplo el tipo de IVA, si siempre es 21%
Puntos de referencia
Una vez que todos los metadatos fijos están resueltos, vamos a crear un punto de referencia. Para ello selecciona “Ptos. Referencia” en el panel
Ahora debes, poner el nombre del texto del punto de referencia (¡Ojo! El nombre del punto de referencia debe coincidir con los primeros caracteres de la zona del pdf que hayas seleccionado. Escribe el nombre del punto de referencia tal como aparece en la factura), seleccionar con el ratón la zona de la factura donde aparece y dar al botón “Aceptar”
Acabas de crear tu primer punto de referencia. ¡Ves como era fácil!
Ahora podrías crear el resto de puntos de referencia (I.V.A, Subtotal, etc…)
Metadatos variables
Ya sólo nos quedan por definir los metadatos variables y habremos terminado de crear la plantilla.
Lo primero es seleccionar “Campos” en el panel
Ahora seleccionas el campo entre la lista de disponibles (nosotros vamos a hacer NIF/CIF Receptor), no es de valor fijo así que no pinches el check, está escrito en horizontal y es de tipo CIF.
Haz click con el ratón para seleccionar la zona de la factura donde está el metadato y acaba pulsando el botón “Aceptar”
Has avanzado un poco más y has creado tu primer metadato sin punto de referencia.
Como sabemos que necesitas otro ejemplo, ahora vamos a crear un metadato con punto de referencia, el total de la factura.
Recuerda, seleccionas el campo entre la lista de disponibles (nosotros vamos a hacer Importe total), no es de valor fijo así que no pinches el check, está escrito en horizontal y es de tipo moneda con dos decimales. Además necesita un punto de referencia (marca el check de relativo y elige el punto de referencia más cercano “TOTAL FACTURA”)
Haz click con el ratón para seleccionar la zona de la factura donde está el metadato y acaba pulsando el botón “Aceptar”
Si te fijas hemos dado un espacio grande al metadato del importe total cuando hemos seleccionado con el ratón la zona donde estaba. De esta manera si el importe en lugar de ser centenas de euros fuera un número mayor el OCR lo recogerá sin problemas.
Ya está. Has creado el metadato y ya dominas todos los conceptos necesarios para completar tu plantilla
Haz lo mismo con el resto de Metadatos y guarda tu plantilla para poder empezar a importar facturas a través del OCR. No olvides configurar ninguno de los metadatos obligatorios
Recuerda que puedes generar varias plantillas según consideres necesario, si utilizas varios formatos de facturas. Siempre que vayas a realizar una subida de facturas la plataforma te preguntará qué plantilla deseas utilizar.
Trabajando con máscaras
Como ya hemos comentado, OCR es una técnica que analiza una imagen y la convierte en un conjunto de caracteres. Son algoritmos muy complejos, puesto que tienen que tener en cuenta diferentes tamaños, calidades de impresión, tipos de letra, etc. y todo ello sin tener un contexto.
Por ejemplo, si el ocr reconoce en el pdf un círculo, podría pensar que:
- Se trata del número 0,
- Es la letra O
- Es el símbolo º
Un humano, al verla en el contexto de una frase, sabría de qué se trata, por eso es muy importante indicarle al OCR el contexto de la información que está leyendo.
Cuando se está definiendo un campo, hay varios parámetros que nos permiten indicar este contexto:
-
Eliminar Espacios
En ocasiones el OCR, dependiendo del espaciado del tipo de letra, puede interpretar espacios en blanco entre caracteres. Por ejemplo, un número de factura como este:
1 2 3 5
El ocr podría interpretarlo como números separados por espacios en blanco. para evitar este comportamiento, si sabemos que se trata de un dato que núnca tiene espacios entre los caracteres, lo marcaremos.
-
Tipo
También es importante determinar el tipo de dato del campo, para darle el contexto al OCR. Los tipos de datos disponibles son:
- Tipo de datos alfanumérico, que admite números, letras y caracteres especiales
- Tipo de Fecha alfanumérica, para fechas del tipo "12 Feb 2020"
- CIF
- NIF
- NIE
- Tipo moneda de dos decimales, para números con dos decimales.
- Tipo moneda de tres decimales, para números con tres decimales.
- Tipo moneda de cuatro decimales, para números con cuatro decimales.
- Tipo de datos numérico, que sólo admite números.
- Tipo de fecha numérica, para fechas en formato DD/MM/YYYY, o DD/MM/YY
- Tipo de códigos alfanumérico, que sólo admite números y letras.
- Especifique la máscara deseada. Que se utiliza cuando nuestro formato no cuadra con ninguno de los anteriores. Contamos su funcionamiento en el siguiente apartado.
- Mascaras personalizadas
La máscara personalizada se define especificando el tipo de cada uno de los caracteres de la cadena, siguiendo la siguiente nomenclatura:
- N, sólo admite números
- A, sólo admite letras ,mayúsculas
- a, sólo admite letras ,minúsculas
- X, admite números y letras mayúsculas
- x, admite números y letras minúsculas
- *, admite números, letras y caracteres especiales
- [ ], símbolos de comienzo y final de texto fijo.
Pongamos algunos ejemplos
Ejemplo 1
Número de factura que siempre llevase este formato:
FAC2019/00001, FAC2019/00002, FAC2019/00003, FAC2019/00004, ...
La máscara que deberíamos aplicar sería:
[FAC]NNNN[/]NNNNN, donde le estamos diciendo que el texto FAC, y la barra invertida son fijos y el resto son números.
Ejemplo 2
Contrato de suministro que lleva este formato:
CON-3232-AAF9723, donde CON es siempre fijo, luego viene el número de cliente, y luego el número de contrato.
La máscara que deberíamos aplicar sería:
[CON-]NNNN[-]XXXXXXX, donde le estamos diciendo que el texto CON y los guiones son fijos, y el resto deben ser números o letras.
También podríamos utilizar [CON-]NNNN[-]AAXXXXX, si estamos seguros que los dos primeros caracteres del número de contrato siempre serán letras.
Primera prueba con tu plantilla. Captura de una factura con el OCR
A continuación te vamos a guiar para que captures una factura con la plantilla que acabamos de configurar.
Debes ir al apartado de facturas en tucomunidad.com…
Ahora selecciona Imp. OCR…
Selecciona importación individual…
El sistema te solicitará que selecciones el fichero con la factura que deseas capturar con el OCR
Una vez seleccionada la factura pulsas continuar y debes seleccionar la plantilla con la que quieres que el OCR capture los datos (recuerda que puedes tener distintas plantillas si tienes distintos modelos de facturas)
Ahora el sistema comenzará a procesar la factura con el mapa (plantilla) que hemos seleccionado y extraerá los metadatos que se han definido para esa factura y te los presentará en pantalla para tu validación (este proceso puede tardar unos segundos en función de la complejidad de las plantillas)
Puedes modificar los datos si detectas que el OCR ha cometido algún error o simplemente hacer click en el botón “Finalizar” si todos los datos son correctos.
Finalizado el proceso tu factura está lista para enviar al cliente. Sólo tienes que ir al listado de facturas y seleccionar la opción “Enviar” en la factura. A partir de ese momento podrás ver cualquier cambio de estado que se produzca en la factura (aprobaciones y autorizaciones por parte de la Junta de Gobierno de la Comunidad de Propietarios o del propio Administrador de Fincas.
Además en cada factura se incorpora la posibilidad de establecer un Chat (comentarios acerca de la factura que quedan registradas en la plataforma)
Procesos masivos de captura de facturas o procesos por lotes
La verdadera potencia del OCR reside en la posibilidad de procesar masivamente facturas. (te recomendamos que como es un proceso complejo proceses facturas en lotes de como máximo 100 facturas)
Debes ir al apartado de facturas en tucomunidad.com…
Ahora selecciona Imp. OCR…
Selecciona importación por lotes…
Ahora el sistema te solicitará que selecciones los ficheros con la facturas que deseas capturar con el OCR
Una vez seleccionadas las facturas debes seleccionar la plantilla con la que quieres que el OCR capture los datos (recuerda que puedes tener distintas plantillas si tienes distintos modelos de facturas)
Ahora el sistema comenzará a procesar las facturas con el mapa (plantilla) que hemos seleccionado y extraerá los metadatos que se han definido para esa factura. Como este proceso puede tardar varios minutos en función de la complejidad de las plantillas el proceso se realiza completo y el resultado se presenta en los listados. Si ha habido algún problema con alguna de las facturas se encontrarán en estado “Errónea”
Asistente de creación de plantillas
En el proceso de creación de una plantilla podemos utilizar el asistente de plantillas.
Tras introducir el fichero con el modelo de factura de la plantilla, el sistema nos presentará como paso 2 la posibilidad de identificar como metadatos la información que ha detectado como posibles fuentes de información.
El proceso es sencillo, al hacer click sobre alguno de los datos que el sistema ha recuadrado en azul como un potencial metadato nos aparecerá un recuadro que nos solicita que identifiquemos si es un Metadato (Campo) o un punto de referencia
Al seleccionar Metadato (Campo) el sistema nos presentará un cuadro con la información a rellenar para completar la identificación de las características del Metadato
De esta manera se puede agilizar el proceso de elaboración de una plantilla
No Comments