OCR para hostelería: qué pedir, qué evitar y cómo medirlo
OCR es un acrónimo (Optical Character Recognition) que en los últimos años se ha vuelto comodín. Cualquier herramienta que extrae texto de un PDF o foto se etiqueta como "con OCR", desde lectores básicos integrados en escáneres hasta sistemas con IA generativa de última generación. La diferencia entre uno y otro, en hostelería, es enorme.
Este artículo te da un marco para evaluar OCR antes de comprometerte. Las preguntas a hacer al proveedor, las pruebas a realizar, y los criterios de medición que de verdad importan en el día a día.
Por qué hostelería es difícil para el OCR
Las facturas y albaranes que circulan en un restaurante son de los documentos más exigentes para un OCR:
- Formatos heterogéneos. Cada proveedor tiene su propia plantilla. Un OCR que aprende un formato concreto necesita reentrenamiento cada vez que cambias.
- Manuscritos. Albaranes con cantidades anotadas a mano, tachones, correcciones. Los OCR tradicionales fallan aquí; los de IA moderna hacen mejor pero no perfecto.
- Calidad variable. Una factura escaneada con buena luz vs una foto del móvil tomada con mala iluminación, ladeada y arrugada. El sistema tiene que funcionar en ambas.
- Líneas largas con muchas columnas. Una factura de pescadería puede tener 30 líneas con 8 columnas (referencia, descripción, calibre, cantidad, precio unitario, base, IVA, total). Confundir columnas es un error caro.
- Lenguaje específico. Productos con nombres regionales, abreviaturas internas del proveedor ("ACEITE OO 5L"), unidades poco estándar (cajas, bandejas, mallas).
Un OCR que funciona bien con facturas de servicios profesionales puede ser malísimo con facturas de hostelería.
Lo que tiene que hacer un OCR profesional para hostelería
Más allá de "extraer texto", la lista de capacidades que de verdad importan:
1. Extracción estructurada por campos. No te interesa una transcripción del documento. Te interesa que el sistema te dé:
- Datos de cabecera: emisor, número de factura, fecha, total.
- Datos por línea: descripción del producto, cantidad, unidad, precio unitario, base, IVA, total.
- Datos de pie: subtotales, IVA total, descuentos, total.
Cada uno como campo separado, identificado correctamente, no como bloque de texto.
2. Reconocimiento de proveedores conocidos. Cuando llegan tres facturas del mismo proveedor, el sistema reconoce que viene del mismo emisor (por CIF, razón social, formato) y los agrupa. No te toca clasificarlas a mano.
3. Reconocimiento de productos recurrentes. "Tomate de rama 1ª 5kg" del proveedor X siempre se llama así (o casi). El sistema asocia el texto a un producto interno único. No tienes que volver a clasificar cada vez.
4. Detección de duplicados. Si te llega dos veces la misma factura (correo + email), el sistema detecta que es la misma y no la procesa dos veces.
5. Anti-alucinación. La IA moderna a veces inventa datos cuando no los lee bien. Un OCR profesional incluye verificación: doble pasada, comparación con histórico, validaciones cruzadas (subtotales que cuadran, totales coherentes).
6. Confianza por campo. No basta con extraer datos. El sistema debe decirte cuánto confía en cada campo. Una factura con confianza 95% pasa directa. Una con confianza 60% va a revisión humana.
7. Multi-formato. Acepta PDF, foto, email reenviado, escaneo. Sin que tengas que convertir formatos antes.
Cómo probarlo antes de comprometerte
Antes de firmar un contrato, prueba con tus documentos reales. Una metodología que funciona:
Paso 1: Selecciona 20 facturas heterogéneas.
- 5 facturas "fáciles" (PDF nativo, formato limpio).
- 5 facturas medias (escaneos legibles).
- 5 facturas difíciles (fotos del móvil, manuscritas, con anotaciones).
- 5 albaranes (que suelen ser más informales que las facturas).
Que sean de proveedores reales tuyos. Las pruebas con facturas "de demo" del proveedor de OCR no sirven.
Paso 2: Procesa las 20 con la herramienta.
Sube las 20 a la herramienta. Ve qué extrae.
Paso 3: Mide tres cosas.
- Cobertura: ¿de cuántas líneas extrajo todos los campos correctamente?
- Precisión: de los campos extraídos, ¿cuántos están correctamente extraídos?
- Tiempo de revisión: para corregir lo que está mal, ¿cuánto tiempo se necesita?
Un OCR profesional debería dar:
- Cobertura > 90% en facturas fáciles, > 75% en medias, > 50% en difíciles.
- Precisión > 95% en lo que extrae.
- Tiempo de revisión muy inferior al de teclear el documento desde cero.
Paso 4: Cruza con tu volumen real.
Si recibes 50 facturas/mes, calcula cuánto tiempo te llevaría revisar esas 50 con la cobertura y precisión que has medido. Compara con cuánto tiempo te lleva ahora teclearlas o gestionarlas a mano.
Bandas rojas durante la evaluación
Señales claras de que un OCR no es para hostelería:
1. Solo trabaja con un formato. Si te dicen "necesitamos que tu proveedor te envíe en formato Y", la herramienta no es OCR sino un parser específico. No te sirve para la realidad de hostelería.
2. Necesita configuración previa por proveedor. "Tienes que cargar la plantilla de cada proveedor antes de procesar". Es trabajo que no escala.
3. No detecta líneas, solo cabecera y total. OCRs que dan emisor, fecha y total funcionan para gestoría de gastos generales, no para hostelería donde lo importante es lo que viene en cada línea.
4. No tiene memoria. Cada vez que procesa una factura del mismo proveedor empieza de cero. Te toca corregir las mismas cosas una y otra vez.
5. No tiene API ni exportación. Si lo único que sabe hacer es darte un PDF "OCR-eado" y no exportar datos a tu sistema de gestión, te queda la mitad del trabajo.
Métricas que pedir al proveedor
Cuando hables con un proveedor de OCR, pide datos concretos:
- Tasa de extracción correcta en facturas similares a las tuyas (no en facturas demo perfectas).
- Tiempo medio de procesamiento por documento.
- Tasa de detección de duplicados.
- Política sobre alucinaciones: ¿qué hace cuando no está seguro? ¿inventa datos o marca la línea para revisión?
- Soporte para reenvío por email y multi-formato (PDF, foto, etc.).
- Integración con sistemas contables o exportación CSV/Excel.
Si las respuestas son vagas o promesas comerciales sin números, sospecha.
Lo que cambia cuando el OCR funciona bien
En un restaurante medio (50-80 facturas/mes), un OCR que funciona bien transforma la operativa:
- Pasa de 8-12 horas/mes de tecleo y archivo a 30-60 minutos/mes de revisión.
- El equipo deja de "perder tiempo en papeleo" y se concentra en operativa.
- Los datos están disponibles desde el día uno: precios, proveedores, productos.
- Detección de duplicados, errores e inconsistencias automática.
Y sobre todo: cualquier información de tu cocina (qué producto sube de precio, qué proveedor te factura más, qué facturas no se han pagado todavía) está a un click de distancia, no a "una semana de cuadrar Excel".
Conclusión
OCR es palabra grande que cubre realidades muy distintas. Para hostelería, el OCR útil es el que entiende facturas con muchas líneas, formatos heterogéneos, productos recurrentes, y que se integra con el resto de tu sistema. Pruébalo con tus documentos antes de comprometerte y mide cobertura, precisión y tiempo de revisión.
Si quieres probar un OCR diseñado específicamente para hostelería, Sincrio te lo deja gratis durante el periodo de prueba.