Blog - Holofin

Benchmark

El benchmark de extracción de extractos bancarios

Un benchmark del mundo real para la extracción de transacciones de extractos bancarios. holofin procesa el 98% de los extractos con cero errores. Los LLMs de frontera leen casi cada fila, pero en una minoría de diseños devuelven filas que no están en la página —de forma impredecible— por lo que un modelo con un 90% de precisión por fila devuelve un extracto totalmente correcto solo ~75–80% de las veces.

H

Holofin Engineering

Jun 27, 2026

Tu extractor de tablas aprobó. Los números no.

Una auditora abre el resultado de tu extracción de un balance general. El modelo reporta una precisión de celdas del 99.2%. Impresionante. Luego, suma la columna de activos a mano, como hacen los auditores, y el resultado es un número desfasado por una fila. Los activos ya no equivalen a los pasivos más el patrimonio. El estado financiero no cuadra.

G

Greg T

Jun 21, 2026

Detección de fraude documental: Lo que un PDF no puede ocultar

Solíamos pensar que el fraude documental era un problema visual. Fuentes incorrectas. Columnas desalineadas. Un logotipo que se sentía ligeramente incorrecto. Construimos controles en torno a lo que ven los humanos, porque lo que ven los humanos era todo lo que teníamos.

G

Greg T

Mar 23, 2026

Cuando los documentos contraatacan

Página 1: Resumen de cuenta, dos columnas. Página 15: Misma cuenta, tres columnas, nombres de encabezado diferentes. Página 47: Un escaneo con una mancha de café. Página 89: La página de totales, que hace referencia a transacciones que extrajiste hace 70 páginas.

G

Greg T

Feb 24, 2026

El rastro de auditoría invisible

Un auditor abre tu archivo de exportación, encuentra un saldo de cierre de 47.500 € y saca el PDF de origen. Página 3, esquina inferior derecha: 47.000 €. Un número diferente. "¿De dónde viene la diferencia? ¿Quién lo cambió?"

G

Greg T

Feb 07, 2026

HoloRecall: Muestra, no cuentes

Hay un momento en todo proyecto de clasificación donde ves al modelo equivocarse con total confianza. No es un caso difícil. No es un caso límite ambiguo. Es algo que un humano resolvería en medio segundo sin pensarlo.

G

Greg T

Ene 21, 2026

Tu LLM no es un pipeline de documentos

Hay un momento en todo proyecto de IA donde la demo se ve tan bien que tu cerebro empieza a borrar código silenciosamente. Ves un modelo "leer" un extracto bancario y piensas: esto es. Podemos saltarnos el OCR. Podemos saltarnos el análisis de layout. Quizás podemos saltarnos la mitad del pipeline. En la versión de película, alguien presiona Enter y cae una cascada de JSON desde la nube.

G

Greg T

Sep 21, 2025

Los PDF son para personas, no para datos

Nos encantan los PDF. Se ven igual en todos los dispositivos, se imprimen maravillosamente en cualquier tamaño y son lo más parecido que tenemos al papel digital. Pero cada vez que alguien de nuestro equipo dice "simplemente extraigamos los datos del PDF", sentimos que un antiguo demonio PostScript se despierta y susurra: "Nací para pintar píxeles, no para estructurar tus filas".

G

Greg T

Sep 20, 2025