BenchmarkEl benchmark de extracción de extractos bancarios
Un benchmark del mundo real para la extracción de transacciones de extractos bancarios. holofin procesa el 98% de los extractos con cero errores. Los LLMs de frontera leen casi cada fila, pero en una minoría de diseños devuelven filas que no están en la página —de forma impredecible— por lo que un modelo con un 90% de precisión por fila devuelve un extracto totalmente correcto solo ~75–80% de las veces.
Holofin Engineering

Tu extractor de tablas aprobó. Los números no.
Una auditora abre el resultado de tu extracción de un balance general. El modelo reporta una precisión de celdas del 99.2%. Impresionante. Luego, suma la columna de activos a mano, como hacen los auditores, y el resultado es un número desfasado por una fila. Los activos ya no equivalen a los pasivos más el patrimonio. El estado financiero no cuadra.
Greg T

Detección de fraude documental: Lo que un PDF no puede ocultar
Solíamos pensar que el fraude documental era un problema visual. Fuentes incorrectas. Columnas desalineadas. Un logotipo que se sentía ligeramente incorrecto. Construimos controles en torno a lo que ven los humanos, porque lo que ven los humanos era todo lo que teníamos.
Greg T

Cuando los documentos contraatacan
Página 1: Resumen de cuenta, dos columnas. Página 15: Misma cuenta, tres columnas, nombres de encabezado diferentes. Página 47: Un escaneo con una mancha de café. Página 89: La página de totales, que hace referencia a transacciones que extrajiste hace 70 páginas.
Greg T

El rastro de auditoría invisible
Un auditor abre tu archivo de exportación, encuentra un saldo de cierre de 47.500 € y saca el PDF de origen. Página 3, esquina inferior derecha: 47.000 €. Un número diferente. "¿De dónde viene la diferencia? ¿Quién lo cambió?"
Greg T

HoloRecall: Muestra, no cuentes
Hay un momento en todo proyecto de clasificación donde ves al modelo equivocarse con total confianza. No es un caso difícil. No es un caso límite ambiguo. Es algo que un humano resolvería en medio segundo sin pensarlo.
Greg T

Tu LLM no es un pipeline de documentos
Hay un momento en todo proyecto de IA donde la demo se ve tan bien que tu cerebro empieza a borrar código silenciosamente. Ves un modelo "leer" un extracto bancario y piensas: esto es. Podemos saltarnos el OCR. Podemos saltarnos el análisis de layout. Quizás podemos saltarnos la mitad del pipeline. En la versión de película, alguien presiona Enter y cae una cascada de JSON desde la nube.
Greg T

Los PDF son para personas, no para datos
Nos encantan los PDF. Se ven igual en todos los dispositivos, se imprimen maravillosamente en cualquier tamaño y son lo más parecido que tenemos al papel digital. Pero cada vez que alguien de nuestro equipo dice "simplemente extraigamos los datos del PDF", sentimos que un antiguo demonio PostScript se despierta y susurra: "Nací para pintar píxeles, no para estructurar tus filas".
Greg T