El benchmark de extracción de extractos bancarios

98%

extractos de holofin con cero errores

fila con error de holofin en 44 docs

70–115

filas con error por modelo de frontera

bancos · gold verificado a mano

En holofin, la extracción de extractos bancarios es uno de nuestros trabajos principales, y lo ejecutamos en producción. Prestamistas, contables y equipos financieros nos entregan extractos de cientos de bancos diferentes y esperan que cada transacción sea devuelta, exactamente, sin inventar ni omitir nada.

La extracción se sitúa al principio de ese pipeline, por lo que sus errores nunca se quedan ahí. Una fila faltante o inventada no solo resta un punto a la puntuación de precisión. Se convierte en un saldo que no cuadra, una decisión de viabilidad financiera basada en un número que nunca estuvo en la página, un libro mayor en el que nadie más adelante en el proceso puede confiar. Un extracto bancario es booleano: o es completamente correcto, o es un riesgo.

Así que queríamos saber con qué fiabilidad hacen esto realmente los mejores modelos actuales, no en una demo seleccionada a mano, sino en extractos reales, evaluados de la forma en que los evalúa un equipo financiero, donde lo único que cuenta es si todo el extracto cuadra. Construimos un benchmark para averiguarlo.

El dataset

47 extractos reales, uno por banco

Cada extracto es real, luego anonimizado para que el diseño, las tablas y los totales sobrevivan, pero los nombres y números son sintéticos: grandes bancos franceses, bancos alemanes, neobancos y EMIs, cada uno con su propia idea de cómo debería ser una tabla de transacciones. Las etiquetas gold se verificaron a mano contra los PDFs originales.

bami banque michel inchausp p1/4 — bami banque michel inchauspp1/4

bami banque michel inchausp p2/4 — bami banque michel inchauspp1/4

La conclusión

La precisión por fila es una métrica vanidosa

El número que le importa a un cliente no es "qué fracción de filas son correctas" sino "¿es correcto este extracto?". No son la misma métrica. Un extracto es correcto solo si cada fila lo es, por lo que una fila omitida o inventada hace que todo el documento falle.

Por extracto, no por fila. holofin extrae el 98% de los extractos con cero errores; el mejor modelo de frontera logra un 80%. En 44 documentos, holofin produjo una fila con error; los modelos de frontera produjeron 70–115 cada uno.
La brecha es la invención, no la lectura. Todos los sistemas leen bien la página (recall 0.88–1.00). Los fallos son filas que el modelo devuelve y que no están en la página: alrededor del 8–10% de las filas que devuelve un modelo de frontera no coinciden con ninguna transacción en el extracto. Rastreamos cada una a mano: el 68–93% de ellas (según el modelo) no tienen ninguna contraparte en la página, es pura invención; el resto es una fila real leída con una cantidad o fecha incorrecta. holofin: una fila de este tipo en 44 extractos.
El riesgo es la cola, no un impuesto constante. Los errores no se distribuyen uniformemente: la mayoría de los extractos vuelven limpios en todos los modelos, pero un puñado de diseños fallan estrepitosamente. Una fila inventada hace que falle todo el extracto, y nada te dice de antemano qué documento será.
Una ventana más grande no es la solución. Alimentar más páginas por llamada no sirve de nada; procesar por página es fiable porque limita la invención.

Resultados

Lo que encontramos

Cuatro lecturas del mismo benchmark. La primera sitúa a cada sistema en completitud (¿encontró las filas?) frente a precisión (¿son reales las filas que devolvió?). El resto sigue la aritmética a partir de ahí.

FIG.01

Lee todo, inventa una décima parte

Todos los sistemas encuentran las filas (completitud, x). Difieren en cuántas de las filas que devuelven existen realmente (precisión, y). holofin se sitúa en la esquina superior derecha; los modelos de frontera caen en el eje de precisión a medida que inventan. Modelos de frontera mostrados por página.

FIG.02

Leer el 90% de las filas no es acertar el 90% de los extractos

Un extracto es correcto solo si cada fila lo es. Porcentaje de extractos extraídos con cero errores (sin filas omitidas, sin filas inventadas) frente al gold verificado a mano. La sub-etiqueta es el total de filas con error en los 44 documentos: holofin cometió uno; los modelos de frontera cometieron docenas.

holofin1 fila con error / 44 docs98%

Gemini 3.1 Pro115 filas con error / 44 docs80%

GPT-5.584 filas con error / 44 docs77%

Claude Opus 4.870 filas con error / 44 docs75%

0%EXTRACTOS CON CERO ERRORES →100%

FIG.03

El error silencioso es la fila inventada

De cada fila que devuelve un modelo, la proporción cuya (fecha, cantidad) no está en la página. Rastreamos cada una a mano: aproximadamente el 68–93% (según el modelo) no tienen ninguna contraparte en la página — pura invención; el resto es una transacción real leída con una cantidad o fecha incorrecta. Una fila inventada cuadra con un saldo incorrecto y parece plausible: el fallo silencioso. Modelos de frontera mostrados en su mejor configuración (por página).

holofinproducción · por página0.1%

GPT-5.5por página8.3%

Claude Opus 4.8por página9.2%

Gemini 3.1 Propor página10.0%

0%TASA DE FILAS INVENTADAS →15%

FIG.04

Una ventana más grande no es la solución

holofin se ejecuta una página a la vez y lidera todos los ejes. Para los modelos de frontera, alimentar más páginas por llamada no sirve de nada: el recall cae un poco, la precisión sube un poco, dos páginas suele ser el punto óptimo. La brecha que importa es la que hay con la barra verde.

holofin1.000

GPT-5.5

por página0.939

dos páginas0.942

doc completo0.932

Gemini 3.1 Pro

por página0.931

dos páginas0.953

doc completo0.932

Claude Opus 4.8

por página0.929

dos páginas0.948

doc completo0.940

0.00MÁS ALTO ES MEJOR →1.00

FIG.05

La mayoría de los documentos están limpios; unos pocos fallan estrepitosamente

Los errores no son un impuesto constante: se acumulan en un puñado de diseños (bami, crédit industriel, raiffeisenbank, paypal…) mientras que la mayoría de los extractos vuelven limpios en todos los modelos. Ese es el verdadero riesgo: no un 10% predecible, sino unos pocos diseños que fallan estrepitosamente, sin forma de saber de antemano qué documento tienes entre manos — y una fila mala hace que falle todo el extracto. Recuento bruto de filas con error (omitidas + inventadas, frente al gold) por extracto, configuración por página; un extracto por banco, por lo que los diseños raros están sobrerrepresentados. La columna de holofin está vacía. · = limpio; números = errores en ese documento.

bancofilasholofinGPT-5.5GEMINIOPUS 4.8

bami banque michel inchausp47·173117

banque dupuy de parseval2·1·1

banque transatlantique23····

berliner sparkasse1····

berliner volksbank3····

bnp paribas1····

boursobank4··9·

bred banque populaire2····

bunq36····

bwebank7·433

caisse d epargne1····

commerzbank7····

credit agricole brie picardie7····

credit industriel et commercial13·352929

cr dit mutuel11····

deutsche bank1····

dkb deutsche kreditbank ag9····

fiducial banque6····

finom1····

grenke bank ag4····

hsbc3····

hypovereinsbank2····

ibanfirst25····

kontist2····

lcl banque et assurance1···1

manager one4····

mein elba33·111

memo bank4···4

monabanq34····

oberbank ag1····

paypal2·464

postbank1····

qonto8·16··

raiffeisenbank s dstormarn m lln eg63·3323

revolut business1····

sg credit du nord4····

sg societe generale3····

shine13····

sparda bank23····

sumup39····

targox bank241235

unicredit1····

viva wallet1····

wise2·112

limpio1–23–56+TOTAL DE FILAS CON ERROR holofin 1GPT-5.5 84GEMINI 115OPUS 4.8 70

Dónde fallan los modelos

La destrucción silenciosa de la fila inventada

No es un fallo al leer la tinta en la página. Si una transacción está visiblemente impresa, todos los modelos la encuentran. El problema es lo que encuentran cuando la transacción no está ahí. Hay una diferencia operativa masiva entre una fila omitida y una inventada. Una fila omitida es molesta: el saldo no cuadra y un operador detecta el hueco. Una fila inventada es un asesino silencioso. El modelo extrae un saldo acumulado, un subtotal o una fecha suelta y lo formatea como una transacción válida. Parece perfectamente plausible al hacerlo. Simplemente envenena la aritmética de forma lenta e invisible.

Qué significa "inventado" aquí — y qué no

Emparejamos cada fila devuelta con la página según su (date, signed amount) con precisión de centavos. Una fila devuelta que no coincide con nada cuenta en contra del modelo. Ese grupo no es todo lo mismo, así que rastreamos cada fila sin coincidencia a mano: el 68–93% de ellas (dependiendo del modelo) no tienen ninguna contraparte en la página — un saldo acumulado, un subtotal o una cifra suelta disfrazada de transacción. El resto es una transacción real leída con una cantidad o fecha distorsionada. Ambas hacen que el extracto sea incorrecto, pero son fallos diferentes — y la mayoría es pura invención, no un error de OCR. (Una advertencia: una mala lectura solo se distingue de una invención cuando sobrevive una fila hermana con la que emparejarla, por lo que esta división es un límite inferior de la verdadera invención).

El gold es humano, no un modelo

No dejamos que un modelo evaluara a otros modelos. El ground truth se construyó a mano: en cada documento donde los sistemas no estaban de acuerdo, una persona abrió el PDF original y comprobó las transacciones línea por línea. El benchmark puntúa frente a lo que está realmente impreso en la página, verificado por un humano, no frente a la opinión de otro modelo sobre ello.

Metodología

Cómo está estructurado el benchmark

Los candidatos de frontera reciben imágenes de páginas con un prompt de extracción genérico en tres tamaños de contexto. holofin es el pipeline de producción real (clasificar → OCR → extraer por página), ejecutado a través de HTTP. Cada métrica es doc-macro: calculada por documento y luego promediada.

47 PDFs bancarios

uno por cada banco distinto

→

Anonimizar

pdf-holomask · tablas y totales preservados

→

Renderizar ventanas

por página · dos páginas · doc completo

→

Extraer

3 modelos de frontera + pipeline de holofin

→

Puntuar

vs gold verificado a mano

Gold = verificado por humanos

comprobado línea por línea contra cada PDF original

Regla de coincidencia

exacta (transaction_date, signed amount) con precisión de centavos

Lo que es este benchmark — y lo que no es

44 extractos, uno por cada banco distinto, elegidos por su diversidad de diseño — no ponderados por la frecuencia con la que cada banco aparece en el tráfico real. Esto sobrerrepresenta deliberadamente diseños raros y complicados (una pequeña mutua vasca, una cooperativa alemana Raiffeisen de ocho páginas), que es exactamente donde los modelos de frontera fallan. Así que lee esto como una prueba de fiabilidad en el peor de los casos, no como un pronóstico de precisión media en producción: un modelo que sale limpio en los bancos comunes aquí todavía puede hundirse con el próximo diseño extraño que encuentre. Y la única fila con error de holofin en 44 docs es un dato alentador, no una tasa garantizada.

¿Por qué no puntuar simplemente por conciliación de saldos?

La comprobación obvia en producción es si las matemáticas de un extracto cuadran: saldo inicial + Σ transacciones = saldo final. Lo medimos, y es necesario pero no suficiente como métrica de verdad. Los extractos de GPT-5.5 cuadran 42/45 de las veces, y sin embargo sigue inventando ~8% de las filas frente a la página real; una fila inventada compensada por otro error sigue cuadrando, y un modelo que omite los saldos por completo (Gemini los dejó en blanco en 12 documentos) no se puede comprobar en absoluto. Un extracto puede pasar las matemáticas y seguir siendo incorrecto. Así que puntuamos cada transacción frente al gold que fue verificado a mano contra el PDF original.

Rendimiento en producción

No necesitas una ventana más grande. Necesitas un arnés.

No resuelves la extracción pasando un PDF entero a un endpoint y pidiéndole a un modelo que tenga cuidado. En holofin esa es la descripción del trabajo. Construimos la jaula dentro de la cual corre la inteligencia:

Estructura antes que semántica. El OCR determinista y la geometría construyen primero el contexto de la página. Los prompts capturan bien el significado y mal la estructura visual.
Limitar el problema. Procesamos estrictamente por página, nunca pidiendo a un modelo que mantenga un libro mayor entero en la memoria de trabajo.
Restricciones > vibras. Reglas contables estrictas deciden qué cuenta como una transacción antes de que un resultado se finalice.

Una vez que has escrito suficiente andamiaje para estar seguro (la redundancia del OCR, la geometría delimitadora, los parsers estrictos, las conciliaciones), el modelo ya no es el héroe. Es el especialista al que llamas para disputas y casos límite. El trabajo no es eliminar las partes aburridas; es construir cosas aburridas para que la magia tenga algo sólido sobre lo que sostenerse.

El benchmark de extracción de extractos bancarios

47 extractos reales, uno por banco

La precisión por fila es una métrica vanidosa

Lo que encontramos

La destrucción silenciosa de la fila inventada

Qué significa "inventado" aquí — y qué no

El gold es humano, no un modelo

Cómo está estructurado el benchmark

No necesitas una ventana más grande. Necesitas un arnés.

Artículos relacionados

Tu extractor de tablas aprobó. Los números no.

Detección de fraude documental: Lo que un PDF no puede ocultar

Cuando los documentos contraatacan