Si alguna vez has tenido que trabajar con datos que había que extraer de un PDF sabrás de las dificultades que te puedes encontrar. Un simple copy-paste de una tabla de datos puede acabar con la paciencia de cualquiera.
Tabula es la solución a este problema. Este programa gratuito permite extraer datos e importarlos a otros software más amigables para trabajar con ellos.
Tras instalarlo en el equipo (tiene versiones para Windows, Mac y Linux) y con la ayuda de un navegador los datos incluidos en las tablas estarán preparados para trabajar con ellos en Excel, CSV o archivos JSON.
Su funcionamiento es simple una vez instalado: subir el PDF, elegir la tabla a extraer seleccionando todos los datos a incluir, comprobar en la ventana que se abrirá si los datos son correctos y descargar.
Tabula se usa en medios que destacan en el periodismo de datos como La Nación de Argentina o The Times de Londres.
Un último detalle: Tabula solo funciona si el PDF es un documento de tipo texto. Si alguien ha tenido la pésima idea de escanear las tablas y generar un PDF basado en la imagen la aplicación no funciona.
Tabula se puede encontrar aquí.
featured, herramientas, periodismo datos, recursos, tabula