La extracción de tablas es el proceso de reconocer y separar una tabla de un documento grande, posiblemente también reconociendo filas, columnas o elementos individuales. Puede considerarse como una forma especial de extracción de información .
Las extracciones de tablas de páginas web pueden aprovechar los elementos HTML especiales que existen para las tablas, por ejemplo, la etiqueta "table", y las bibliotecas de programación pueden implementar la extracción de tablas de páginas web. La biblioteca de software Python pandas puede extraer tablas de páginas web HTML a través de su función read_html().
Más desafiante es la extracción de tablas de archivos PDF o imágenes escaneadas , donde generalmente no hay un marcado legible por máquina específico de la tabla. [1] Se han descrito
sistemas que extraen datos de tablas en archivos PDF científicos. [2] [3]
Wikipedia presenta parte de su información en tablas y, por ejemplo, se pueden extraer 3,5 millones de tablas de la Wikipedia en inglés . [4]
Algunas de las tablas tienen un formato específico, por ejemplo, los llamados infoboxes . La extracción de tablas a gran escala de los infoboxes de Wikipedia constituye una de las fuentes de DBpedia . [5]
Existen servicios web comerciales para la extracción de tablas, por ejemplo, Amazon Textract, Document AI de Google , IBM Watson Discovery y Microsoft Form Recognizer. [1]
También existen herramientas de código abierto, por ejemplo, PDFFigures 2.0 que se ha utilizado en Semantic Scholar . [6]
En una comparación publicada en 2017, los investigadores encontraron que el programa propietario ABBYY FineReader ofrecía el mejor rendimiento de extracción de tablas PDF entre seis herramientas diferentes evaluadas. [7] En una evaluación comparativa de 2023, [8] Adobe Extract, [9] una API basada en la nube que emplea la plataforma Sensei AI de Adobe , [10] tuvo el mejor rendimiento entre cinco herramientas evaluadas para la extracción de tablas.
Referencias
- ^ ab Douglas Burdick; Marina Danilevsky; Alexandre V Evfimievski; Yannis Katsis; Nancy Wang (agosto de 2020). "Extracción y comprensión de tablas para aplicaciones científicas y empresariales". Actas de la Fundación VLDB. Conferencia internacional sobre bases de datos muy grandes . 13 (12): 3433–3436. doi :10.14778/3415478.3415563. ISSN 2150-8097. Wikidata Q108170445.
- ^ Wenhao Yu; Wei Peng; Yu Shu; Qingkai Zeng; Meng Jiang (19 de abril de 2020). Sistema de extracción de evidencia experimental en ciencia de datos con características de tabla híbrida y aprendizaje de conjunto. págs. 951–961. doi :10.1145/3366423.3380174. ISBN 978-1-4503-7023-3. Wikidata Q108172460.
- ^ Benno Kruit; Hongyu He; Jacopo Urbani (1 de noviembre de 2020). Tab2Know: creación de una base de conocimientos a partir de tablas en artículos científicos . Apuntes de clase en informática . págs. 349–365. arXiv : 2107.13306 . doi :10.1007/978-3-030-62419-4_20. ISBN . 978-3-030-62419-4. Wikidata Q101086651.
- ^ Tobias Bleifuß; Leon Bornemann; Dmitri V. Kalashnikov; Felix Naumann; Divesh Srivastava (17 de agosto de 2021). "La vida secreta de las tablas de Wikipedia" (PDF) . Actas del 2º Taller sobre búsqueda, exploración y análisis en almacenes de datos heterogéneos . Actas del taller CEUR: 20–26. Wikidata Q108215401.
- ^ Sören Auer; Christian Bizer; Georgi Kobilarov; Jens Lehmann ; Richard Cyganiak; Zachary Ives (2007). DBpedia: Un núcleo para una red de datos abiertos . Apuntes de clase en informática . Págs. 722–735. doi :10.1007/978-3-540-76298-0_52. ISBN . 978-3-540-76297-3. Wikidata Q27910422.
- ^ Christopher Clark; Santosh Divvala (2016), PDFFigures 2.0: Minería de cifras a partir de artículos de investigación, Actas de la 16.ª Conferencia conjunta ACM/IEEE-CS sobre bibliotecas digitales - JCDL '16, Wikidata Q108172042
- ^ Andreiwid Sheffer Corrêa; Pär-Ola Zander (7 de junio de 2017), Liberando contenido tabular para abrir datos: una encuesta sobre métodos y herramientas de extracción de tablas PDF, doi :10.1145/3085228.3085278, Wikidata Q108173686
- ^ Meuschke, Norman; Jagdale, Apurva; Spinde, Timo; Mitrović, Jelena; Gipp, Bela (2023), Sserwanga, Isaac; Goulding, Anne; Moulaison-Sandy, Heather; Du, Jia Tina (eds.), "Un punto de referencia de las herramientas de extracción de información PDF utilizando un marco de evaluación multitarea y multidominio para documentos académicos", Información para un mundo mejor: normalidad, virtualidad, fisicalidad, inclusión , vol. 13972, Cham: Springer Nature Switzerland, págs. 383–405, arXiv : 2303.09957 , doi :10.1007/978-3-031-28032-0_31, ISBN 978-3-031-28031-3
- ^ "API de extracción de PDF de Adobe". Adobe . Consultado el 15 de marzo de 2024 .
- ^ "Experimente los servicios de inteligencia artificial en la nube con Adobe Sensei". Adobe . Consultado el 15 de marzo de 2024 .