stringtranslate.com

Extracción de mesa

La extracción de tablas es el proceso de reconocer y separar una tabla de un documento grande, posiblemente también reconociendo filas, columnas o elementos individuales. Puede considerarse como una forma especial de extracción de información .

Las extracciones de tablas de páginas web pueden aprovechar los elementos HTML especiales que existen para las tablas, por ejemplo, la etiqueta "table", y las bibliotecas de programación pueden implementar la extracción de tablas de páginas web. La biblioteca de software Python pandas puede extraer tablas de páginas web HTML a través de su función read_html().

Más desafiante es la extracción de tablas de archivos PDF o imágenes escaneadas , donde generalmente no hay marcas legibles por máquina específicas de la tabla. [1] Se han descrito sistemas que extraen datos de tablas en archivos PDF científicos. [2] [3]

Wikipedia presenta parte de su información en tablas y, por ejemplo, se pueden extraer 3,5 millones de tablas de la Wikipedia en inglés . [4] Algunas de las tablas tienen un formato específico, por ejemplo, los llamados cuadros de información . La extracción de tablas a gran escala de cuadros de información de Wikipedia constituye una de las fuentes de DBpedia . [5]

Existen servicios web comerciales para la extracción de tablas, por ejemplo, Amazon Textract, Document AI de Google , IBM Watson Discovery y Microsoft Form Recognizer. [1] También existen herramientas de código abierto, por ejemplo, PDFFigures 2.0 que se ha utilizado en Semantic Scholar . [6] En una comparación publicada en 2017, los investigadores encontraron que el programa propietario ABBYY FineReader ofrecía el mejor rendimiento de extracción de tablas PDF entre seis herramientas diferentes evaluadas. [7] En una evaluación comparativa de 2023, [8] Adobe Extract, [9] una API basada en la nube que emplea la plataforma Sensei AI de Adobe , [10] obtuvo el mejor rendimiento entre las cinco herramientas evaluadas para la extracción de tablas.

Referencias

  1. ^ ab Douglas Burdick; Marina Danilevsky; Alejandro V Evfimievski; Yannis Katsis; Nancy Wang (agosto de 2020). "Extracción y comprensión de tablas para aplicaciones científicas y empresariales". Actas del Fondo de Dotación VLDB. Conferencia Internacional sobre Bases de Datos de Muy Gran Tamaño . 13 (12): 3433–3436. doi :10.14778/3415478.3415563. ISSN  2150-8097. Wikidata  Q108170445.
  2. ^ Wenhao Yu; Wei Peng; Yu Shu; Qingkai Zeng; Meng Jiang (19 de abril de 2020). Sistema de extracción de evidencia experimental en ciencia de datos con funciones de tabla híbrida y aprendizaje conjunto. págs. 951–961. doi :10.1145/3366423.3380174. ISBN 978-1-4503-7023-3. Wikidata  Q108172460. {{cite book}}: |journal=ignorado ( ayuda )
  3. ^ Benno Kruit; Hongyu Él; Jacopo Urbani (1 de noviembre de 2020). Tab2Know: creación de una base de conocimientos a partir de tablas en artículos científicos . Apuntes de conferencias sobre informática . págs. 349–365. arXiv : 2107.13306 . doi :10.1007/978-3-030-62419-4_20. ISBN 978-3-030-62419-4. Wikidata  Q101086651. {{cite book}}: |journal=ignorado ( ayuda )
  4. ^ Tobias Bleifuß; León Bornemann; Dmitri V. Kalashnikov; Félix Naumann; Divesh Srivastava (17 de agosto de 2021). "La vida secreta de las tablas de Wikipedia" (PDF) . Actas del 2do Taller sobre Búsqueda, Exploración y Análisis en Almacenes de Datos Heterogéneos . Actas del taller CEUR: 20–26. Wikidata  Q108215401.
  5. ^ Sören Auer; Christian Bizer; Georgi Kobilarov; Jens Lehmann ; Richard Cyganiak; Zachary G. Ives (2007). DBpedia: un núcleo para una web de datos abiertos . Apuntes de conferencias sobre informática . págs. 722–735. doi :10.1007/978-3-540-76298-0_52. ISBN 978-3-540-76297-3. Wikidata  Q27910422. {{cite book}}: |journal=ignorado ( ayuda )
  6. ^ Cristóbal Clark; Santosh Divvala (2016), PDFFigures 2.0: Cifras de minería a partir de artículos de investigación, Actas de la 16ª ACM/IEEE-CS sobre la Conferencia Conjunta sobre Bibliotecas Digitales - JCDL '16, Wikidata  Q108172042
  7. ^ Andreiwid Sheffer Corrêa; Pär-Ola Zander (7 de junio de 2017), Cómo liberar contenido tabular para abrir datos: una encuesta sobre métodos y herramientas de extracción de tablas PDF, doi :10.1145/3085228.3085278, Wikidata  Q108173686
  8. ^ Meuschke, normando; Jagdale, Apurva; Spinde, Timo; Mitrović, Jelena; Gipp, Bela (2023), Sserwanga, Isaac; Goulding, Ana; Moulaison-Sandy, Heather; Du, Jia Tina (eds.), "Un punto de referencia de herramientas de extracción de información PDF que utilizan un marco de evaluación multitarea y multidominio para documentos académicos", Información para un mundo mejor: normalidad, virtualidad, fisicalidad, inclusión , vol. 13972, Cham: Springer Nature Suiza, págs. 383–405, arXiv : 2303.09957 , doi : 10.1007/978-3-031-28032-0_31, ISBN 978-3-031-28031-3
  9. ^ "API de extracción de PDF de Adobe". Adobe . Consultado el 15 de marzo de 2024 .
  10. ^ "Experimente los servicios de inteligencia artificial en la nube con Adobe Sensei". Adobe . Consultado el 15 de marzo de 2024 .