Sistema de procesamiento del lenguaje natural
Apache cTAKES: Clinical Text Analysis and Knowledge Extraction System es un sistema de procesamiento de lenguaje natural (PLN) de código abierto que extrae información clínica de textos no estructurados de registros médicos electrónicos . Procesa notas clínicas e identifica tipos de entidades clínicas nombradas: medicamentos, enfermedades/trastornos, signos/síntomas, sitios anatómicos y procedimientos. Cada entidad nombrada tiene atributos para el lapso de texto, el código de mapeo de ontología, el contexto (antecedentes familiares, actual, no relacionado con el paciente) y negado/no negado. [1]
cTAKES se construyó utilizando el marco de arquitectura de gestión de información no estructurada UIMA y el kit de herramientas de procesamiento de lenguaje natural OpenNLP . [2] [3]
Componentes
Los componentes de cTAKES están entrenados específicamente para el dominio clínico y crean anotaciones lingüísticas y semánticas enriquecidas que pueden ser utilizadas por sistemas de apoyo a la toma de decisiones clínicas e investigación clínica. [4]
Estos componentes incluyen:
- Identificador de sección con nombre
- Detector de límites de oraciones
- Tokenizador basado en reglas
- Identificador de lista formateada
- Normalizador
- Tokenizador dependiente del contexto
- Etiquetador de partes del discurso
- Frases fragmentarias
- Anotador de búsqueda en diccionario
- Anotador de contexto
- Detector de negación
- Detector de incertidumbre
- Detector de sujetos
- Analizador de dependencia
- Identificador del estado de tabaquismo del paciente
- Anotador de menciones de medicamentos
Historia
El desarrollo de cTAKES comenzó en Mayo Clinic en 2006. El equipo de desarrollo, dirigido por la Dra. Guergana Savova y el Dr. Christopher Chute , incluyó médicos, científicos informáticos e ingenieros de software. Después de su implementación, cTAKES se convirtió en una parte integral de la infraestructura de gestión de datos clínicos de Mayo, procesando más de 80 millones de notas clínicas. [5]
Cuando el Dr. Savova se trasladó al Boston Children's Hospital a principios de 2010, el equipo de desarrollo central creció e incluyó a miembros de allí. Otras colaboraciones externas incluyen: [5]
Estas colaboraciones han ampliado las capacidades de cTAKES a otras áreas como el razonamiento temporal, la respuesta a preguntas clínicas y la resolución de correferencia para el dominio clínico. [5]
En 2010, cTAKES fue adoptado por el programa i2b2 y es un componente central del Área 4 de SHARP. [5]
En 2013, cTAKES lanzó su primer lanzamiento como proyecto de incubación de Apache Software Foundation : cTAKES 3.0. [ cita requerida ]
En marzo de 2013, cTAKES se convirtió en un proyecto de nivel superior (TLP) de la Apache Software Foundation . [5]
Véase también
Referencias
- ^ Denecke, Kerstin (31 de agosto de 2015). "Herramientas y recursos para la extracción de información". Ciencia web de la salud: datos de redes sociales para la atención médica . Springer. pág. 67. ISBN 978-3-319-20582-3– a través de Google Books.
- ^ Khalifa, Abdulrahman; Meystre, Stéphane (1 de diciembre de 2015). "Adaptación de los recursos de procesamiento del lenguaje natural existentes para la identificación de factores de riesgo cardiovascular en notas clínicas". Journal of Biomedical Informatics . Actas de las tareas compartidas y el taller sobre desafíos en el procesamiento del lenguaje natural para datos clínicos de i2b2/UTHealth de 2014. 58 (suplemento): S128–S132. doi :10.1016/j.jbi.2015.08.002. PMC 4983192 . PMID 26318122.
- ^ Khudairi, Sally (25 de abril de 2017). "La Apache Software Foundation anuncia Apache® cTAKES™ v4.0" (Comunicado de prensa). Forest Hill, Maryland: The Apache Software Foundation. Globe Newswire . Consultado el 20 de septiembre de 2017 .
- ^ Savova, Guergana K; Masanz, James J; Ogren, Philip V; Zheng, Jiaping; Sohn, Sunghwan; Kipper-Schuler, Karin C; Chute, Christopher G (2010). "Sistema de análisis de texto y extracción de conocimiento clínico de Mayo (cTAKES): arquitectura, evaluación de componentes y aplicaciones". Revista de la Asociación Estadounidense de Informática Médica . 17 (5): 507–513. doi :10.1136/jamia.2009.001560. ISSN 1067-5027. PMC 2995668 . PMID 20819853.
- ^ abcde "Historial". Apache cTAKES™ - Sistema de extracción de conocimiento para análisis de textos clínicos . 22 de junio de 2015. Consultado el 11 de enero de 2018 .
Enlaces externos
- Sitio web oficial de cTAKES
- Página de información del proyecto Apache cTAKES de ASF
- Resumen (JAMIA)
- Consorcio de Procesamiento del Lenguaje Natural en Salud Abierta (OHNLP)
- Programa de Proyectos de Investigación Avanzada en Tecnologías de la Información Estratégica para la Salud (SHARP)
- Área 4 de SHARP: Uso secundario de datos de EHR
- La consola de recuperación automatizada (ARC)
- La extracción de texto de información sanitaria (HITEx) se desarrolló como parte del proyecto i2b2. Es un proceso de procesamiento del lenguaje natural basado en reglas que se basa en el marco GATE desarrollado por Informatics para la integración de la biología y la atención en la cama del paciente.
- El kit de herramientas de investigación en lenguaje computacional y educación (cleartk) ( ya no se mantiene ) se desarrolló en la Universidad de Colorado en Boulder y proporciona un marco para desarrollar componentes de procesamiento de lenguaje natural estadístico en Java. Está construido sobre Apache UIMA .
- NegEx es una herramienta desarrollada en la Universidad de Pittsburgh para detectar términos negados en textos clínicos. El sistema utiliza términos desencadenantes como método para determinar posibles escenarios de negación dentro de una oración.
- ConText): una extensión de NegEx, también desarrollada por la Universidad de Pittsburgh. ConText extiende NegEx no solo para detectar conceptos negados, sino también para encontrar situaciones temporales (recientes, históricas o hipotéticas) y quién es el Sujeto (de la experiencia) (paciente u otro).
- MetaMap (de la Biblioteca Nacional de Medicina de los Estados Unidos ): es un sistema integral de etiquetado de conceptos que se basa en el Sistema de lenguaje médico unificado . Requiere un Acuerdo de licencia de Metathesaurus UMLS activo (y una cuenta) para su uso.
- MedEx: una herramienta para extraer información sobre medicamentos de textos clínicos. MedEx procesa registros clínicos de texto libre para reconocer nombres de medicamentos e información de características, como dosis, frecuencia, vía y duración del medicamento. El uso es gratuito con una licencia UMLS. Es una aplicación independiente para Linux y Windows.
- SecTag (jerarquía de etiquetado de secciones): reconoce los encabezados de las secciones de notas mediante técnicas de procesamiento del lenguaje natural (PLN), bayesianas, de corrección ortográfica y de puntuación. El uso es gratuito con una licencia UMLS o LOINC.
- (Stanford Named Entity Recognizer (NER)): NER de Stanford es un modelo de secuencia de campo aleatorio condicional, junto con características bien diseñadas para el reconocimiento de entidades nombradas en inglés y alemán.
- (Stanford CoreNLP) es un conjunto integrado de herramientas de procesamiento de lenguaje natural para inglés en Java, que incluye tokenización , etiquetado de partes del discurso, reconocimiento de entidades con nombre, análisis y correferencia.