SemEval

SemEval ( Evaluación semántica ) es una serie de evaluaciones de sistemas de análisis semántico computacional que se desarrolló a partir de la serie de evaluación del sentido de las palabras Senseval . Las evaluaciones tienen como objetivo explorar la naturaleza del significado en el lenguaje. Si bien el significado es intuitivo para los humanos, transferir esas intuiciones al análisis computacional ha resultado difícil.

Esta serie de evaluaciones proporciona un mecanismo para caracterizar en términos más precisos exactamente lo que es necesario para calcular el significado. Como tal, las evaluaciones proporcionan un mecanismo emergente para identificar los problemas y las soluciones para los cálculos con significado. Estos ejercicios han evolucionado para articular más dimensiones que están involucradas en nuestro uso del lenguaje. Comenzaron con intentos aparentemente simples de identificar los sentidos de las palabras computacionalmente. Han evolucionado para investigar las interrelaciones entre los elementos de una oración (por ejemplo, etiquetado de roles semánticos ), relaciones entre oraciones (por ejemplo, correferencia ) y la naturaleza de lo que estamos diciendo (relaciones semánticas y análisis de sentimientos ).

El objetivo de los ejercicios SemEval y Senseval es evaluar sistemas de análisis semántico. El término " análisis semántico " se refiere a un análisis formal del significado, y el término "computacional" se refiere a enfoques que, en principio, respaldan una implementación eficaz. ^[1]

Las primeras tres evaluaciones, Senseval-1 a Senseval-3, se centraron en la desambiguación del sentido de las palabras (WSD), y en cada una de ellas se fue ampliando el número de idiomas ofrecidos en las tareas y el número de equipos participantes. A partir del cuarto taller, SemEval-2007 (SemEval-1), la naturaleza de las tareas evolucionó para incluir tareas de análisis semántico fuera de la desambiguación del sentido de las palabras. ^[2]

A raíz de la idea de la conferencia *SEM, la comunidad SemEval decidió realizar talleres de evaluación anualmente en asociación con la conferencia *SEM. También se decidió que no todas las tareas de evaluación se realizarían todos los años; por ejemplo, ninguna de las tareas de WSD se incluyó en el taller SemEval-2012.

Historia

Evaluación temprana de algoritmos para la desambiguación del sentido de las palabras

Desde los primeros días, la evaluación de la calidad de los algoritmos de desambiguación del sentido de las palabras ha sido principalmente una cuestión de evaluación intrínseca , y “casi no se han hecho intentos de evaluar los componentes WSD integrados”. ^[3] Sólo muy recientemente ⁽²⁰⁰⁶⁾ las evaluaciones extrínsecas han comenzado a proporcionar alguna evidencia del valor de WSD en aplicaciones de usuario final. ^[4] Hasta 1990 aproximadamente, las discusiones sobre la tarea de desambiguación del sentido se centraron principalmente en ejemplos ilustrativos en lugar de una evaluación integral. A principios de la década de 1990 se vieron los comienzos de evaluaciones intrínsecas más sistemáticas y rigurosas, incluida una experimentación más formal en pequeños conjuntos de palabras ambiguas. ^[5]

De Senseval a SemEval

En abril de 1997, Martha Palmer y Marc Light organizaron un taller titulado Tagging with Lexical Semantics: Why, What, and How? (Etiquetado con semántica léxica: ¿por qué, qué y cómo?) en conjunción con la Conferencia sobre procesamiento del lenguaje natural aplicado. ^[6] En ese momento, se reconoció claramente que los corpus anotados manualmente habían revolucionado otras áreas del procesamiento del lenguaje natural, como el etiquetado y el análisis sintáctico de partes del discurso , y que los enfoques basados en corpus tenían el potencial de revolucionar también el análisis semántico automático. ^[7] Kilgarriff recordó que había "un alto grado de consenso en cuanto a que el campo necesitaba una evaluación", y varias propuestas prácticas de Resnik y Yarowsky iniciaron una discusión que condujo a la creación de los ejercicios de evaluación de Senseval. ^[8]^[9]^[10]

Ciclo de 3, 2 o 1 año(s) de SemEval

Después de SemEval-2010, muchos participantes sienten que el ciclo de 3 años es una larga espera. Muchas otras tareas compartidas, como la Conferencia sobre Aprendizaje de Lenguas Naturales (CoNLL) y Reconocimiento de Implicaciones Textuales (RTE), se llevan a cabo anualmente. Por esta razón, los coordinadores de SemEval dieron la oportunidad a los organizadores de tareas de elegir entre un ciclo de 2 o 3 años. ^[11] La comunidad de SemEval favoreció el ciclo de 3 años.
Aunque los votos dentro de la comunidad de SemEval favorecieron un ciclo de 3 años, los organizadores y coordinadores habían decidido dividir la tarea de SemEval en 2 talleres de evaluación. Esto fue provocado por la introducción de la nueva conferencia *SEM. Los organizadores de SemEval pensaron que sería apropiado asociar nuestro evento con la conferencia *SEM y ubicar el taller de SemEval junto con la conferencia *SEM. Los organizadores recibieron respuestas muy positivas (de los coordinadores/organizadores de tareas y de los participantes) sobre la asociación con la conferencia anual *SEM, y 8 tareas se mostraron dispuestas a cambiar a 2012. Así nacieron SemEval-2012 y SemEval-2013. El plan actual es cambiar a un calendario anual de SemEval para asociarlo con la conferencia *SEM, pero no es necesario que todas las tareas se realicen todos los años. ^[12]

Lista de talleres de Senseval y SemEval

Senseval-1 se llevó a cabo en el verano de 1998 para inglés, francés e italiano, y culminó con un taller celebrado en el castillo de Herstmonceux, Sussex, Inglaterra, del 2 al 4 de septiembre.
Senseval-2 tuvo lugar en el verano de 2001, y fue seguido por un taller celebrado en julio de 2001 en Toulouse, conjuntamente con ACL 2001. Senseval-2 incluyó tareas para euskera , chino , checo , danés , holandés , inglés , estonio , italiano , japonés , coreano , español y sueco .
Senseval-3 se llevó a cabo en marzo-abril de 2004, seguido de un taller celebrado en julio de 2004 en Barcelona, conjuntamente con ACL 2004. Senseval-3 incluyó 14 tareas diferentes para la desambiguación del sentido de palabras centrales, así como la identificación de roles semánticos, anotaciones multilingües, formas lógicas y adquisición de subcategorización.
En 2007 se celebró SemEval-2007 (Senseval-4) , seguida de un taller organizado en colaboración con ACL en Praga. SemEval-2007 incluyó 18 tareas diferentes destinadas a la evaluación de sistemas para el análisis semántico de textos. Un número especial de Language Resources and Evaluation está dedicado a los resultados. ^[13]
En 2010 se celebró SemEval-2010 , seguida de un taller organizado en colaboración con ACL en Uppsala. SemEval-2010 incluyó 18 tareas diferentes destinadas a la evaluación de sistemas de análisis semántico.
SemEval-2012 se llevó a cabo en 2012; estuvo asociada con la nueva *SEM, Primera Conferencia Conjunta sobre Semántica Léxica y Computacional, y se realizó en conjunto con NAACL, Montreal, Canadá. SemEval-2012 incluyó 8 tareas diferentes destinadas a evaluar sistemas semánticos computacionales. Sin embargo, no hubo ninguna tarea WSD involucrada en SemEval-2012; las tareas relacionadas con WSD se programaron para la próxima SemEval-2013.
SemEval-2013 se asoció con NAACL 2013, Asociación Norteamericana de Lingüística Computacional, Georgia, EE. UU. y tuvo lugar en 2013. Incluyó 13 tareas diferentes destinadas a evaluar sistemas semánticos computacionales.
SemEval-2014 se llevó a cabo en 2014. Se realizó en el mismo lugar que COLING 2014, la 25.ª Conferencia Internacional sobre Lingüística Computacional y *SEM 2014, la Segunda Conferencia Conjunta sobre Semántica Léxica y Computacional, en Dublín, Irlanda. Se realizaron 10 tareas diferentes en SemEval-2014 para evaluar varios sistemas semánticos computacionales.
SemEval-2015 se llevó a cabo en 2015. Se realizó en el mismo lugar que NAACL-HLT 2015, la Conferencia 2015 del Capítulo Norteamericano de la Asociación de Lingüística Computacional – Tecnologías del Lenguaje Humano y *SEM 2015, la Tercera Conferencia Conjunta sobre Semántica Léxica y Computacional, en Denver, EE. UU. Se realizaron 17 tareas diferentes en SemEval-2015 para evaluar varios sistemas semánticos computacionales.

Marco del taller SemEval

El marco de los talleres de evaluación SemEval/Senseval emula las Conferencias de Comprensión de Mensajes (MUC) y otros talleres de evaluación organizados por ARPA (Agencia de Proyectos de Investigación Avanzada, rebautizada como Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) ).

Etapas de los talleres de evaluación SemEval/Senseval ^[14]

En primer lugar, se invitó a todos los posibles participantes a expresar su interés y participar en el diseño del ejercicio.
Se elaboró un cronograma para el taller final.
Se acordó un plan para seleccionar materiales de evaluación.
Se establecieron "estándares de oro" para las tareas individuales; a menudo, los anotadores humanos se consideraban un estándar de oro para medir la precisión y las puntuaciones de recuperación de los sistemas informáticos. Estos "estándares de oro" son lo que los sistemas computacionales buscan alcanzar. En las tareas de WSD, se asignó a los anotadores humanos la tarea de generar un conjunto de respuestas WSD correctas (es decir, el sentido correcto de una palabra dada en un contexto determinado).
Los materiales estándar de oro, sin respuestas, fueron entregados a los participantes, quienes luego tuvieron un breve tiempo para repasarlos con sus programas y devolver sus conjuntos de respuestas a los organizadores.
Luego, los organizadores calificaron las respuestas y los puntajes se anunciaron y discutieron en un taller.

Tareas de evaluación semántica

Senseval-1 y Senseval-2 se centraron en la evaluación de sistemas WSD en los principales idiomas en los que se disponía de corpus y diccionarios informáticos. Senseval-3 miró más allá de los lexemas y comenzó a evaluar sistemas que examinaban áreas más amplias de la semántica, como los roles semánticos (técnicamente conocidos como roles theta en semántica formal), la transformación de formas lógicas (comúnmente la semántica de frases, cláusulas u oraciones se representaba en formas lógicas de primer orden ) y Senseval-3 exploró el rendimiento del análisis semántico en la traducción automática .

A medida que los tipos de diferentes sistemas semánticos computacionales crecieron más allá de la cobertura de WSD, Senseval evolucionó a SemEval, donde se evaluaron más aspectos de los sistemas semánticos computacionales.

Panorama de los problemas del análisis semántico

Los ejercicios de SemEval proporcionan un mecanismo para examinar cuestiones relacionadas con el análisis semántico de textos. Los temas de interés no alcanzan el rigor lógico que se encuentra en la semántica computacional formal, que intenta identificar y caracterizar los tipos de cuestiones relevantes para la comprensión humana del lenguaje. El objetivo principal es replicar el procesamiento humano mediante sistemas informáticos. Las tareas (que se muestran a continuación) son desarrolladas por individuos y grupos para abordar cuestiones identificables, a medida que adquieren una forma concreta.

La primera área importante del análisis semántico es la identificación del significado pretendido a nivel de palabra (lo que incluye expresiones idiomáticas). Se trata de la desambiguación del sentido de las palabras (un concepto que se está alejando de la noción de que las palabras tienen sentidos discretos, sino que se caracterizan por las formas en que se utilizan, es decir, sus contextos). Las tareas en esta área incluyen la desambiguación de muestras léxicas y de todas las palabras, la desambiguación multilingüe y translingüe y la sustitución léxica. Dadas las dificultades de identificar los sentidos de las palabras, otras tareas relevantes para este tema incluyen la inducción del sentido de las palabras, la adquisición de subcategorización y la evaluación de los recursos léxicos.

La segunda área importante del análisis semántico es la comprensión de cómo se combinan los diferentes elementos oracionales y textuales. Las tareas en esta área incluyen el etiquetado de roles semánticos, el análisis de relaciones semánticas y la resolución de correferencias. Otras tareas en esta área se centran en cuestiones más especializadas del análisis semántico, como el procesamiento de información temporal, la resolución de metonimias y el análisis de sentimientos. Las tareas en esta área tienen muchas aplicaciones potenciales, como la extracción de información, la respuesta a preguntas, el resumen de documentos, la traducción automática, la construcción de tesauros y redes semánticas, el modelado del lenguaje, la paráfrasis y el reconocimiento de implicancias textuales. En cada una de estas aplicaciones potenciales, la contribución de los tipos de análisis semántico constituye el tema de investigación más destacado.

Por ejemplo, en la tarea de inducción y desambiguación del sentido de las palabras , hay tres fases separadas:

En la fase de entrenamiento , se pidió a los participantes de la tarea de evaluación que utilizaran un conjunto de datos de entrenamiento para inducir los inventarios de sentido para un conjunto de palabras polisémicas. El conjunto de datos de entrenamiento consistía en un conjunto de sustantivos/verbos polisémicos y las instancias de oración en las que aparecían. No se permitieron otros recursos que no fueran componentes morfológicos y sintácticos de procesamiento del lenguaje natural, como analizadores morfológicos , etiquetadores de partes del discurso y analizadores sintácticos .
En la fase de prueba , a los participantes se les proporcionó un conjunto de pruebas para la subtarea de desambiguación utilizando el inventario de sentido inducido de la fase de entrenamiento.
En la fase de evaluación , las respuestas de la fase de prueba se evaluaron en un marco supervisado y no supervisado .

La evaluación no supervisada de WSI consideró dos tipos de evaluación: la medida V (Rosenberg y Hirschberg, 2007) y la puntuación F pareada (Artiles et al., 2009). Esta evaluación sigue la evaluación supervisada de la tarea WSI de SemEval-2007 (Agirre y Soroa, 2007).

Descripción general de las tareas de Senseval y SemEval

Las tablas a continuación reflejan el crecimiento del taller desde Senseval hasta SemEval y brindan una descripción general de qué área de la semántica computacional se evaluó en los talleres Senseval/SemEval.

La tarea WSD multilingüe se introdujo en el taller SemEval-2013. ^[17] La tarea tiene como objetivo evaluar los sistemas de desambiguación de sentido de palabras en un escenario multilingüe utilizando BabelNet como su inventario de sentido. A diferencia de tareas similares como WSD interlingüe o la tarea de sustitución léxica multilingüe , donde no se especifica un inventario de sentido fijo, WSD multilingüe utiliza BabelNet como su inventario de sentido. Antes del desarrollo de BabelNet, se llevó a cabo una tarea de evaluación de WSD de muestra léxica bilingüe en SemEval-2007 sobre bitextos chino-inglés. ^[18]

La tarea WSD translingüe se introdujo en el taller de evaluación SemEval-2007 y se volvió a proponer en el taller SemEval-2013. ^[19] Para facilitar la integración de los sistemas WSD en otras aplicaciones de procesamiento del lenguaje natural (PLN), como la traducción automática y la recuperación de información multilingüe , se introdujo la tarea de evaluación WSD translingüe, un enfoque independiente del lenguaje y basado en el conocimiento para WSD. La tarea es una tarea de desambiguación del sentido de las palabras no supervisada para sustantivos en inglés por medio de corpus paralelos. Sigue la variante de muestra léxica de la tarea WSD clásica, restringida a solo 20 sustantivos polisémicos.

Vale la pena señalar que el SemEval-2014 tiene solo dos tareas que eran multilingües/translingües, es decir, (i) la tarea L2 Writing Assistant, que es una tarea WSD translingüe que incluye inglés, español, alemán, francés y holandés y (ii) la tarea Multilingual Semantic Textual Similarity que evalúa sistemas en textos en inglés y español.

Áreas de evaluación

Las principales tareas de la evaluación semántica incluyen las siguientes áreas del procesamiento del lenguaje natural . Se espera que esta lista crezca a medida que avance el campo. ^[20]

La siguiente tabla muestra las áreas de estudios involucradas en Senseval-1 a SemEval-2014 (S se refiere a Senseval y SE se refiere a SemEval, por ejemplo, S1 se refiere a Senseval-1 y SE07 se refiere a SemEval2007):

Tipos de anotaciones semánticas

Las tareas de SemEval han creado muchos tipos de anotaciones semánticas, cada tipo con un esquema diferente. En SemEval-2015, los organizadores decidieron agrupar las tareas en varias secciones. Estas secciones se dividen en secciones según el tipo de anotaciones semánticas que se esperan lograr con la tarea. ^[21] A continuación se enumeran los tipos de anotaciones semánticas involucradas en los talleres de SemEval:

Aprendiendo relaciones semánticas
Preguntas y respuestas
Análisis semántico
Taxonomía semántica
Análisis de sentimientos
Similitud de texto
Tiempo y espacio
Desambiguación e inducción del sentido de las palabras

La asignación de una tarea y su pista es flexible; una tarea puede convertirse en su propia pista, por ejemplo, la tarea de evaluación de taxonomía en SemEval-2015 estaba bajo la pista de Aprendizaje de relaciones semánticas y en SemEval-2016, hay una pista dedicada a la taxonomía semántica con una nueva tarea de enriquecimiento de la taxonomía semántica . ^[22]^[23]

Véase también

Referencias

^ Blackburn, P., y Bos, J. (2005), Representación e inferencia para lenguaje natural: un primer curso de semántica computacional , CSLI Publications. ISBN 1-57586-496-7 .
^ Navigli, R (2009). "Desambiguación del sentido de las palabras". ACM Computing Surveys . 41 (2): 1–69. doi :10.1145/1459352.1459355. S2CID 461624.
^ Palmer, M., Ng, HT y Hoa, TD (2006), Evaluación de sistemas WSD , en Eneko Agirre y Phil Edmonds (eds.), Desambiguación del sentido de las palabras: algoritmos y aplicaciones, Text, Speech and Language Technology, vol. 33. Ámsterdam: Springer, 75–106.
^ Resnik, P. (2006), WSD en aplicaciones de PNL , en Eneko Agirre y Phil Edmonds (eds.), Word Sense Disambiguation: Algorithms and Applications. Dordrecht: Springer, 299–338.
^ Yarowsky, D. (1992), Desambiguación del sentido de las palabras mediante modelos estadísticos de categorías de Roget entrenados en grandes corpus . Actas de la 14.ª Conferencia sobre lingüística computacional, 454–60. doi :10.3115/992133.992140
^ Palmer, M., y Light, M. (1999), Etiquetado con semántica léxica: ¿por qué, qué y cómo? | Taller ACL SIGLEX sobre etiquetado de texto con semántica léxica: ¿qué, por qué y cómo? Archivado el 15 de julio de 2010 en Wayback Machine Natural Language Engineering 5(2): i–iv.
^ Ng, HT (1997), Tomando en serio la desambiguación del sentido de las palabras . Actas del taller SIGLEX de la ACL sobre etiquetado de texto con semántica léxica: ¿por qué, qué y cómo? 1–7.
^ Philip Resnik y Jimmy Lin (2010). Evaluación de sistemas de procesamiento del lenguaje natural . En Alexander Clark, Chris Fox y Shalom Lappin, editores. Manual de lingüística computacional y procesamiento del lenguaje natural. Wiley-Blackwellis. 11:271
^ Adam Kilgarriff y Martha Palmer (ed. 2000). Número especial de Computers and the Humanities, SENSEVAL98: Evaluación de sistemas de desambiguación del sentido de las palabras . Kluwer, 34: 1–2.
^ Scott Cotton, Phil Edmonds, Adam Kilgarriff y Martha Palmer (ed. 2001). SENSEVAL-2: Segundo taller internacional sobre evaluación de sistemas de desambiguación del sentido de las palabras . Taller SIGLEX, ACL03, Toulouse, Francia.
^ SIGLEX: Foro de discusión (2010) Recuperado el 15 de agosto de 2012, de http://www.clres.com/siglex/messdisp.php?id=111
^ Publicación del grupo de Google SemEval 3. Recuperada el 15 de agosto de 2012, de https://groups.google.com/forum/?fromgroups#!topic/semeval3/8YXMvVlH-CM%5B1-25%5D
^ Recursos lingüísticos y evaluación Volumen 43, Número 2 ^{[ enlace roto ]}
^ Kilgarriff, A. (1998). SENSEVAL: Un ejercicio para evaluar programas de desambiguación del sentido de las palabras . En Proc. LREC, Granada, mayo de 1998. Pp 581--588
^ "Tareas < SemEval-2017". alt.qcri.org . Consultado el 4 de mayo de 2018 .
^ "Tareas < SemEval-2018". alt.qcri.org . Consultado el 4 de mayo de 2018 .
^ Navigli, R., Jurgens, D., y Vannella, D. (junio de 2013). Tarea 12 de Semeval-2013: Desambiguación del sentido de palabras multilingües. En Actas del 7.º Taller internacional sobre evaluación semántica (SemEval 2013), en conjunción con la Segunda conferencia conjunta sobre semántica léxica y computacional (*SEM 2013) (pp. 222-231).
^ Peng Jin, Yunfang Wu y Shiwen Yu. SemEval-2007, tarea 05: muestra léxica multilingüe chino-inglés. Actas del 4º Taller internacional sobre evaluaciones semánticas, págs. 19-23, 23 y 24 de junio de 2007, Praga, República Checa.
^ Lefever, E., y Hoste, V. (junio de 2013). Tarea 10 de Semeval-2013: Desambiguación del sentido de las palabras en diferentes lenguas. En la Segunda conferencia conjunta sobre semántica léxica y computacional (Vol. 2, págs. 158-166).
^ Portal SemEval (sin fecha). En ACLwiki. Recuperado el 12 de agosto de 2010 de http://aclweb.org/aclwiki/index.php?title=SemEval_Portal
^ Sitio web de SemEval-2015 . Recuperado el 14 de noviembre de 2014 http://alt.qcri.org/semeval2015/index.php?id=tasks
^ Georgeta Bordea, Paul Buitelaar, Stefano Faralli y Roberto Navigli. 2015. Semeval-2015, tarea 17: Evaluación de extracción de taxonomía (TExEval) . En Actas del 9.º Taller internacional sobre evaluación semántica. Denver, EE. UU.
^ Sitio web de SemEval-2016 . Recuperado el 4 de junio de 2015 http://alt.qcri.org/semeval2016/

Enlaces externos

Grupo de Interés Especial sobre el Léxico (SIGLEX) de la Asociación de Lingüística Computacional (ACL)
Semeval-2010 – Taller de Evaluación Semántica (avalado por SIGLEX)
Senseval ^[usurpado] - organización internacional dedicada a la evaluación de sistemas de desambiguación del sentido de las palabras (avalada por SIGLEX)
Portal de SemEval en la Wiki de la Asociación de Lingüística Computacional
Tareas de Senseval / SemEval:
- Senseval-1: el primer ejercicio de evaluación sobre sistemas de desambiguación del sentido de las palabras; la tarea de muestra léxica se evaluó en inglés, francés e italiano
- Senseval-2: evaluó los sistemas de desambiguación del sentido de las palabras en tres tipos de tareas (todas las palabras, muestra léxica y tarea de traducción)
- Senseval-3 ^[usurpado] – incluía tareas para la desambiguación del sentido de las palabras, así como identificación de roles semánticos, anotaciones multilingües, formas lógicas y adquisición de subcategorización.
- SemEval-2007 – incluía tareas más elaboradas que Senseval, ya que cruza las diferentes áreas de estudio en el procesamiento del lenguaje natural.
- SemEval-2010: se agregaron tareas de nuevas áreas de estudio en semántica computacional, a saber, correferencia, elipsis, extracción de frases clave, compuestos nominales y implicación textual.
- SemEval-2012 – se llevó a cabo junto con la primera conferencia *SEM y la tarea de similitud semántica se promovió como la tarea compartida *Sem
- SemEval-2013 – SemEval pasó de un ciclo de 2 a 3 años a un taller anual
- SemEval-2014: la primera vez que SemEval se encuentra en un evento que no es de ACL en COLING
- SemEval-2015: el primer SemEval con tareas categorizadas en varias áreas
- SemEval-2016: el segundo SemEval sin una tarea WSD (el primero fue en SemEval-2012)
- *SEM – conferencia para artículos relacionados con SemEval distintos a los sistemas de tareas.
Conferencias de comprensión de mensajes (MUC)
BabelNet
Open Multilingual WordNet – Recopilación de WordNets con licencias Open