stringtranslate.com

SemEval

SemEval ( Sem antic Evaluation ) es una serie continua de evaluaciones de sistemas de análisis semántico computacional ; evolucionó a partir de la serie de evaluación del sentido de palabras de Senseval . Las evaluaciones tienen como objetivo explorar la naturaleza del significado en el lenguaje. Si bien el significado es intuitivo para los humanos, transferir esas intuiciones al análisis computacional ha resultado difícil de alcanzar.

Esta serie de evaluaciones proporciona un mecanismo para caracterizar en términos más precisos exactamente lo que es necesario para calcular el significado. Como tal, las evaluaciones proporcionan un mecanismo emergente para identificar los problemas y las soluciones para los cálculos con significado. Estos ejercicios han evolucionado para articular más dimensiones involucradas en nuestro uso del lenguaje. Comenzaron con intentos aparentemente simples de identificar computacionalmente los sentidos de las palabras . Han evolucionado para investigar las interrelaciones entre los elementos de una oración (p. ej., etiquetado de roles semánticos ), las relaciones entre oraciones (p. ej., correferencia ) y la naturaleza de lo que decimos (relaciones semánticas y análisis de sentimientos ).

El objetivo de los ejercicios SemEval y Senseval es evaluar sistemas de análisis semántico. " Análisis semántico " se refiere a un análisis formal del significado, y "computacional" se refiere a enfoques que en principio apoyan una implementación efectiva. [1]

Las tres primeras evaluaciones, Senseval-1 a ​​Senseval-3, se centraron en la desambiguación del sentido de las palabras (WSD), creciendo cada vez en el número de idiomas ofrecidos en las tareas y en el número de equipos participantes. A partir del cuarto taller, SemEval-2007 (SemEval-1), la naturaleza de las tareas evolucionó para incluir tareas de análisis semántico fuera de la desambiguación del sentido de las palabras. [2]

Impulsada por la concepción de la conferencia *SEM, la comunidad SemEval decidió realizar talleres de evaluación anualmente en asociación con la conferencia *SEM. También se tomó la decisión de que no todas las tareas de evaluación se ejecutarán todos los años; por ejemplo, ninguna de las tareas de WSD se incluyó en el taller SemEval-2012.

Historia

Evaluación temprana de algoritmos para la desambiguación del sentido de las palabras.

Desde los primeros días, evaluar la calidad de los algoritmos de desambiguación del sentido de las palabras había sido principalmente una cuestión de evaluación intrínseca , y "casi no se había hecho ningún intento de evaluar los componentes WSD integrados". [3] Sólo muy recientemente (2006) las evaluaciones extrínsecas comenzaron a proporcionar alguna evidencia del valor de WSD en aplicaciones de usuario final. [4] Hasta aproximadamente 1990, las discusiones sobre la tarea de desambiguación de sentido se centraron principalmente en ejemplos ilustrativos en lugar de una evaluación integral. A principios de la década de 1990 se iniciaron evaluaciones intrínsecas más sistemáticas y rigurosas, incluida una experimentación más formal con pequeños conjuntos de palabras ambiguas. [5]

De Senseval a SemEval

En abril de 1997, Martha Palmer y Marc Light organizaron un taller titulado Etiquetado con semántica léxica: ¿por qué, qué y cómo? en conjunto con la Conferencia sobre Procesamiento Aplicado del Lenguaje Natural. [6] En ese momento, había un claro reconocimiento de que los corpus anotados manualmente habían revolucionado otras áreas de la PNL, como el etiquetado y el análisis de partes del discurso , y que los enfoques basados ​​en corpus tenían el potencial de revolucionar también el análisis semántico automático. . [7] Kilgarriff recordó que había "un alto grado de consenso en que el campo necesitaba evaluación", y varias propuestas prácticas de Resnik y Yarowsky iniciaron una discusión que condujo a la creación de los ejercicios de evaluación de Senseval. [8] [9] [10]

Ciclo de 3, 2 o 1 año(s) de SemEval

Después de SemEval-2010, muchos participantes sienten que el ciclo de 3 años es una espera larga. Muchas otras tareas compartidas, como la Conferencia sobre el aprendizaje de lenguajes naturales (CoNLL) y el Reconocimiento de implicaciones textuales (RTE), se llevan a cabo anualmente. Por esta razón, los coordinadores de SemEval dieron la oportunidad a los organizadores de la tarea de elegir entre un ciclo de 2 o 3 años. [11] La comunidad SemEval favoreció el ciclo de 3 años.
Aunque los votos dentro de la comunidad SemEval favorecieron un ciclo de 3 años, los organizadores y coordinadores decidieron dividir la tarea de SemEval en 2 talleres de evaluación. Esto fue provocado por la introducción de la nueva conferencia *SEM. Los organizadores de SemEval pensaron que sería apropiado asociar nuestro evento con la conferencia *SEM y colocar el taller de SemEval con la conferencia *SEM. Los organizadores obtuvieron respuestas muy positivas (de los coordinadores de tareas/organizadores y participantes) sobre la asociación con el *SEM anual, y 8 tareas estuvieron dispuestas a cambiar al año 2012. Así nacieron SemEval-2012 y SemEval-2013. El plan actual es cambiar a un cronograma SemEval anual para asociarlo con la conferencia *SEM, pero no todas las tareas deben ejecutarse todos los años. [12]

Listado de Talleres Senseval y SemEval

Marco del taller SemEval

El marco de los talleres de evaluación SemEval/Senseval emula las Conferencias de Comprensión de Mensajes (MUC) y otros talleres de evaluación organizados por ARPA (Agencia de Proyectos de Investigación Avanzada, rebautizada como Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) ).

Marco SemEval, adaptado de la introducción de MUC
Marco SemEval, adaptado de la introducción de MUC

Etapas de los talleres de evaluación SemEval/Senseval [14]

  1. En primer lugar, se invitó a todos los posibles participantes a expresar su interés y participar en el diseño del ejercicio.
  2. Se elaboró ​​un calendario para un taller final.
  3. Se acordó un plan para seleccionar materiales de evaluación.
  4. Se adquirieron "estándares de oro" para las tareas individuales; a menudo, los anotadores humanos se consideraban como un estándar de oro para medir la precisión y recordar puntuaciones de sistemas informáticos. Estos 'estándares de oro' son hacia lo que se esfuerzan los sistemas computacionales. En las tareas de WSD, a los anotadores humanos se les encomendó la tarea de generar un conjunto de respuestas WSD correctas (es decir, el sentido correcto de una palabra determinada en un contexto determinado).
  5. Los materiales estándar, sin respuestas, fueron entregados a los participantes, quienes luego tuvieron un corto tiempo para ejecutar sus programas sobre ellos y devolver sus conjuntos de respuestas a los organizadores.
  6. Luego, los organizadores calificaron las respuestas y las puntuaciones se anunciaron y discutieron en un taller.

Tareas de evaluación semántica

Senseval-1 y Senseval-2 se centraron en la evaluación de sistemas WSD en los principales idiomas que estaban disponibles en corpus y diccionarios computarizados. Senseval-3 miró más allá de los lexemas y comenzó a evaluar sistemas que analizaban áreas más amplias de la semántica, como los Roles Semánticos (técnicamente conocidos como roles Theta en la semántica formal), la Transformación de Formas Lógicas (comúnmente la semántica de frases, cláusulas u oraciones se representaba en formas lógicas de primer orden ) y Senseval-3 exploraron las prestaciones del análisis semántico en la traducción automática .

A medida que los tipos de diferentes sistemas semánticos computacionales crecieron más allá de la cobertura de WSD, Senseval evolucionó a SemEval, donde se evaluaron más aspectos de los sistemas semánticos computacionales.

Descripción general de las cuestiones del análisis semántico

Los ejercicios SemEval proporcionan un mecanismo para examinar cuestiones en el análisis semántico de textos. Los temas de interés no alcanzan el rigor lógico que se encuentra en la semántica computacional formal, que intenta identificar y caracterizar los tipos de cuestiones relevantes para la comprensión humana del lenguaje. El objetivo principal es replicar el procesamiento humano mediante sistemas informáticos. Las tareas (que se muestran a continuación) son desarrolladas por individuos y grupos para abordar cuestiones identificables, a medida que adquieren alguna forma concreta.

La primera área importante del análisis semántico es la identificación del significado deseado a nivel de palabra (incluyendo expresiones idiomáticas). Se trata de la desambiguación del sentido de las palabras (un concepto que se está alejando de la noción de que las palabras tienen sentidos discretos, sino que se caracterizan por las formas en que se usan, es decir, sus contextos). Las tareas en esta área incluyen muestras léxicas y desambiguación de todas las palabras, desambiguación multilingüe y entre idiomas y sustitución léxica. Dadas las dificultades para identificar los sentidos de las palabras, otras tareas relevantes para este tema incluyen la inducción del sentido de las palabras, la adquisición de subcategorizaciones y la evaluación de recursos léxicos.

La segunda área importante del análisis semántico es la comprensión de cómo encajan entre sí las diferentes oraciones y elementos textuales. Las tareas en esta área incluyen etiquetado de roles semánticos, análisis de relaciones semánticas y resolución de correferencias. Otras tareas en esta área analizan cuestiones más especializadas de análisis semántico, como el procesamiento de información temporal, la resolución de metonimia y el análisis de sentimientos. Las tareas en esta área tienen muchas aplicaciones potenciales, como extracción de información, respuesta a preguntas, resumen de documentos, traducción automática, construcción de tesauros y redes semánticas, modelado de lenguaje, parafraseo y reconocimiento de vinculaciones textuales. En cada una de estas potenciales aplicaciones, la contribución de los tipos de análisis semántico constituye el tema de investigación más destacado.

Por ejemplo, en la tarea de inducción y desambiguación del sentido de las palabras , hay tres fases separadas:

  1. En la fase de capacitación , se pidió a los participantes de la tarea de evaluación que utilizaran un conjunto de datos de capacitación para inducir inventarios de sentidos para un conjunto de palabras polisémicas. El conjunto de datos de entrenamiento consta de un conjunto de sustantivos/verbos polisémicos y las instancias de oración en las que ocurrieron. No se permitieron otros recursos aparte de los componentes morfológicos y sintácticos del procesamiento del lenguaje natural, como analizadores morfológicos , etiquetadores de parte del discurso y analizadores sintácticos. .
  2. En la fase de prueba , a los participantes se les proporcionó un conjunto de prueba para la subtarea de eliminación de ambigüedades utilizando el inventario de sentidos inducido de la fase de entrenamiento.
  3. En la fase de evaluación , las respuestas de la fase de prueba se evaluaron en un marco supervisado y no supervisado .

La evaluación no supervisada para WSI consideró dos tipos de evaluación V Measure (Rosenberg y Hirschberg, 2007) y F-Score emparejado (Artiles et al., 2009). Esta evaluación sigue la evaluación supervisada de la tarea WSI SemEval-2007 (Agirre y Soroa, 2007)

Descripción general de las tareas de Senseval y SemEval

Las tablas a continuación reflejan el crecimiento del taller de Senseval a SemEval y brindan una descripción general de qué área de semántica computacional se evaluó a lo largo de los talleres de Senseval/SemEval.

La tarea WSD multilingüe fue introducida para el taller SemEval-2013. [17] La ​​tarea tiene como objetivo evaluar sistemas de desambiguación de sentido de palabras en un escenario multilingüe utilizando BabelNet como inventario de sentido. A diferencia de tareas similares como WSD multilingüe o la tarea de sustitución léxica multilingüe , donde no se especifica ningún inventario de sentido fijo, WSD multilingüe utiliza BabelNet como inventario de sentido. Antes del desarrollo de BabelNet, se llevó a cabo una tarea de evaluación WSD de muestra léxica bilingüe en SemEval-2007 en bitextos chino-inglés. [18]

La tarea WSD multilingüe se introdujo en el taller de evaluación SemEval-2007 y se volvió a proponer en el taller SemEval-2013. [19] Para facilitar la integración de sistemas WSD en otras aplicaciones de procesamiento del lenguaje natural (NLP), como la traducción automática y la recuperación de información multilingüe , se introdujo la tarea de evaluación WSD multilingüe, un enfoque de WSD independiente del lenguaje y basado en el conocimiento. . La tarea es una tarea de desambiguación del sentido de las palabras sin supervisión para sustantivos en inglés mediante corpus paralelos. Sigue la variante de muestra léxica de la tarea WSD clásica, restringida a sólo 20 sustantivos polisémicos.

Vale la pena señalar que SemEval-2014 tiene solo dos tareas que eran multilingües/interlingües, es decir (i) la tarea de Asistente de escritura L2, que es una tarea WSD interlingüe que incluye inglés, español, alemán, francés y holandés y (ii) la tarea de Similitud Textual Semántica Multilingüe que evalúa sistemas en textos en inglés y español.

Áreas de evaluación

Las principales tareas de la evaluación semántica incluyen las siguientes áreas del procesamiento del lenguaje natural . Se espera que esta lista crezca a medida que avance el campo. [20]

La siguiente tabla muestra las áreas de estudios que estuvieron involucradas desde Senseval-1 hasta SemEval-2014 (S se refiere a Senseval y SE se refiere a SemEval, por ejemplo, S1 se refiere a Senseval-1 y SE07 se refiere a SemEval2007):

Tipo de anotaciones semánticas

Las tareas de SemEval han creado muchos tipos de anotaciones semánticas, cada tipo con varios esquemas. En SemEval-2015, los organizadores decidieron agrupar las tareas en varias pistas. Estas pistas se clasifican según el tipo de anotaciones semánticas que la tarea espera lograr. [21] A continuación se enumera el tipo de anotaciones semánticas involucradas en los talleres de SemEval:

  1. Aprendizaje de relaciones semánticas
  2. Preguntas y respuestas
  3. Análisis semántico
  4. Taxonomía semántica
  5. Análisis de los sentimientos
  6. Similitud de texto
  7. Tiempo y espacio
  8. Desambiguación e inducción del sentido de las palabras

Una tarea y su asignación de pistas son flexibles; una tarea podría convertirse en su propia vía, por ejemplo, la tarea de evaluación de taxonomía en SemEval-2015 estaba bajo la vía de Aprendizaje de relaciones semánticas y en SemEval-2016, hay una vía dedicada a la taxonomía semántica con una nueva tarea de enriquecimiento de taxonomía semántica . [22] [23]

Ver también

Referencias

  1. ^ Blackburn, P. y Bos, J. (2005), Representación e inferencia para el lenguaje natural: un primer curso en semántica computacional , Publicaciones CSLI. ISBN  1-57586-496-7 .
  2. ^ Navigli, R (2009). "Desambiguación del sentido de las palabras". Encuestas de Computación ACM . 41 (2): 1–69. doi :10.1145/1459352.1459355. S2CID  461624.
  3. ^ Palmer, M., Ng, HT y Hoa, TD (2006), Evaluación de sistemas WSD , en Eneko Agirre y Phil Edmonds (eds.), Desambiguación del sentido de las palabras: algoritmos y aplicaciones, tecnología de texto, habla y lenguaje, vol. . 33. Ámsterdam: Springer, 75-106.
  4. ^ Resnik, P. (2006), WSD en aplicaciones de PNL , en Eneko Agirre y Phil Edmonds (eds.), Desambiguación del sentido de las palabras: algoritmos y aplicaciones. Dordrecht: Springer, 299–338.
  5. ^ Yarowsky, D. (1992), Desambiguación del sentido de las palabras utilizando modelos estadísticos de las categorías de Roget entrenados en grandes corpus . Actas de la 14ª Conferencia sobre Lingüística Computacional, 454–60. doi :10.3115/992133.992140
  6. ^ Palmer, M. y Light, M. (1999), Etiquetado con semántica léxica: ¿por qué, qué y cómo?| Taller ACL SIGLEX sobre etiquetado de texto con semántica léxica: ¿qué, por qué y cómo? Archivado el 15 de julio de 2010 en Wayback Machine Ingeniería del lenguaje natural 5 (2): i – iv.
  7. ^ Ng, HT (1997), Tomarse en serio la desambiguación del sentido de las palabras . Actas del taller ACL SIGLEX sobre etiquetado de texto con semántica léxica: ¿por qué, qué y cómo? 1–7.
  8. ^ Philip Resnik y Jimmy Lin (2010). Evaluación de Sistemas PNL . En Alexander Clark, Chris Fox y Shalom Lappin, editores. El manual de lingüística computacional y procesamiento del lenguaje natural. Wiley-Blackwellis. 11:271
  9. ^ Adam Kilgarriff y Martha Palmer (ed. 2000). Número especial de Computación y Humanidades, SENSEVAL98: Evaluación de sistemas de desambiguación del sentido de las palabras . Kluwer, 34: 1–2.
  10. ^ Scott Cotton, Phil Edmonds, Adam Kilgarriff y Martha Palmer (ed. 2001). SENSEVAL-2: Segundo taller internacional sobre evaluación de sistemas de desambiguación del sentido de las palabras . Taller SIGLEX, ACL03, Toulouse, Francia.
  11. ^ SIGLEX: Tablero de mensajes (2010) Obtenido el 15 de agosto de 2012 de http://www.clres.com/siglex/messdisp.php?id=111
  12. ^ Publicación del grupo de Google SemEval 3. Recuperado el 15 de agosto de 2012 de https://groups.google.com/forum/?fromgroups#!topic/semeval3/8YXMvVlH-CM%5B1-25%5D
  13. ^ Evaluación y recursos lingüísticos Volumen 43, Número 2 [ enlace muerto ]
  14. ^ Kilgarriff, A. (1998). SENSEVAL: Un ejercicio de evaluación de programas de desambiguación del sentido de las palabras . En Proc. LREC, Granada, mayo de 1998. Pp 581--588
  15. ^ "Tareas <SemEval-2017". alt.qcri.org . Consultado el 4 de mayo de 2018 .
  16. ^ "Tareas <SemEval-2018". alt.qcri.org . Consultado el 4 de mayo de 2018 .
  17. ^ Navigli, R., Jurgens, D. y Vannella, D. (junio de 2013). Semeval-2013 tarea 12: Desambiguación del sentido de palabras multilingües. En Actas del Séptimo Taller Internacional sobre Evaluación Semántica (SemEval 2013), junto con la Segunda Conferencia Conjunta sobre Semántica Léxica y Computacional (* SEM 2013) (págs. 222-231).
  18. ^ Peng Jin, Yunfang Wu y Shiwen Yu. SemEval-2007 tarea 05: muestra léxica multilingüe chino-inglés. Actas del 4º Taller Internacional sobre Evaluaciones Semánticas, páginas 19-23, 23 y 24 de junio de 2007, Praga, República Checa.
  19. ^ Lefever, E. y Hoste, V. (junio de 2013). Semeval-2013 tarea 10: Desambiguación del sentido de las palabras en varios idiomas. En Segunda conferencia conjunta sobre semántica léxica y computacional (Vol. 2, págs. 158-166).
  20. ^ Portal SemEval (sin fecha). En ACLwiki. Obtenido el 12 de agosto de 2010 de http://aclweb.org/aclwiki/index.php?title=SemEval_Portal
  21. Sitio web SemEval-2015 . Consultado el 14 de noviembre de 2014 http://alt.qcri.org/semeval2015/index.php?id=tasks
  22. ^ Georgeta Bordea, Paul Buitelaar, Stefano Faralli y Roberto Navigli. 2015. Tarea 17 de Semeval-2015: Evaluación de Extracción de Taxonomía (TExEval) . En actas del noveno taller internacional sobre evaluación semántica. Denver, Estados Unidos.
  23. Sitio web SemEval-2016 . Consultado el 4 de junio de 2015 http://alt.qcri.org/semeval2016/

enlaces externos