Modelado analógico

El modelado analógico ( AM ) es una teoría formal de razonamiento analógico basado en ejemplos , propuesta por Royal Skousen , profesor de Lingüística y Lengua Inglesa en la Universidad Brigham Young en Provo, Utah . Es aplicable al modelado del lenguaje y otras tareas de categorización. El modelado analógico está relacionado con el conexionismo y los enfoques del vecino más cercano , en el sentido de que se basa en datos en lugar de en abstracciones; pero se distingue por su capacidad para lidiar con conjuntos de datos imperfectos (como los causados por límites de memoria a corto plazo simulados) y para basar predicciones en todos los segmentos relevantes del conjunto de datos, ya sean cercanos o lejanos. En el modelado del lenguaje, AM ha predicho con éxito formas empíricamente válidas para las que no se conocía una explicación teórica (véase la discusión de la morfología finlandesa en Skousen et al. 2002).

Implementación

Descripción general

Un modelo basado en ejemplos consta de un motor de modelado de propósito general y un conjunto de datos específicos del problema. Dentro del conjunto de datos, cada ejemplo (un caso a partir del cual se debe razonar o una experiencia pasada informativa) aparece como un vector de características: una fila de valores para el conjunto de parámetros que definen el problema. Por ejemplo, en una tarea de ortografía y sonido, el vector de características puede consistir en las letras de una palabra. Cada ejemplo del conjunto de datos se almacena con un resultado, como un fonema o fonema que se debe generar. Cuando se presenta al modelo una situación nueva (en forma de un vector de características sin resultado), el motor ordena algorítmicamente el conjunto de datos para encontrar ejemplos que se le parezcan de manera útil y selecciona uno, cuyo resultado es la predicción del modelo. Los detalles del algoritmo distinguen un sistema de modelado basado en ejemplos de otro.

En AM, pensamos en los valores de las características como caracterización de un contexto, y el resultado como un comportamiento que ocurre dentro de ese contexto. En consecuencia, la situación novedosa se conoce como el contexto dado. Dadas las características conocidas del contexto, el motor AM genera sistemáticamente todos los contextos que lo incluyen (todos sus supracontextos ), y extrae del conjunto de datos los ejemplos que pertenecen a cada uno. El motor luego descarta aquellos supracontextos cuyos resultados son inconsistentes (esta medida de consistencia se discutirá más adelante), dejando un conjunto analógico de supracontextos, y selecciona probabilísticamente un ejemplo del conjunto analógico con un sesgo hacia aquellos en supracontextos grandes. Esta búsqueda multinivel magnifica exponencialmente la probabilidad de que se prediga un comportamiento a medida que ocurre de manera confiable en entornos que se asemejan específicamente al contexto dado.

Modelado analógico en detalle

AM realiza el mismo proceso para cada caso que se le pide evaluar. El contexto dado, que consta de n variables, se utiliza como plantilla para generar supracontextos. Cada supracontexto es un conjunto de ejemplos en los que una o más variables tienen los mismos valores que en el contexto dado, y las demás variables se ignoran. En efecto, cada uno es una vista de los datos, creada mediante el filtrado de algunos criterios de similitud con el contexto dado, y el conjunto total de supracontextos agota todas esas vistas. Alternativamente, cada supracontexto es una teoría de la tarea o una regla propuesta cuyo poder predictivo necesita ser evaluado. $2^{n}$

Es importante señalar que los supracontextos no son iguales entre sí; están ordenados según su distancia respecto del contexto dado, formando una jerarquía. Si un supracontexto especifica todas las variables que otro especifica y más, es un subcontexto de ese otro y se encuentra más cerca del contexto dado. (La jerarquía no es estrictamente ramificada; cada supracontexto puede ser en sí mismo un subcontexto de varios otros y puede tener varios subcontextos). Esta jerarquía se vuelve significativa en el siguiente paso del algoritmo.

El motor elige ahora el conjunto analógico de entre los supracontextos. Un supracontexto puede contener ejemplos que sólo exhiben un comportamiento; es deterministamente homogéneo y está incluido. Es una vista de los datos que muestra regularidad, o una teoría relevante que nunca ha sido refutada. Un supracontexto puede exhibir varios comportamientos, pero no contener ejemplos que ocurran en ningún supracontexto más específico (es decir, en ninguno de sus subcontextos); en este caso es no deterministamente homogéneo y está incluido. Aquí no hay gran evidencia de que ocurra un comportamiento sistemático, pero tampoco ningún contraargumento. Finalmente, un supracontexto puede ser heterogéneo, lo que significa que exhibe comportamientos que se encuentran en un subcontexto (más cercano al contexto dado), y también comportamientos que no lo son. Cuando se aceptó el comportamiento ambiguo del supracontexto no deterministamente homogéneo, esto se rechaza porque el subcontexto intermedio demuestra que hay una mejor teoría por encontrar. Por lo tanto, se excluye el supracontexto heterogéneo, lo que garantiza que observemos un aumento en el comportamiento significativamente consistente en el conjunto analógico a medida que nos acercamos al contexto dado.

Una vez elegido el conjunto analógico, a cada aparición de un ejemplar (pues un ejemplar dado puede aparecer en varios de los supracontextos analógicos) se le asigna un puntero a cada una de las demás apariciones de un ejemplar dentro de sus supracontextos. A continuación, se selecciona al azar uno de estos punteros y se sigue su ejemplo, y el ejemplar al que apunta proporciona el resultado. Esto da a cada supracontexto una importancia proporcional al cuadrado de su tamaño, y hace que cada ejemplar tenga probabilidades de ser seleccionado en proporción directa a la suma de los tamaños de todos los supracontextos analógicamente consistentes en los que aparece. Entonces, por supuesto, la probabilidad de predecir un resultado particular es proporcional a las probabilidades sumadas de todos los ejemplares que lo respaldan.

(Skousen 2002, en Skousen et al. 2002, págs. 11-25, y Skousen 2003, ambos passim)

Fórmulas

Dado un contexto con elementos: $n$

Número total de emparejamientos:

n^{2}

Número de acuerdos para el resultado i :

n_{i}^{2}

Número de desacuerdos para el resultado i :

n_{i}(n-n_{i})

Número total de acuerdos:

\sum {n_{i}^{2}}

Número total de desacuerdos:

\sum {n_{i}(n-n_{i})}=n^{2}-\sum {n_{i}^{2}}

Ejemplo

Esta terminología se entiende mejor con un ejemplo. En el ejemplo utilizado en el segundo capítulo de Skousen (1989), cada contexto consta de tres variables con valores potenciales de 0 a 3.

Variable 1: 0,1,2,3

Variable 2: 0,1,2,3

Variable 3: 0,1,2,3

Los dos resultados para el conjunto de datos son e y r , y los ejemplos son:

3 1 0 y0 3 2 r2 1 0 r2 1 2 r3 1 1 r

Definimos una red de punteros de la siguiente manera:

Las líneas continuas representan indicadores entre ejemplares con resultados coincidentes; las líneas punteadas representan indicadores entre ejemplares con resultados no coincidentes.

Las estadísticas para este ejemplo son las siguientes:

n=5

n_{r}=4

n_{e}=1

Número total de emparejamientos:

n^{2}=25

Número de acuerdos para el resultado r :

n_{r}^{2}=16

Número de acuerdos para el resultado e :

n_{e}^{2}=1

Número de desacuerdos para el resultado r :

n_{r}(n-n_{r})=4

Número de desacuerdos sobre el resultado e :

n_{e}(n-n_{e})=4

Número total de acuerdos:

n_{r}^{2}+n_{e}^{2}=17

Número total de desacuerdos:

n_{r}(n-n_{r})+n_{e}(n-n_{e})=n^{2}-(n_{r}^{2}+n_{e}^{2})=8

incertidumbre o fracción de desacuerdo:

8/25=.32

El comportamiento sólo puede predecirse para un contexto determinado; en este ejemplo, vamos a predecir el resultado para el contexto "3 1 2". Para ello, primero encontramos todos los contextos que contienen el contexto dado; estos contextos se denominan supracontextos. Encontramos los supracontextos eliminando sistemáticamente las variables en el contexto dado; con m variables, generalmente habrá supracontextos. La siguiente tabla enumera cada uno de los subcontextos y supracontextos; x significa "no x" y - significa "cualquier cosa". $2^{m}$

Estos contextos se muestran en el diagrama de Venn a continuación:

El siguiente paso es determinar qué ejemplos pertenecen a qué contextos para determinar cuáles de ellos son homogéneos. La siguiente tabla muestra cada uno de los subcontextos, su comportamiento en relación con los ejemplos dados y la cantidad de desacuerdos dentro del comportamiento:

Analizando los subcontextos en la tabla anterior, vemos que solo hay 1 subcontexto con algún desacuerdo: "3 1 2 ", que en el conjunto de datos consta de "3 1 0 e" y "3 1 1 r". Hay 2 desacuerdos en este subcontexto; 1 apuntando desde cada uno de los ejemplos al otro (ver la red de punteros ilustrada arriba). Por lo tanto, solo los supracontextos que contienen este subcontexto contendrán algún desacuerdo. Usamos una regla simple para identificar los supracontextos homogéneos:

Si el número de desacuerdos en el supracontexto es mayor que el número de desacuerdos en el subcontexto contenido, decimos que es heterogéneo; en caso contrario, es homogéneo.

Hay 3 situaciones que producen un supracontexto homogéneo:

El supracontexto está vacío. Este es el caso de "3 - 2", que no contiene puntos de datos. No puede haber un aumento en el número de desacuerdos y el supracontexto es trivialmente homogéneo.
El supracontexto es determinista, es decir, en él solo se produce un tipo de resultado. Este es el caso de "- 1 2" y "- - 2", que contienen solo datos con el resultado r .
Sólo un subcontexto contiene datos. El subcontexto no tiene que ser determinista para que el supracontexto sea homogéneo. Por ejemplo, mientras que los supracontextos "3 1 -" y "- 1 2" son deterministas y sólo contienen un subcontexto no vacío, "3 - -" contiene sólo el subcontexto "3 1 2 ". Este subcontexto contiene "3 1 0 e" y "3 1 1 r", lo que lo hace no determinista. Decimos que este tipo de supracontexto no tiene obstrucciones y no es determinista.

Los únicos dos supracontextos heterogéneos son "- 1 -" y "- - -". En ambos, es la combinación del no determinista "3 1 2 " con otros subcontextos que contienen el resultado r lo que causa la heterogeneidad.

En realidad, existe un cuarto tipo de supracontexto homogéneo: contiene más de un subcontexto no vacío y no es determinista, pero la frecuencia de los resultados en cada subcontexto es exactamente la misma. Sin embargo, el modelado analógico no considera esta situación por dos razones:

Para determinar si se ha producido esta cuarta situación es necesario realizar una prueba. Esta es la única prueba de homogeneidad que requiere aritmética, e ignorarla permite que nuestras pruebas de homogeneidad sean estadísticamente libres, lo que hace que AM sea mejor para modelar el razonamiento humano. $\chi ^{2}$
Es una situación extremadamente rara, por lo que ignorarla no puede esperarse que tenga un gran efecto en el resultado previsto.

A continuación, construimos el conjunto analógico, que consta de todos los punteros y resultados de los supracontextos homogéneos. La figura siguiente muestra la red de punteros con los contextos homogéneos resaltados.

Los indicadores se resumen en la siguiente tabla:

4 de los punteros en el conjunto analógico están asociados con el resultado e y los otros 9 están asociados con r . En AM, se selecciona un puntero al azar y se predice el resultado al que apunta. Con un total de 13 punteros, la probabilidad de que se prediga el resultado e es 4/13 o 30,8%, y para el resultado r es 9/13 o 69,2%. Podemos crear una explicación más detallada enumerando los punteros para cada una de las ocurrencias en los supracontextos homogéneos:

Podemos entonces ver el efecto analógico de cada una de las instancias en el conjunto de datos.

Contexto histórico

La analogía se ha considerado útil para describir el lenguaje al menos desde la época de Saussure . Más recientemente, Noam Chomsky y otros han criticado la analogía por ser demasiado vaga para ser realmente útil (Bańko 1991), lo que supone una apelación a un deus ex machina. La propuesta de Skousen parece abordar esa crítica al proponer un mecanismo explícito para la analogía, cuya validez psicológica puede comprobarse.

Aplicaciones

El modelado analógico se ha empleado en experimentos que abarcan desde la fonología y la morfología (lingüística) hasta la ortografía y la sintaxis .

Problemas

Aunque el modelado analógico apunta a crear un modelo libre de reglas que se consideran inventadas por los lingüistas, en su forma actual aún requiere que los investigadores seleccionen qué variables tomar en consideración. Esto es necesario debido a la llamada "explosión exponencial" de los requisitos de potencia de procesamiento del software informático utilizado para implementar el modelado analógico. Investigaciones recientes sugieren que la computación cuántica podría proporcionar la solución a estos cuellos de botella en el rendimiento (Skousen et al. 2002, véanse las págs. 45-47).

Véase también

Referencias

Royal Skousen (1989). Modelado analógico del lenguaje (tapa dura). Dordrecht: Kluwer Academic Publishers. xii+212pp. ISBN 0-7923-0517-5.
Miroslaw Bańko (junio de 1991). "Revisión: Modelado analógico del lenguaje" (PDF) . Computational Linguistics . 17 (2): 246–248. Archivado desde el original (PDF) el 2 de agosto de 2003.
Royal Skousen (1992). Analogía y estructura . Dordrect: Kluwer Academic Publishers. ISBN 0-7923-1935-4.
Royal Skousen; Deryle Lonsdale; Dilworth B. Parkinson, eds. (2002). Modelado analógico: un enfoque basado en ejemplos del lenguaje (Procesamiento cognitivo humano, vol. 10). Ámsterdam/Filadelfia: John Benjamins Publishing Company. pág. x+417pp. ISBN 1-58811-302-7.
Skousen, Royal. (2003). Modelado analógico: ejemplos, reglas y computación cuántica. Presentado en la conferencia de la Berkeley Linguistics Society.

Enlaces externos

Página de inicio del grupo de investigación en modelado analógico
Anuncio de la lista LINGUIST sobre modelado analógico , Skousen et al. (2002)