Utilidad de la categoría

La utilidad de categoría es una medida de la "bondad de categoría" definida en Gluck y Corter (1985) y Corter y Gluck (1992). Intenta maximizar tanto la probabilidad de que dos objetos de la misma categoría tengan valores de atributos en común como la probabilidad de que objetos de diferentes categorías tengan diferentes valores de atributos. Su objetivo era reemplazar medidas más limitadas de bondad de categoría, como la " validez de la señal " (Reed 1972; Rosch y Mervis 1975) y el "índice de colocación" (Jones 1983). Proporciona una medida normativa basada en la teoría de la información de la ventaja predictiva obtenida por el observador que posee conocimiento de la estructura de categoría dada (es decir, las etiquetas de clase de las instancias) sobre el observador que no posee conocimiento de la estructura de categoría. En este sentido, la motivación para la medida de utilidad de categoría es similar a la métrica de ganancia de información utilizada en el aprendizaje de árboles de decisión . En ciertas presentaciones, también es formalmente equivalente a la información mutua , como se analiza a continuación. En Witten y Frank (2005, págs. 260-262) se ofrece una revisión de la utilidad de categoría en su encarnación probabilística, con aplicaciones al aprendizaje automático .

Definición teórica de probabilidad de la utilidad de la categoría

La definición teórica de probabilidad de la utilidad de categoría dada en Fisher (1987) y Witten & Frank (2005) es la siguiente:

CU(C,F)={\tfrac {1}{p}}\suma _{c_{j}\en C}p(c_{j})\left[\suma _{f_{i}\en F}\suma _{k=1}^{m}p(f_{ik}|c_{j})^{2}-\suma _{f_{i}\en F}\suma _{k=1}^{m}p(f_{ik})^{2}\right]

donde es un conjunto de características -arias, y es un conjunto de categorías. El término designa la probabilidad marginal de que la característica tome el valor , y el término designa la probabilidad condicional de la categoría de que la característica tome el valor dado que el objeto en cuestión pertenece a la categoría . $F=\{f_{i}\},\ i=1\lpuntos n$ ${\estilo de visualización n\}$ ${\estilo de visualización m\}$ $C=\{c_{j}\}\ j=1\ldots p$ ${\estilo de visualización p\}$ $p(f_{ik})\$ $f_{i}\$ ${\estilo de visualización k\}$ $p(f_{ik}|c_{j})\$ $f_{i}\$ ${\estilo de visualización k\}$ $c_{j}\$

La motivación y el desarrollo de esta expresión para la utilidad de la categoría, y el papel del multiplicando como un control de sobreajuste rudimentario, se dan en las fuentes anteriores. En términos generales (Fisher 1987), el término es el número esperado de valores de atributos que un observador puede adivinar correctamente utilizando una estrategia de coincidencia de probabilidad junto con el conocimiento de las etiquetas de la categoría, mientras que es el número esperado de valores de atributos que un observador puede adivinar correctamente utilizando la misma estrategia pero sin ningún conocimiento de las etiquetas de la categoría. Por lo tanto, su diferencia refleja la ventaja relativa que le corresponde al observador al tener conocimiento de la estructura de la categoría. $\textstyle {\tfrac {1}{p}}$ $\textstyle p(c_{j})\sum _{f_{i}\in F}\sum _{k=1}^{m}p(f_{ik}|c_{j})^{2}$ $\textstyle p(c_{j})\sum _{f_{i}\in F}\sum _{k=1}^{m}p(f_{ik})^{2}$

Definición de la utilidad de la categoría según la teoría de la información

La definición teórica de la información de la utilidad de categoría para un conjunto de entidades con un conjunto de características binarias de tamaño y una categoría binaria se da en Gluck y Corter (1985) de la siguiente manera: $n\$ $F=\{f_{i}\},\ i=1\ldots n$ $C=\{c,{\bar {c}}\}$

CU(C,F)=\left[p(c)\sum _{i=1}^{n}p(f_{i}|c)\log p(f_{i}|c)+p({\bar {c}})\sum _{i=1}^{n}p(f_{i}|{\bar {c}})\log p(f_{i}|{\bar {c}})\right]-\sum _{i=1}^{n}p(f_{i})\log p(f_{i})

donde es la probabilidad previa de que una entidad pertenezca a la categoría positiva (en ausencia de cualquier información sobre las características), es la probabilidad condicional de que una entidad tenga una característica dado que la entidad pertenece a la categoría , es asimismo la probabilidad condicional de que una entidad tenga una característica dado que la entidad pertenece a la categoría , y es la probabilidad previa de que una entidad posea una característica (en ausencia de cualquier información sobre la categoría). $p(c)\$ $c\$ $p(f_{i}|c)\$ $f_{i}\$ $c\$ $p(f_{i}|{\bar {c}})$ $f_{i}\$ ${\bar {c}}$ $p(f_{i})\$ $f_{i}\$

La intuición detrás de la expresión anterior es la siguiente: el término representa el costo (en bits) de codificar (o transmitir) de manera óptima la información de características cuando se sabe que los objetos que se describirán pertenecen a la categoría . De manera similar, el término representa el costo (en bits) de codificar (o transmitir) de manera óptima la información de características cuando se sabe que los objetos que se describirán pertenecen a la categoría . La suma de estos dos términos entre paréntesis es, por lo tanto, el promedio ponderado de estos dos costos. El término final, , representa el costo (en bits) de codificar (o transmitir) de manera óptima la información de características cuando no hay información de categoría disponible. El valor de la utilidad de categoría, en la formulación anterior, será no negativo. $p(c)\textstyle \sum _{i=1}^{n}p(f_{i}|c)\log p(f_{i}|c)$ $c\$ $p({\bar {c}})\textstyle \sum _{i=1}^{n}p(f_{i}|{\bar {c}})\log p(f_{i}|{\bar {c}})$ ${\bar {c}}$ $\textstyle \sum _{i=1}^{n}p(f_{i})\log p(f_{i})$

Categoría de utilidad e información mutua

Gluck y Corter (1985) y Corter y Gluck (1992) mencionan que la categoría utilidad es equivalente a la información mutua . Aquí hay una demostración simple de la naturaleza de esta equivalencia. Supongamos un conjunto de entidades que tienen cada una las mismas características, es decir, conjunto de características , con cada variable de característica que tiene cardinalidad . Es decir, cada característica tiene la capacidad de adoptar cualquiera de los valores distintos (que no necesitan estar ordenados; todas las variables pueden ser nominales); para el caso especial estas características se considerarían binarias , pero de manera más general, para cualquier , las características son simplemente m-arias . Para los propósitos de esta demostración, sin pérdida de generalidad, conjunto de características puede reemplazarse con una sola variable agregada que tiene cardinalidad , y adopta un valor único correspondiente a cada combinación de características en el producto cartesiano . (La ordinalidad no importa, porque la información mutua no es sensible a la ordinalidad). En lo que sigue, un término como o simplemente se refiere a la probabilidad con la que adopta el valor particular . (El uso de la variable de característica agregada reemplaza múltiples sumas y simplifica la presentación a continuación). $n$ $F=\{f_{i}\},\ i=1\ldots n$ $m$ $m$ $m=2$ $m$ $F$ $F_{a}$ $m^{n}$ $v_{i},\ i=1\ldots m^{n}$ $\otimes F$ $p(F_{a}=v_{i})$ $p(v_{i})$ $F_{a}$ $v_{i}$ $F_{a}$

Para esta demostración, supongamos también una única variable de categoría , que tiene cardinalidad . Esto es equivalente a un sistema de clasificación en el que hay categorías que no se intersecan. En el caso especial de , existe el caso de dos categorías que se analizó anteriormente. A partir de la definición de información mutua para variables discretas, la información mutua entre la variable de característica agregada y la variable de categoría viene dada por: $C$ $p$ $p$ $p=2$ $I(F_{a};C)$ $F_{a}$ $C$

I(F_{a};C)=\sum _{v_{i}\in F_{a}}\sum _{c_{j}\in C}p(v_{i},c_{j})\log {\frac {p(v_{i},c_{j})}{p(v_{i})\,p(c_{j})}}

donde es la probabilidad previa de que la variable característica adopte el valor , es la probabilidad marginal de que la variable de categoría adopte el valor , y es la probabilidad conjunta de que las variables y adopten simultáneamente esos valores respectivos. En términos de las probabilidades condicionales, esto se puede reescribir (o definir) como $p(v_{i})$ $F_{a}$ $v_{i}$ $p(c_{j})$ $C$ $c_{j}$ $p(v_{i},c_{j})$ $F_{a}$ $C$

{\begin{aligned}I(F_{a};C)&=\sum _{v_{i}\in F_{a}}\sum _{c_{j}\in C}p(v_{i},c_{j})\log {\frac {p(v_{i}|c_{j})}{p(v_{i})}}\\&=\sum _{v_{i}\in F_{a}}\sum _{c_{j}\in C}p(v_{i}|c_{j})p(c_{j})\left[\log p(v_{i}|c_{j})-\log p(v_{i})\right]\\&=\sum _{v_{i}\in F_{a}}\sum _{c_{j}\in C}p(v_{i}|c_{j})p(c_{j})\log p(v_{i}|c_{j})-\sum _{v_{i}\in F_{a}}\sum _{c_{j}\in C}p(v_{i}|c_{j})p(c_{j})\log p(v_{i})\\&=\sum _{v_{i}\in F_{a}}\sum _{c_{j}\in C}p(v_{i}|c_{j})p(c_{j})\log p(v_{i}|c_{j})-\sum _{v_{i}\in F_{a}}\sum _{c_{j}\in C}p(v_{i},c_{j})\log p(v_{i})\\&=\sum _{v_{i}\in F_{a}}\sum _{c_{j}\in C}p(v_{i}|c_{j})p(c_{j})\log p(v_{i}|c_{j})-\sum _{v_{i}\in F_{a}}\log p(v_{i})\sum _{c_{j}\in C}p(v_{i},c_{j})\\&=\sum _{v_{i}\in F_{a}}\sum _{c_{j}\in C}p(v_{i}|c_{j})p(c_{j})\log p(v_{i}|c_{j})-\sum _{v_{i}\in F_{a}}p(v_{i})\log p(v_{i})\\\end{aligned}}

Si la definición original de la categoría utilidad de arriba se reescribe con , $C=\{c,{\bar {c}}\}$

CU(C,F)=\sum _{f_{i}\in F}\sum _{c_{j}\in C}p(f_{i}|c_{j})p(c_{j})\log p(f_{i}|c_{j})-\sum _{f_{i}\in F}p(f_{i})\log p(f_{i})

Esta ecuación tiene claramente la misma forma que la ecuación ( azul ) que expresa la información mutua entre el conjunto de características y la variable de categoría; la diferencia es que la suma en la ecuación de utilidad de categoría se aplica a las variables binarias independientes , mientras que la suma en la información mutua se aplica a los valores de la variable unidireccional . Las dos medidas son realmente equivalentes solo cuando las características , son independientes (y suponiendo que los términos en la suma correspondientes a también se suman). $\textstyle \sum _{f_{i}\in F}$ $F=\{f_{i}\},\ i=1\ldots n$ $\textstyle \sum _{v_{i}\in F_{a}}$ $m^{n}$ $F_{a}$ $\{f_{i}\}$ $p({\bar {f_{i}}})$

Insensibilidad de la utilidad de la categoría a la ordinalidad

Al igual que la información mutua, la utilidad de la categoría no es sensible a ningún ordenamiento en los valores de las variables de categoría o característica. Es decir, en lo que respecta a la utilidad de la categoría, el conjunto de categorías {small,medium,large,jumbo}no es cualitativamente diferente del conjunto de categorías {desk,fish,tree,mop}, ya que la formulación de la utilidad de la categoría no tiene en cuenta ningún ordenamiento de la variable de clase. De manera similar, una variable característica que adopta valores {1,2,3,4,5}no es cualitativamente diferente de una variable característica que adopta valores {fred,joe,bob,sue,elaine}. En lo que respecta a la utilidad de la categoría o la información mutua , todas las variables de categoría y característica son variables nominales. Por esta razón, la utilidad de la categoría no refleja ningún aspecto gestáltico de la "bondad de la categoría" que pueda basarse en dichos efectos de ordenamiento. Un posible ajuste para esta insensibilidad a la ordinalidad se da mediante el esquema de ponderación descrito en el artículo para la información mutua .

Categoría “bondad”: modelos y filosofía

Esta sección proporciona algunos antecedentes sobre los orígenes y la necesidad de medidas formales de "bondad de categoría", como la utilidad de categoría, y parte de la historia que condujo al desarrollo de esta métrica en particular.

¿Qué hace que una categoría sea buena?

Al menos desde la época de Aristóteles, la filosofía ha sentido una tremenda fascinación por la naturaleza de los conceptos y los universales . ¿Qué clase de entidad es un concepto como "caballo"? Estas abstracciones no designan a ningún individuo particular en el mundo, y sin embargo, difícilmente podemos imaginarnos capaces de comprender el mundo sin su uso. ¿Tiene el concepto "caballo" una existencia independiente fuera de la mente? Si es así, ¿cuál es entonces el lugar de esta existencia independiente? La cuestión del lugar fue un tema importante en el que las escuelas clásicas de Platón y Aristóteles diferían notoriamente. Sin embargo, siguieron estando de acuerdo en que los universales tenían , en efecto, una existencia independiente de la mente. Por lo tanto, siempre hubo un hecho en cuanto a qué conceptos y universales existen en el mundo.

Sin embargo , a finales de la Edad Media (quizás a partir de Occam , aunque Porfirio también hace una observación mucho más temprana que indica cierta incomodidad con el status quo), la certeza que existía sobre esta cuestión comenzó a erosionarse, y se volvió aceptable entre los llamados nominalistas y empiristas considerar los conceptos y universales como entidades estrictamente mentales o convenciones del lenguaje. En esta visión de los conceptos —que son construcciones puramente representacionales— surge entonces una nueva pregunta: "¿Por qué poseemos un conjunto de conceptos en lugar de otro?" ¿Qué hace que un conjunto de conceptos sea "bueno" y otro conjunto de conceptos "malo"? Esta es una pregunta con la que los filósofos modernos, y posteriormente los teóricos del aprendizaje automático y los científicos cognitivos, han luchado durante muchas décadas.

¿Qué propósito tienen los conceptos?

Un enfoque para responder a estas preguntas es investigar el "rol" o "propósito" de los conceptos en la cognición. Así, la respuesta a "¿Para qué sirven los conceptos en primer lugar?" de Mill (1843, p. 425) y muchos otros es que la clasificación (concepción) es un precursor de la inducción : al imponer una categorización particular al universo, un organismo gana la capacidad de tratar con objetos o situaciones físicamente no idénticos de una manera idéntica, ganando así una importante capacidad predictiva (Smith y Medin 1981; Harnad 2005). Como dice JS Mill (Mill 1843, pp. 466-468),

El problema general de la clasificación... [es] disponer que las cosas se consideren en grupos tales, y esos grupos en un orden tal, que conduzca mejor al recuerdo y a la determinación de sus leyes... [y] uno de los usos de dicha clasificación es que, al atraer la atención hacia las propiedades en las que se funda y que, si la clasificación es buena, son marcas de muchas otras, facilita el descubrimiento de esas otras.

Partiendo de esta base, Mill llega a la siguiente conclusión, que anticipa gran parte del pensamiento posterior sobre la bondad de la categoría, incluida la noción de utilidad de la categoría:

Los fines de la clasificación científica se cumplen mejor cuando los objetos se agrupan en grupos respecto de los cuales se puede hacer un mayor número de proposiciones generales, y esas proposiciones son más importantes que las que se podrían hacer respecto de cualquier otro grupo en el que se pudieran distribuir las mismas cosas. Por lo tanto, las propiedades según las cuales se clasifican los objetos deben ser, si es posible, aquellas que son causas de muchas otras propiedades o, en todo caso, que son marcas seguras de ellas.

Se puede comparar esto con la "hipótesis de utilidad de la categoría" propuesta por Corter y Gluck (1992): "Una categoría es útil en la medida en que se puede esperar que mejore la capacidad de una persona para predecir con precisión las características de las instancias de esa categoría". Mill parece sugerir aquí que la mejor estructura de categorías es aquella en la que las características del objeto (propiedades) son máximamente informativas sobre la clase del objeto y, simultáneamente, la clase del objeto es máximamente informativa sobre las características del objeto. En otras palabras, un esquema de clasificación útil es aquel en el que el conocimiento de la categoría se puede utilizar para inferir con precisión las propiedades del objeto, y el conocimiento de la propiedad se puede utilizar para inferir con precisión las clases de objetos. También se puede comparar esta idea con el criterio de contrapredicación de Aristóteles para predicados definicionales, así como con la noción de conceptos descrita en el análisis formal de conceptos .

Intentos de formalización

Se han sugerido diversas medidas diferentes con el objetivo de capturar formalmente esta noción de "bondad de categoría", la más conocida de las cuales es probablemente la " validez de la señal ". La validez de la señal de una característica con respecto a la categoría se define como la probabilidad condicional de la categoría dada la característica (Reed 1972; Rosch y Mervis 1975; Rosch 1978), , o como la desviación de la probabilidad condicional de la tasa base de la categoría (Edgell 1993; Kruschke y Johansen 1999), . Claramente, estas medidas cuantifican solo la inferencia de la característica a la categoría (es decir, la validez de la señal ), pero no de la categoría a la característica, es decir, la validez de la categoría . Además, si bien la validez de las señales fue originalmente pensada para explicar la aparición demostrable de categorías básicas en la cognición humana (categorías de un nivel particular de generalidad que son evidentemente preferidas por los estudiantes humanos), rápidamente surgieron una serie de fallas importantes en la validez de las señales a este respecto (Jones 1983; Murphy 1982; Corter y Gluck 1992, y otros). $f_{i}\$ $c_{j}\$ $p(c_{j}|f_{i})\$ $p(c_{j}|f_{i})-p(c_{j})\$ $p(f_{i}|c_{j})\$

Jones (1983) intentó abordar ambos problemas maximizando simultáneamente tanto la validez de las características como la de la categoría al definir el "índice de colocación" como el producto , pero esta construcción fue bastante ad hoc (véase Corter y Gluck, 1992). La utilidad de la categoría se introdujo como un refinamiento más sofisticado de la validez de la señal, que intenta cuantificar de manera más rigurosa el poder inferencial completo de una estructura de clase. Como se muestra arriba, en cierta perspectiva la utilidad de la categoría es equivalente a la información mutua entre la variable de la característica y la variable de la categoría. Se ha sugerido que las categorías que tienen la mayor utilidad general de la categoría son aquellas que no sólo son las "mejores" en un sentido normativo, sino también las que los estudiantes humanos prefieren usar, por ejemplo, las categorías "básicas" (Corter y Gluck, 1992). Otras medidas relacionadas con la bondad de la categoría son la "cohesión" (Hanson y Bauer, 1989; Gennari, Langley y Fisher, 1989) y la "prominencia" (Gennari, 1989). $p(c_{j}|f_{i})p(f_{i}|c_{j})\$

Aplicaciones

La utilidad de categoría se utiliza como medida de evaluación de categoría en el popular algoritmo de agrupamiento conceptual llamado COBWEB (Fisher 1987).

Véase también

Referencias

Corter, James E.; Gluck, Mark A. (1992), "Explicación de las categorías básicas: predictibilidad de características e información" (PDF) , Psychological Bulletin , 111 (2): 291–303, doi :10.1037/0033-2909.111.2.291, archivado desde el original (PDF) el 2011-08-10
Edgell, Stephen E. (1993), "Uso de información configuracional y dimensional", en N. John Castellan (ed.), Toma de decisiones individual y grupal: cuestiones actuales , Hillsdale, Nueva Jersey : Lawrence Erlbaum, págs. 43–64
Fisher, Douglas H. (1987), "Adquisición de conocimiento mediante agrupamiento conceptual incremental", Machine Learning , 2 (2): 139–172, doi : 10.1007/BF00114265
Gennari, John H. (1989), "Formación de conceptos enfocados", en Alberto Maria Segre (ed.), Actas del Sexto Taller Internacional sobre Aprendizaje Automático , Ithaca, NY : Morgan Kaufmann, págs. 379–382
Gennari, John H.; Langley, Pat; Fisher, Doug (1989), "Modelos de formación incremental de conceptos", Inteligencia artificial , 40 (1–3): 11–61, doi :10.1016/0004-3702(89)90046-5
Gluck, Mark A.; Corter, James E. (1985), "Información, incertidumbre y la utilidad de las categorías", Programa de la Séptima Conferencia Anual de la Sociedad de Ciencias Cognitivas , pp. 283–287
Hanson, Stephen José; Bauer, Malcolm (1989), "Agrupamiento conceptual, categorización y polimorfismo", Machine Learning , 3 (4): 343–372, doi : 10.1007/BF00116838
Harnad, Stevan (2005), "Conocer es categorizar: La cognición es categorización", en Henri Cohen y Claire Lefebvre (ed.), Handbook of Categorization in Cognitive Science , Ámsterdam: Elsevier, págs. 19-43
Jones, Gregory V. (1983), "Identificación de categorías básicas", Psychological Bulletin , 94 (3): 423–428, doi :10.1037/0033-2909.94.3.423
Kruschke, John K. ; Johansen, Mark K. (1999), "Un modelo de aprendizaje probabilístico de categorías", Journal of Experimental Psychology: Learning, Memory, and Cognition , 25 (5): 1083–1119, doi :10.1037/0278-7393.25.5.1083, PMID 10505339
Mill, John Stuart (1843), Un sistema de lógica, raciocinativo e inductivo: una visión conectada de los principios de la evidencia y los métodos de investigación científica , Londres: Longmans, Green and Co..
Murphy, Gregory L. (1982), "Validez de las señales y niveles de categorización", Psychological Bulletin , 91 (1): 174–177, doi :10.1037/0033-2909.91.1.174
Reed, Stephen K. (1972), "Reconocimiento de patrones y categorización", Psicología cognitiva , 3 (3): 382–407, doi :10.1016/0010-0285(72)90014-x
Rosch, Eleanor (1978), "Principios de categorización", en Eleanor Rosch y Barbara B. Lloyd (ed.), Cognición y categorización , Hillsdale, Nueva Jersey : Lawrence Erlbaum, págs. 27-48
Rosch, Eleanor; Mervis, Carolyn B. (1975), "Semejanzas familiares: estudios sobre la estructura interna de las categorías", Cognitive Psychology , 7 (4): 573–605, doi :10.1016/0010-0285(75)90024-9, S2CID 17258322
Smith, Edward E.; Medin, Douglas L. (1981), Categorías y conceptos , Cambridge, MA : Harvard University Press
Witten, Ian H.; Frank, Eibe (2005), Minería de datos: herramientas y técnicas prácticas de aprendizaje automático, Ámsterdam: Morgan Kaufmann