stringtranslate.com

Alisado aditivo

En estadística , el suavizado aditivo , también llamado suavizado de Laplace [1] o suavizado de Lidstone , es una técnica utilizada para suavizar los datos de conteo, eliminando los problemas causados ​​por ciertos valores que tienen 0 apariciones. Dado un conjunto de recuentos de observaciones de una distribución multinomial dimensional con pruebas, una versión "suavizada" de los recuentos proporciona al estimador

donde el recuento suavizado y el "pseudorecuento" α  > 0 es un parámetro de suavizado , donde α  = 0 corresponde a ningún suavizado (este parámetro se explica en la sección Pseudorecuento a continuación). El suavizado aditivo es un tipo de estimador de contracción , ya que la estimación resultante estará entre la probabilidad empírica ( frecuencia relativa ) y la probabilidad uniforme. Invocando la regla de sucesión de Laplace , algunos autores han argumentado [ cita requerida ] que α debería ser 1 (en cuyo caso también se utiliza el término suavizado adicional [2] [3] ) [ se necesita más explicación ] , aunque en la práctica normalmente se elige un valor menor.

Desde un punto de vista bayesiano , esto corresponde al valor esperado de la distribución posterior , utilizando una distribución de Dirichlet simétrica con el parámetro α como distribución previa . En el caso especial en el que el número de categorías es 2, esto equivale a utilizar una distribución beta como conjugado previo para los parámetros de la distribución binomial .

Historia

A Laplace se le ocurrió esta técnica de suavizado cuando intentó estimar la probabilidad de que el sol saliera mañana. Su razonamiento fue que incluso dada una gran muestra de días con sol naciente, todavía no podemos estar completamente seguros de que el sol seguirá saliendo mañana (lo que se conoce como el problema del amanecer ). [4]

pseudocuenta

Un pseudorecuento es una cantidad (generalmente no un número entero, a pesar de su nombre) que se agrega al número de casos observados para cambiar la probabilidad esperada en un modelo de esos datos, cuando no se sabe que sea cero. Se llama así porque, en términos generales, un pseudorecuento de valor pesa en la distribución posterior de manera similar a que cada categoría tenga un recuento adicional de . Si la frecuencia de cada elemento está fuera de las muestras, la probabilidad empírica del evento es

pero la probabilidad posterior cuando se suaviza aditivamente es

como para aumentar cada conteo a priori.

Dependiendo del conocimiento previo, que a veces es un valor subjetivo, un pseudocuenta puede tener cualquier valor finito no negativo. Sólo puede ser cero (o la posibilidad ignorada) si es imposible por definición, como la posibilidad de que un dígito decimal de π sea una letra, o una posibilidad física que sería rechazada y por lo tanto no contada, como una computadora que imprime una letra. cuando se ejecuta un programa válido para π , o se excluye y no se cuenta porque no tiene interés, como si solo estuviera interesado en los ceros y los unos. Generalmente, también existe la posibilidad de que ningún valor sea computable u observable en un tiempo finito (consulte el problema de la detención ). Pero al menos una posibilidad debe tener un pseudoconteo distinto de cero; de lo contrario, no se podría calcular ninguna predicción antes de la primera observación. Los valores relativos de los pseudocuentas representan las probabilidades relativas previas esperadas de sus posibilidades. La suma de los pseudocuentas, que puede ser muy grande, representa el peso estimado del conocimiento previo comparado con todas las observaciones reales (una para cada) al determinar la probabilidad esperada.

En cualquier conjunto de datos o muestra observados existe la posibilidad, especialmente en el caso de eventos de baja probabilidad y con conjuntos de datos pequeños, de que un posible evento no ocurra. Por tanto, su frecuencia observada es cero, lo que aparentemente implica una probabilidad de cero. Esta simplificación excesiva es inexacta y a menudo inútil, particularmente en técnicas de aprendizaje automático basadas en probabilidades, como las redes neuronales artificiales y los modelos ocultos de Markov . Al ajustar artificialmente la probabilidad de eventos raros (pero no imposibles) para que esas probabilidades no sean exactamente cero, se evitan los problemas de frecuencia cero . Véase también la regla de Cromwell .

El enfoque más simple es agregar uno a cada número observado de eventos, incluidas las posibilidades de conteo cero. A esto a veces se le llama regla de sucesión de Laplace . Este enfoque equivale a asumir una distribución previa uniforme sobre las probabilidades de cada evento posible (que abarca el símplex donde cada probabilidad está entre 0 y 1, y todas suman 1).

Utilizando el enfoque previo de Jeffreys , se debe agregar un pseudocuenta de la mitad a cada resultado posible.

Los pseudocuentas deben establecerse en uno sólo cuando no existe ningún conocimiento previo (consulte el principio de indiferencia) . Sin embargo, dado el conocimiento previo apropiado, la suma debe ajustarse en proporción a la expectativa de que las probabilidades anteriores deben considerarse correctas, a pesar de la evidencia de lo contrario; ver análisis adicional . Los valores más altos son apropiados en la medida en que existe un conocimiento previo de los valores verdaderos (para una moneda en perfecto estado, por ejemplo); valores más bajos en la medida en que existe conocimiento previo de que existe un probable sesgo, pero de grado desconocido (para una moneda doblada, por ejemplo).

Un enfoque más complejo consiste en estimar la probabilidad de los eventos a partir de otros factores y ajustarlos en consecuencia.

Ejemplos

Una forma de motivar pseudoconteos, particularmente para datos binomiales, es mediante una fórmula para el punto medio de una estimación de intervalo , particularmente un intervalo de confianza de proporción binomial . El más conocido se debe a Edwin Bidwell Wilson , en Wilson (1927): el punto medio del intervalo de puntuación de Wilson correspondiente a las desviaciones estándar en cada lado es

Al tomar las desviaciones estándar para aproximar un intervalo de confianza del 95 % ( ), se obtiene un pseudoconteo de 2 para cada resultado, es decir, 4 en total, lo que se conoce coloquialmente como la "regla de más cuatro":

Este es también el punto medio del intervalo Agresti-Coull (Agresti y Coull 1998).

Generalizado al caso de tasas de incidencia conocidas.

A menudo, el sesgo de una población de ensayo desconocida se compara con una población de control con parámetros conocidos (tasas de incidencia) . En este caso, la probabilidad uniforme debe reemplazarse por la tasa de incidencia conocida de la población de control para calcular el estimador suavizado:

Como comprobación de coherencia, si el estimador empírico es igual a la tasa de incidencia, es decir, el estimador suavizado es independiente de la tasa de incidencia y también es igual a ella.

Aplicaciones

Clasificación

El suavizado aditivo suele ser un componente de los clasificadores ingenuos de Bayes .

Modelado de lenguaje estadístico

En un modelo de bolsa de palabras de procesamiento del lenguaje natural y recuperación de información, los datos consisten en el número de apariciones de cada palabra en un documento. El suavizado aditivo permite la asignación de probabilidades distintas de cero a palabras que no aparecen en la muestra. Estudios recientes han demostrado que el suavizado aditivo es más efectivo que otros métodos de suavizado de probabilidad en varias tareas de recuperación, como la retroalimentación de pseudorelevancia basada en modelos de lenguaje y los sistemas de recomendación . [5] [6]

Ver también

Referencias

  1. ^ CD Manning, P. Raghavan y H. Schütze (2008). Introducción a la recuperación de información . Prensa de la Universidad de Cambridge, pág. 260.
  2. ^ Jurafsky, Daniel; Martín, James H. (junio de 2008). Procesamiento del habla y el lenguaje (2ª ed.). Prentice Hall. pag. 132.ISBN​ 978-0-13-187321-6.
  3. ^ Russell, Estuardo; Norvig, Peter (2010). Inteligencia artificial: un enfoque moderno (2ª ed.). Pearson Education, Inc. pág. 863.
  4. ^ Conferencia 5 | Machine Learning (Stanford) a la 1h10m de la conferencia
  5. ^ Hazimeh, Hussein; Zhai, ChengXiang. "Análisis axiomático de métodos de suavizado en modelos de lenguaje para retroalimentación de pseudorelevancia". Actas ICTIR '15 de la Conferencia Internacional de 2015 sobre la Teoría de la Recuperación de Información .
  6. ^ Valcarce, Daniel; Parapar, Javier; Barreiro, Álvaro. "Suavizado aditivo para el modelado de lenguaje basado en relevancia de sistemas de recomendación". CERI '16 Actas del IV Congreso Español de Recuperación de Información .

Fuentes

enlaces externos