El juego ESP ( juego de percepción extrasensorial ) es un juego de computación basado en humanos desarrollado para abordar el problema de crear metadatos difíciles . La idea detrás del juego es usar el poder computacional de los humanos para realizar una tarea que las computadoras no pueden (originalmente, el reconocimiento de imágenes ) al empaquetar la tarea como un juego . Fue concebido originalmente por Luis von Ahn de la Universidad Carnegie Mellon y publicado por primera vez en línea en 2003. [1] Google compró una licencia para crear su propia versión del juego ( Google Image Labeler ) en 2006 con el fin de devolver mejores resultados de búsqueda para sus imágenes en línea. [2] La licencia de los datos adquiridos por el juego ESP de Ahn , o la versión de Google, no está clara. [ aclaración necesaria ] La versión de Google se cerró el 16 de septiembre de 2011, como parte del cierre de Google Labs en septiembre de 2011.
El reconocimiento de imágenes era, históricamente, una tarea difícil de realizar para las computadoras de forma independiente. Los humanos son perfectamente capaces de hacerlo, pero no necesariamente están dispuestos a hacerlo. Al convertir la tarea de reconocimiento en un "juego", es más probable que las personas participen. Cuando se les preguntó cuánto disfrutaban jugando, los datos recopilados de los usuarios fueron extremadamente positivos.
Las aplicaciones y usos de tener tantas imágenes etiquetadas son importantes; por ejemplo, una búsqueda de imágenes más precisa y una accesibilidad para usuarios con discapacidad visual, al leer las etiquetas de una imagen. Si dos personas se asocian para etiquetar imágenes, es más probable que las palabras ingresadas sean precisas. Dado que lo único que tienen en común los dos socios es que ambos ven la misma imagen, deben ingresar etiquetas razonables para tener alguna posibilidad de ponerse de acuerdo sobre una.
El juego ESP, tal como está implementado actualmente, anima a los jugadores a asignar etiquetas "obvias", que tienen más probabilidades de llevar a un acuerdo con la pareja. Pero estas etiquetas a menudo se pueden deducir de las etiquetas ya presentes utilizando un modelo de lenguaje adecuado y, por lo tanto, dichas etiquetas agregan poca información al sistema. Un proyecto de investigación de Microsoft asigna probabilidades a la siguiente etiqueta que se agregará. Este modelo se utiliza luego en un programa que juega al juego ESP sin mirar la imagen. [3]
Los autores del juego ESP presentaron evidencia de que las etiquetas producidas mediante el juego eran, en efecto, descripciones útiles de las imágenes. Se presentaron los resultados de la búsqueda de palabras clave elegidas al azar y se demostró que la proporción de imágenes apropiadas cuando se busca utilizando las etiquetas generadas por el juego es extremadamente alta. Se logró una evaluación adicional comparando las etiquetas generadas mediante el juego con las etiquetas generadas por los participantes a quienes se les pidió que describieran las imágenes.
Una vez que el usuario inicia sesión, se le asigna automáticamente una pareja al azar. Las parejas no conocen la identidad del otro y no pueden comunicarse. Una vez que se les asigna una pareja, se les muestra a ambos la misma imagen. Su tarea es ponerse de acuerdo sobre una palabra que sería una etiqueta apropiada para la imagen. Ambos introducen palabras posibles y, una vez que ambos miembros de la pareja introducen una palabra (no necesariamente al mismo tiempo), se acuerda esa palabra y se convierte en una etiqueta para la imagen. Una vez que se ponen de acuerdo sobre una palabra, se les muestra otra imagen. Tienen dos minutos y medio para etiquetar 15 imágenes.
Ambos miembros de la pareja tienen la opción de pasar, es decir, renunciar a una imagen. Una vez que uno de los miembros de la pareja pasa, se le muestra al otro un mensaje indicando que su pareja desea pasar. Ambos miembros de la pareja deben pasar para que se muestre una nueva imagen.
Algunas imágenes tienen palabras "tabú", es decir, palabras que no se pueden introducir como posibles etiquetas. Estas palabras suelen estar relacionadas con la imagen y hacen que el juego sea más difícil, ya que impiden que se utilicen palabras comunes para etiquetar la imagen. Las palabras tabú se obtienen del propio juego. La primera vez que se utiliza una imagen en el juego, no tendrá palabras tabú. Si la imagen se vuelve a utilizar, tendrá una palabra tabú: la palabra resultante del acuerdo anterior. La próxima vez que se utilice la imagen, tendrá dos palabras tabú, y así sucesivamente. El sistema se encarga de la selección de palabras "tabú" de forma automática: una vez que una imagen ha sido etiquetada suficientes veces con la misma palabra, esa palabra se convierte en tabú, de modo que la imagen recibirá una variedad de palabras diferentes como etiquetas.
En ocasiones, el juego se jugará en solitario, sin un compañero humano, y el propio juego ESP actuará como oponente y entregará una serie de etiquetas predeterminadas al jugador humano individual (que se han obtenido de las etiquetas dadas a la imagen durante el transcurso de juegos anteriores jugados por humanos reales). Esto es necesario si hay un número impar de personas jugando el juego. [4]
A finales de 2008, el juego fue rebautizado como GWAP ("juego con un propósito"), con una nueva interfaz de usuario. Algunos otros juegos que también fueron creados por Luis von Ahn, como "Peekaboom" y " Phetch ", fueron descontinuados en ese momento. Este juego ha sido utilizado como un ejemplo importante de Máquina Social con un Propósito (máquina social teleológica), proporcionando un ejemplo de un sistema inteligente que surge de la interacción de los participantes humanos en el libro "El atajo" de Nello Cristianini , [5] donde se discute la inteligencia de las plataformas de redes sociales.
Ahn ha descrito contramedidas que impiden que los jugadores "hagan trampas" en el juego e introduzcan datos falsos en el sistema. Al proporcionarles a los jugadores imágenes de prueba ocasionales para las que se conocen etiquetas comunes, es posible verificar que los jugadores responden honestamente y las suposiciones de un jugador solo se almacenan si etiquetan correctamente las imágenes de prueba. [6]
Además, una etiqueta sólo se almacena después de que un cierto número de jugadores (N) se hayan puesto de acuerdo sobre ella. En este punto, todas las listas de tabú [ aclaración necesaria ] para las imágenes se eliminan y la imagen se devuelve al grupo de juego como si fuera una imagen nueva. Si X es la probabilidad de que una etiqueta sea incorrecta a pesar de que un jugador haya etiquetado correctamente las imágenes de prueba, entonces después de N repeticiones la probabilidad de corrupción es , suponiendo que las repeticiones finales son independientes entre sí. [6]
La elección de imágenes que utiliza el juego ESP marca la diferencia en la experiencia del jugador. El juego sería menos entretenido si todas las imágenes se eligieran de un único sitio y fueran todas extremadamente similares.
La primera ejecución del juego ESP utilizó una colección de 350.000 imágenes elegidas por los desarrolladores. Las versiones posteriores seleccionaron imágenes al azar de la web, utilizando una pequeña cantidad de filtros. Dichas imágenes se reintrodujeron en el juego varias veces hasta que están completamente etiquetadas. [7] Las imágenes aleatorias se eligieron utilizando "Random Bounce Me", un sitio web que selecciona una página al azar de la base de datos de Google. "Random Bounce Me" se consultó repetidamente, cada vez recopilando todas las imágenes JPEG y GIF en la página aleatoria, excepto las imágenes que no se ajustaban a los criterios: imágenes en blanco, imágenes que consisten en un solo color, imágenes que son más pequeñas que 20 píxeles en cualquier dimensión e imágenes con una relación de aspecto mayor que 4,5 o menor que 1/4,5. Este proceso se repitió hasta que se recopilaron 350.000 imágenes. Luego, las imágenes se reescalaron para adaptarse a la pantalla del juego. Se eligen quince imágenes diferentes de las 350.000 para cada sesión del juego.
{{cite book}}
: Mantenimiento de CS1: falta la ubicación del editor ( enlace )