El Gráfico de conocimiento de Google es una base de conocimiento desde la que Google ofrece información relevante en un cuadro de información junto a sus resultados de búsqueda . Esto permite al usuario ver la respuesta de un vistazo, como una respuesta instantánea . Los datos se generan automáticamente a partir de una variedad de fuentes, que abarcan lugares, personas, empresas y más. [1] [2]
La información que cubre el Knowledge Graph de Google creció rápidamente después del lanzamiento, triplicando su tamaño de datos en siete meses (cubriendo 570 millones de entidades y 18 mil millones de hechos [3] ). A mediados de 2016, Google informó que tenía 70 mil millones de hechos [4] y respondió "aproximadamente un tercio" de los 100 mil millones de búsquedas mensuales que manejaba. Para mayo de 2020, esto había crecido a 500 mil millones de hechos sobre 5 mil millones de entidades. [5]
No existe documentación oficial sobre cómo se implementa Google Knowledge Graph. [6] Según Google, su información se recupera de muchas fuentes, incluido el CIA World Factbook y Wikipedia . [7] Se utiliza para responder preguntas habladas directas en Google Assistant [8] [9] y consultas de voz de Google Home . [10] Ha sido criticado por proporcionar respuestas sin atribución de fuente ni citas . [11]
Google anunció su Knowledge Graph el 16 de mayo de 2012, como una forma de mejorar significativamente el valor de la información devuelta por las búsquedas de Google. [7] Inicialmente disponible solo en inglés, se amplió en diciembre de 2012 a español , francés , alemán , portugués , japonés , ruso e italiano . [12] El soporte para bengalí se agregó en marzo de 2017. [13]
El Knowledge Graph fue desarrollado en parte por Freebase . [7]
En agosto de 2014, New Scientist informó que Google había lanzado un proyecto de Knowledge Vault . [14] Después de la publicación, Google se puso en contacto con Search Engine Land para explicar que Knowledge Vault era un informe de investigación, no un servicio activo de Google. Search Engine Land expresó indicios de que Google estaba experimentando con "numerosos modelos" para recopilar significados del texto. [15]
El Knowledge Vault de Google se creó para trabajar con datos, reuniendo y fusionando automáticamente información de Internet en una base de conocimiento capaz de responder a preguntas directas, como "¿Dónde nació Madonna ?". En un informe de 2014, se informó que el Vault había recopilado más de 1.600 millones de datos, 271 millones de los cuales se consideraban "datos fiables" que se consideraban verdaderos en más del 90 %. Se informó que se diferenciaba del Knowledge Graph en que recopilaba información automáticamente en lugar de depender de datos recopilados por humanos de forma colectiva. [15]
Un panel de conocimiento de Google [16], que forma parte de las páginas de resultados del motor de búsqueda de Google, presenta una descripción general de entidades como individuos, organizaciones, ubicaciones u objetos directamente dentro de la interfaz de búsqueda. Esta función utiliza datos de Google Knowledge Graph [17] , una extensa base de datos que organiza e interconecta información sobre entidades, lo que mejora la recuperación y presentación de contenido relevante para los usuarios.
En mayo de 2016, los cuadros de conocimiento aparecían en "aproximadamente un tercio" de los 100 mil millones de búsquedas mensuales que procesaba la empresa. [11] Dario Taraborelli, jefe de investigación de la Fundación Wikimedia , dijo a The Washington Post que la omisión de fuentes por parte de Google en sus cuadros de conocimiento "socava la capacidad de las personas de verificar la información y, en última instancia, de desarrollar opiniones bien informadas". La publicación también informó que los cuadros "con frecuencia no tienen atribución", como un cuadro de conocimiento sobre la edad de la actriz Betty White , que es "tan carente de fuentes y tan absoluto como si lo hubiera transmitido Dios". [11]
Según The Register, en 2014 la visualización de respuestas directas en paneles de conocimiento junto con los resultados de búsqueda de Google provocó una importante disminución de lectores para Wikipedia , de la que los paneles obtenían parte de su información. [18] También en 2014, The Daily Dot señaló que "Wikipedia todavía no tiene un competidor real en lo que respecta al contenido real. Todo lo que está en juego son las estadísticas de tráfico. Y como organización sin fines de lucro, las cifras de tráfico no equivalen a ingresos de la misma manera que lo hacen para un sitio de medios comerciales". Después de la publicación del artículo, un portavoz de la Fundación Wikimedia , que opera Wikipedia, declaró que "da la bienvenida" a la funcionalidad del panel de conocimiento, que estaba "investigando" las caídas de tráfico y que "Tampoco hemos notado una caída significativa en las referencias de los motores de búsqueda. También tenemos un diálogo continuo con el personal de Google que trabaja en el Panel de conocimiento". [19]
En su libro de 2020, Dariusz Jemielniak señaló que, como la mayoría de los usuarios de Google no se dan cuenta de que muchas de las respuestas a sus preguntas que aparecen en el Gráfico de conocimiento provienen de Wikipedia, esto reduce la popularidad de Wikipedia y, a su vez, limita la capacidad del sitio para recaudar nuevos fondos y atraer nuevos voluntarios. [20]
El algoritmo ha sido criticado por presentar información sesgada o inexacta, generalmente debido a que obtiene información de sitios web con una alta optimización para motores de búsqueda . En 2014 se observó que, si bien había un gráfico de conocimiento para la mayoría de las figuras religiosas históricas o pseudohistóricas importantes, como Moisés , Mahoma y Gautama Buda , no había ninguno para Jesús , la figura central del cristianismo . [21] [22] El 3 de junio de 2021, un cuadro de conocimiento identificó al kannada como el idioma más feo de la India, lo que provocó la indignación de la comunidad de habla kannada; el estado de Karnataka , donde vive la mayoría de los hablantes de kannada, también amenazó con demandar a Google por dañar la imagen pública del idioma. Google cambió rápidamente el fragmento destacado de la consulta de búsqueda y emitió una disculpa formal. [23] [24]
Es un sistema que comprende hechos e información sobre entidades a partir de materiales compartidos en la web, así como de bases de datos de código abierto y con licencia. Ha acumulado más de 500 mil millones de hechos sobre cinco mil millones de entidades.