Content of the World Wide Web that is not indexed by search engines
La web profunda , [1] la web invisible , [2] o la web oculta [3] son partes de la World Wide Web cuyos contenidos no están indexados por los programas de motores de búsqueda web estándar . [4] Esto contrasta con la " web superficial ", a la que puede acceder cualquier persona que utilice Internet. [5] Se atribuye al científico informático Michael K. Bergman la invención del término en 2001 como término de indexación de búsqueda. [6]
Se puede acceder a los sitios de la deep web mediante una URL directa o una dirección IP , pero pueden requerir el ingreso de una contraseña u otra información de seguridad para acceder al contenido real. [7] [8] Los usos de los sitios de la deep web incluyen el correo web , la banca en línea , el almacenamiento en la nube , las páginas y perfiles de redes sociales de acceso restringido y los foros web que requieren registro para ver el contenido. También incluye servicios de pago como el video a pedido y algunas revistas y periódicos en línea.
Terminología
La primera fusión de los términos "deep web" y " dark web " ocurrió durante 2009, cuando se discutió la terminología de búsqueda de la deep web junto con las actividades ilegales que ocurrían en Freenet y la darknet . [9] Esas actividades delictivas incluyen el comercio de contraseñas personales , documentos de identidad falsos , drogas , armas de fuego y pornografía infantil . [10]
Desde entonces, después de su uso en los informes de los medios de comunicación sobre el sitio web del mercado negro Silk Road , los medios de comunicación generalmente han utilizado "deep web" como sinónimo de la red oscura o darknet , una comparación que algunos rechazan por inexacta [11] y, en consecuencia, se ha convertido en una fuente constante de confusión. [12] Los periodistas de Wired Kim Zetter [13] y Andy Greenberg [14] recomiendan que los términos se utilicen de formas distintas. Mientras que la red profunda es una referencia a cualquier sitio al que no se puede acceder mediante un motor de búsqueda tradicional, la red oscura es una parte de la red profunda que se ha ocultado intencionalmente y es inaccesible para los navegadores y métodos estándar. [15] [16] [17] [18] [19] [ citas excesivas ]
Contenido no indexado
Bergman, en un artículo sobre la web profunda publicado en The Journal of Electronic Publishing , mencionó que Jill Ellsworth utilizó el término Web invisible en 1994 para referirse a sitios web que no estaban registrados en ningún motor de búsqueda. [20] Bergman citó un artículo de enero de 1996 de Frank García: [21]
Sería un sitio que posiblemente esté razonablemente diseñado, pero no se molestaron en registrarlo en ninguno de los motores de búsqueda. ¡Así que nadie puede encontrarlos! Estás oculto. Yo lo llamo la Web invisible.
Otro uso temprano del término Web Invisible fue realizado por Bruce Mount y Matthew B. Koll de Personal Library Software , en una descripción del programa N° 1 de la Web Profunda que se encontró en un comunicado de prensa de diciembre de 1996. [22]
El primer uso del término específico deep web , ahora generalmente aceptado, ocurrió en el estudio de Bergman de 2001 antes mencionado. [20]
Métodos de indexación
Los métodos que impiden que los motores de búsqueda tradicionales indexen las páginas web pueden clasificarse como uno o más de los siguientes:
- Web contextual : páginas con contenido que varía según los diferentes contextos de acceso (por ejemplo, rangos de direcciones IP de clientes o secuencia de navegación anterior).
- Contenido dinámico : páginas dinámicas , que se devuelven en respuesta a una consulta enviada o a las que se accede solo a través de un formulario, especialmente si se utilizan elementos de entrada de dominio abierto (como campos de texto); dichos campos son difíciles de navegar sin conocimiento del dominio .
- Contenido de acceso limitado : sitios que limitan el acceso a sus páginas de manera técnica (por ejemplo, utilizando el Estándar de Exclusión de Robots o CAPTCHAs , o la directiva no-store, que prohíbe a los motores de búsqueda navegar por ellos y crear copias en caché ). [23] Los sitios pueden presentar un motor de búsqueda interno para explorar dichas páginas. [24] [25]
- Contenido que no es HTML/texto : contenido textual codificado en archivos multimedia (imágenes o vídeos) o formatos de archivos específicos no reconocidos por los motores de búsqueda.
- Web privada : sitios que requieren registro e inicio de sesión (recursos protegidos con contraseña).
- Contenido scriptizado : páginas a las que solo se puede acceder mediante enlaces producidos mediante JavaScript , así como contenido descargado dinámicamente desde servidores web mediante soluciones Flash o Ajax .
- Software : ciertos contenidos se ocultan intencionalmente de la Internet normal y solo se puede acceder a ellos con un software especial, como Tor , I2P u otro software de la red oscura. Por ejemplo, Tor permite a los usuarios acceder a sitios web utilizando la dirección del servidor .onion de forma anónima, ocultando su dirección IP.
- Contenido sin enlaces : páginas que no tienen enlaces a otras páginas, lo que puede impedir que los programas de rastreo web accedan al contenido. Este contenido se conoce como páginas sin enlaces entrantes (también conocidas como enlaces entrantes). Además, los motores de búsqueda no siempre detectan todos los enlaces entrantes de las páginas web buscadas.
- Archivos web : los servicios de archivo web como Wayback Machine permiten a los usuarios ver versiones archivadas de páginas web a lo largo del tiempo, incluidos sitios web que se han vuelto inaccesibles y no están indexados por motores de búsqueda como Google. [6] Wayback Machine puede considerarse un programa para ver la web profunda, ya que los archivos web que no son del presente no se pueden indexar, ya que las versiones anteriores de los sitios web son imposibles de ver mediante una búsqueda. Todos los sitios web se actualizan en algún momento, por lo que los archivos web se consideran contenido de la web profunda. [26]
Tipos de contenido
Si bien no siempre es posible descubrir directamente el contenido de un servidor web específico para poder indexarlo, potencialmente se puede acceder a un sitio de forma indirecta (debido a vulnerabilidades informáticas ).
Para descubrir contenido en la web, los motores de búsqueda utilizan rastreadores web que siguen hipervínculos a través de números de puerto virtual de protocolo conocidos . Esta técnica es ideal para descubrir contenido en la web superficial pero a menudo es ineficaz para encontrar contenido de la web profunda. Por ejemplo, estos rastreadores no intentan encontrar páginas dinámicas que sean el resultado de consultas a bases de datos debido al número indeterminado de consultas que son posibles. [6] Se ha observado que esto se puede superar (parcialmente) proporcionando enlaces a los resultados de las consultas, pero esto podría inflar involuntariamente la popularidad de un sitio de la web profunda.
DeepPeep , Intute , Deep Web Technologies , Scirus y Ahmia.fi son algunos de los motores de búsqueda que han accedido a la web profunda. Intute se quedó sin financiación y ahora es un archivo estático temporal desde julio de 2011. [27] Scirus se retiró a finales de enero de 2013. [28]
Los investigadores han estado explorando cómo se puede rastrear la web profunda de manera automática, incluido el contenido al que solo se puede acceder mediante un software especial como Tor . En 2001, Sriram Raghavan y Héctor García-Molina (Departamento de Ciencias de la Computación de Stanford, Universidad de Stanford) [29] [30] presentaron un modelo arquitectónico para un rastreador web oculto que usaba términos importantes proporcionados por los usuarios o recopilados de las interfaces de consulta para consultar un formulario web y rastrear el contenido de la web profunda. Alexandros Ntoulas, Petros Zerfos y Junghoo Cho de UCLA crearon un rastreador web oculto que generaba automáticamente consultas significativas para emitir contra formularios de búsqueda. [31] Se han propuesto varios lenguajes de consulta de formularios (por ejemplo, DEQUEL [32] ) que, además de emitir una consulta, también permiten la extracción de datos estructurados de las páginas de resultados. Otro esfuerzo es DeepPeep, un proyecto de la Universidad de Utah patrocinado por la Fundación Nacional de Ciencias , que reunió fuentes web ocultas (formularios web) en diferentes dominios basados en nuevas técnicas de rastreo enfocadas. [33] [34]
Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la web profunda. El Protocolo Sitemap (desarrollado por primera vez e introducido por Google en 2005) y OAI-PMH son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos de la web profunda en servidores web específicos. Ambos mecanismos permiten a los servidores web anunciar las URL a las que se puede acceder en ellos, lo que permite el descubrimiento automático de recursos que no están vinculados directamente a la web superficial. El sistema de navegación en la web profunda de Google calcula los envíos para cada formulario HTML y agrega las páginas HTML resultantes al índice del motor de búsqueda de Google. Los resultados que aparecen representan mil consultas por segundo al contenido de la web profunda. [35] En este sistema, el cálculo previo de los envíos se realiza utilizando tres algoritmos:
- seleccionar valores de entrada para entradas de búsqueda de texto que aceptan palabras clave,
- identificar entradas que solo aceptan valores de un tipo específico (por ejemplo, fecha) y
- seleccionar un pequeño número de combinaciones de entrada que generan URL adecuadas para su inclusión en el índice de búsqueda web.
En 2008, para facilitar a los usuarios de los servicios ocultos de Tor el acceso y la búsqueda de un sufijo .onion oculto , Aaron Swartz diseñó Tor2web , una aplicación proxy capaz de proporcionar acceso mediante navegadores web comunes. [36] Usando esta aplicación, los enlaces de la deep web aparecen como una secuencia aleatoria de letras seguidas por el dominio de nivel superior .onion .
Véase también
Referencias
- ^ Hamilton, Nigel (2019-2020). "La mecánica de un metabuscador de Deep Net". En Isaías, Pedro; Palma dos Reis, António (eds.). Actas de la Conferencia Internacional de IADIS sobre e-Sociedad . Prensa IADIS. págs. 1034–6. CiteSeerX 10.1.1.90.5847 . ISBN 978-972-98947-0-1.
- ^ Devine, Jane; Egger-Sider, Francine (agosto de 2021). "Más allá de Google: la web invisible en la biblioteca académica". The Journal of Academic Librarianship . 30 (4): 265–269. doi :10.1016/j.acalib.2004.04.010.
- ^ Raghavan, Sriram; Garcia-Molina, Hector (11–14 de septiembre de 2001). "Rastreando la Web oculta". 27.ª Conferencia internacional sobre bases de datos de gran tamaño .
- ^ Maor, Etay. "Council Post: Lecciones aprendidas al rastrear la evolución del cibercrimen en la Dark Web". Forbes . Consultado el 22 de septiembre de 2024 .
- ^ "Surface Web". Computer Hope . Consultado el 20 de junio de 2018 .
- ^ abc Wright, Alex (22 de febrero de 2009). "Explorando una 'Web profunda' que Google no puede comprender". The New York Times . Consultado el 2 de septiembre de 2019.
[...] Mike Bergman, un científico informático y consultor a quien se le atribuye haber acuñado el término Deep Web.
- ^ Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A. y Halevy, A. (2008). El rastreo de la web profunda de Google. Actas del VLDB Endowment, 1(2), 1241–52.
- ^ Shedden, Sam (8 de junio de 2014). "¿Cómo quieres que lo haga? ¿Tiene que parecer un accidente? Un asesino que vende un éxito en la red; revelado en la Deep Web". Sunday Mail . Archivado desde el original el 1 de marzo de 2020.
- ^ Beckett, Andy (26 de noviembre de 2009). «El lado oscuro de Internet» . Consultado el 9 de agosto de 2015 .
- ^ Día D. La captura más fácil: no seas otro pez en la red oscura. Universidad Wake Forest: Charlas TEDx . Archivado del original el 13 de noviembre de 2021.
- ^ "Aclarando la confusión: la Deep Web frente a la Dark Web". BrightPlanet. 27 de marzo de 2014.
- ^ Solomon, Jane (6 de mayo de 2015). «The Deep Web vs. The Dark Web» (La Web profunda frente a la Web oscura) . Consultado el 26 de mayo de 2015 .
- ^ Personal de NPR (25 de mayo de 2014). "Going Dark: The Internet Behind The Internet" (Oscurecimiento: Internet detrás de Internet) . Consultado el 29 de mayo de 2015 .
- ^ Greenberg, Andy (19 de noviembre de 2014). "Hacker Lexicon: What Is the Dark Web?" (Léxico hacker: ¿qué es la Dark Web?) . Consultado el 6 de junio de 2015 .
- ^ "El impacto de la Dark Web en la gobernanza de Internet y la ciberseguridad" (PDF) . 20 de enero de 2014. Archivado desde el original (PDF) el 16 de enero de 2017. Consultado el 15 de enero de 2017 .
- ^ Lam, Kwok-Yan; Chi, Chi-Hung; Qing, Sihan (23 de noviembre de 2016). Seguridad de la información y las comunicaciones: 18.ª conferencia internacional, ICICS 2016, Singapur, Singapur, 29 de noviembre – 2 de diciembre de 2016, Actas. Springer. ISBN 9783319500119. Recuperado el 15 de enero de 2017 .
- ^ "La Deep Web frente a la Dark Web | Blog de Dictionary.com". Blog de Dictionary. 6 de mayo de 2015. Consultado el 15 de enero de 2017 .
- ^ Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser (1 de enero de 2017). Investigación de inteligencia de fuentes abiertas: de la estrategia a la implementación. Springer. ISBN 9783319476711. Recuperado el 15 de enero de 2017 .
- ^ "¿Qué es la red oscura y quién la utiliza?". The Globe and Mail . Consultado el 15 de enero de 2017 .
- ^ ab Bergman, Michael K (agosto de 2001). "La Web profunda: sacando a la luz el valor oculto". The Journal of Electronic Publishing . 7 (1). doi : 10.3998/3336451.0007.104 . hdl : 2027/spo.3336451.0007.104 .
- ^ García, Frank (enero de 1996). «Negocios y marketing en Internet». Cabecera . 15 (1). Archivado desde el original el 5 de diciembre de 1996 . Consultado el 24 de febrero de 2009 .
- ^ @1 comenzó con 5,7 terabytes de contenido, que se estima que es 30 veces el tamaño de la naciente World Wide Web; PLS fue adquirido por AOL en 1998 y @1 fue abandonado. "PLS presenta AT1, el primer servicio de búsqueda en Internet de 'segunda generación'" (Nota de prensa). Personal Library Software. Diciembre de 1996. Archivado desde el original el 21 de octubre de 1997 . Consultado el 24 de febrero de 2009 .
- ^ Fielding, R.; Nottingham, M.; Reschke, J. (2014). Fielding, R.; Nottingham, M.; Reschke, J. (eds.). "Protocolo de transferencia de hipertexto (HTTP/1.1): almacenamiento en caché". Grupo de trabajo de ingeniería de Internet . doi :10.17487/RFC7234 . Consultado el 30 de julio de 2014 .
- ^ Especial:Buscar
- ^ "Búsqueda en Internet Archive".
- ^ Wiener-Bronner, Danielle (10 de junio de 2015). "La NASA está indexando la 'Deep Web' para mostrarle a la humanidad lo que Google no mostrará". Fusion. Archivado desde el original el 30 de junio de 2015. Consultado el 27 de junio de 2015. Ya hay otras versiones más sencillas de Memex disponibles .
"Si alguna vez ha utilizado la Wayback Machine de Internet Archive", que le ofrece versiones anteriores de un sitio web al que no se puede acceder a través de Google, entonces técnicamente ha buscado en la Deep Web, dijo
Chris Mattmann
.
- ^ "Preguntas frecuentes de Intute, enlace inactivo" . Consultado el 13 de octubre de 2012 .
- ^ "Elsevier retirará su motor de búsqueda de divulgación científica". library.bldrdoc.gov . Diciembre de 2013. Archivado desde el original el 23 de junio de 2015 . Consultado el 22 de junio de 2015 .
Para finales de enero de 2014, Elsevier dejará de utilizar Scirus, su motor de búsqueda de divulgación científica gratuito. Scirus ha sido una herramienta de investigación de amplio alcance, con más de 575 millones de artículos indexados para búsquedas, incluidas páginas web, artículos preimpresos, patentes y repositorios.
- ^ Sriram Raghavan; Garcia-Molina, Hector (2000). "Crawling the Hidden Web" (PDF) . Informe técnico de Stanford Digital Libraries. Archivado desde el original (PDF) el 8 de mayo de 2018 . Consultado el 27 de diciembre de 2008 .
- ^ Raghavan, Sriram; Garcia-Molina, Hector (2001). "Rastreando la Web oculta" (PDF) . Actas de la 27.ª Conferencia internacional sobre bases de datos de gran tamaño (VLDB) . pp. 129–38.
- ^ Alexandros, Ntoulas; Zerfos, Petros; Cho, Junghoo (2005). "Descarga de contenido web oculto" (PDF) . UCLA Computer Science . Consultado el 24 de febrero de 2009 .
- ^ Shestakov, Denis; Bhowmick, Sourav S.; Lim, Ee-Peng (2005). "DEQUE: Consultas en la Web profunda" (PDF) . Ingeniería de datos y conocimiento . 52 (3): 273–311. doi :10.1016/S0169-023X(04)00107-7.
- ^ Barbosa, Luciano; Freire, Juliana (2007). Un rastreador adaptativo para localizar puntos de entrada ocultos en la Web (PDF) . Conferencia WWW 2007. Archivado desde el original (PDF) el 5 de junio de 2011 . Consultado el 20 de marzo de 2009 .
- ^ Barbosa, Luciano; Freire, Juliana (2005). Búsqueda de bases de datos ocultas en la Web (PDF) . WebDB 2005. Archivado desde el original (PDF) el 5 de junio de 2011 . Consultado el 20 de marzo de 2009 .
- ^ Madhavan, Jayant; Ko, David; Kot, Łucja; Ganapathy, Vignesh; Rasmussen, Alex; Halevy, Alon (2008). Google's Deep-Web Crawl (PDF) . PVLDB '08, 23-28 de agosto de 2008, Auckland, Nueva Zelanda. Fundación VLDB, ACM. Archivado desde el original (PDF) el 16 de septiembre de 2012 . Consultado el 17 de abril de 2009 .
- ^ Aaron, Swartz. "En defensa del anonimato" . Consultado el 4 de febrero de 2014 .
Lectura adicional
- Barker, Joe (enero de 2004). «La Web invisible: qué es, por qué existe, cómo encontrarla y su ambigüedad inherente». Talleres sobre Internet de la biblioteca docente de la Universidad de California, Berkeley. Archivado desde el original el 29 de julio de 2005. Consultado el 26 de julio de 2011 ..
- Basu, Saikat (14 de marzo de 2010). "10 motores de búsqueda para explorar la Web invisible". MakeUseOf.com..
- Ozkan, Akin (noviembre de 2014). «Deep Web/Derin Internet». Archivado desde el original el 8 de noviembre de 2014. Consultado el 6 de noviembre de 2014 ..
- Gruchawka, Steve (junio de 2006). "Guía práctica para la Deep Web". Archivado desde el original el 5 de enero de 2014. Consultado el 28 de febrero de 2007 ..
- Hamilton, Nigel (2003). "La mecánica de un metabuscador de la Deep Web". 12.ª Conferencia Mundial sobre la Web..
- He, Bin; Chang, Kevin Chen-Chuan (2003). "Coincidencia de esquemas estadísticos en interfaces de consulta web" (PDF) . Actas de la Conferencia internacional ACM SIGMOD de 2003 sobre gestión de datos . Archivado desde el original (PDF) el 20 de julio de 2011.
- Howell O'Neill, Patrick (octubre de 2013). "Cómo buscar en la Deep Web". The Daily Dot ..
- Ipeirotis, Panagiotis G.; Gravano, Luis; Sahami, Mehran (2001). "Probe, Count, and Classify: Categorizing Hidden-Web Databases" (PDF) . Actas de la Conferencia Internacional ACM SIGMOD de 2001 sobre Gestión de Datos . págs. 67–78. Archivado desde el original (PDF) el 12 de septiembre de 2006 . Consultado el 26 de septiembre de 2006 .
- King, John D.; Li, Yuefeng; Tao, Daniel; Nayak, Richi (noviembre de 2007). "Explotación del conocimiento mundial para el análisis del contenido de los motores de búsqueda" (PDF) . Web Intelligence and Agent Systems . 5 (3): 233–53. Archivado desde el original (PDF) el 3 de diciembre de 2008 . Consultado el 26 de julio de 2011 .
- McCown, Frank; Liu, Xiaoming; Nelson, Michael L.; Zubair, Mohammad (marzo-abril de 2006). "Cobertura de motores de búsqueda del corpus OAI-PMH" (PDF) . IEEE Internet Computing . 10 (2): 66–73. doi :10.1109/MIC.2006.41. S2CID 15511914.
- Price, Gary; Sherman, Chris (julio de 2001). La Web invisible: cómo descubrir fuentes de información que los motores de búsqueda no pueden ver . CyberAge Books. ISBN 978-0-910965-51-4.
- Shestakov, Denis (junio de 2008). Interfaces de búsqueda en la Web: consulta y caracterización . Tesis doctorales TUCS 104, Universidad de Turku
- Whoriskey, Peter (11 de diciembre de 2008). "Las empresas presionan para que la Web federal sea más fácil de buscar". The Washington Post . p. D01.
- Wright, Alex (marzo de 2004). "En busca de la Deep Web". Salon . Archivado desde el original el 9 de marzo de 2007..
- Científicos al desnudo (diciembre de 2014). “Internet: lo bueno, lo malo y lo feo: exploración en profundidad de Internet y la Dark Web a cargo de los científicos al desnudo de la Universidad de Cambridge” (podcast).
- King, John D. (julio de 2009). Análisis de contenido de motores de búsqueda (PDF) (tesis). Queensland University of Technology.
Enlaces externos
- Medios relacionados con la Deep Web en Wikimedia Commons
- La definición del diccionario de deep web en Wikcionario