stringtranslate.com

Red profunda

La web profunda , [1] la web invisible , [2] o la web oculta [3] son ​​partes de la World Wide Web cuyos contenidos no están indexados por los programas estándar de motores de búsqueda web . Esto contrasta con la " web superficial ", a la que puede acceder cualquier persona que utilice Internet. [4] Al científico informático Michael K. Bergman se le atribuye la invención del término en 2001 como término de indexación de búsqueda. [5]

Se puede acceder a los sitios web profundos mediante una URL directa o una dirección IP , pero es posible que sea necesario ingresar una contraseña u otra información de seguridad para acceder al contenido real. [6] [7] Los usos de los sitios web profundos incluyen correo web , banca en línea , almacenamiento en la nube , perfiles y páginas de redes sociales de acceso restringido y foros web que requieren registro para ver contenido. También incluye servicios de pago , como vídeos a la carta y algunas revistas y periódicos en línea.

Terminología

La primera combinación de los términos "web profunda" y " web oscura " ocurrió durante 2009, cuando se discutió la terminología de búsqueda en la web profunda junto con las actividades ilegales que ocurrían en Freenet y darknet . [8] Esas actividades criminales incluyen el comercio de contraseñas personales, documentos de identidad falsos , drogas, armas de fuego y pornografía infantil . [9]

Desde entonces, después de su uso en los informes de los medios sobre el sitio web del mercado negro Silk Road , los medios de comunicación generalmente han utilizado 'deep web' como sinónimo de dark web o darknet , una comparación que algunos rechazan por inexacta [10] y, en consecuencia, se ha convertido en una fuente constante de confusión. [11] Los reporteros de Wired Kim Zetter [12] y Andy Greenberg [13] recomiendan que los términos se utilicen de distintas maneras. Si bien la web profunda es una referencia a cualquier sitio al que no se puede acceder mediante un motor de búsqueda tradicional, la web oscura es una parte de la web profunda que se ha ocultado intencionalmente y es inaccesible mediante navegadores y métodos estándar. [14] [15] [16] [17] [18]

Contenido no indexado

Bergman, en un artículo sobre la deep web publicado en The Journal of Electronic Publishing , mencionó que Jill Ellsworth utilizó el término Invisible Web en 1994 para referirse a sitios web que no estaban registrados en ningún motor de búsqueda. [19] Bergman citó un artículo de enero de 1996 de Frank García: [20]

Sería un sitio que posiblemente esté razonablemente diseñado, pero no se molestaron en registrarlo en ninguno de los motores de búsqueda. ¡Así que nadie podrá encontrarlos! Estás escondido. A eso lo llamo la Web invisible.

Otro uso temprano del término Invisible Web fue por Bruce Mount y Matthew B. Koll de Personal Library Software , en una descripción del programa No. 1 Deep Web encontrada en un comunicado de prensa de diciembre de 1996. [21]

El primer uso del término específico deep web , ahora generalmente aceptado, se produjo en el citado estudio de Bergman de 2001. [19]

Métodos de indexación

Los métodos que impiden que los motores de búsqueda tradicionales indexen las páginas web pueden clasificarse como uno o más de los siguientes:

  1. Web contextual : páginas con contenido que varía para diferentes contextos de acceso (por ejemplo, rangos de direcciones IP de clientes o secuencia de navegación anterior).
  2. Contenido dinámico : páginas dinámicas , que se devuelven en respuesta a una consulta enviada o a las que se accede únicamente a través de un formulario, especialmente si se utilizan elementos de entrada de dominio abierto (como campos de texto); Estos campos son difíciles de navegar sin conocimiento del dominio .
  3. Contenido de acceso limitado : sitios que limitan el acceso a sus páginas de manera técnica (por ejemplo, utilizando el Estándar de exclusión de robots o CAPTCHA , o directiva de no tienda, que prohíbe a los motores de búsqueda navegar por ellos y crear copias en caché ). [22] Los sitios pueden incluir un motor de búsqueda interno para explorar dichas páginas. [23] [24]
  4. Contenido no HTML/texto : contenido textual codificado en archivos multimedia (imagen o vídeo) o formatos de archivo específicos no reconocidos por los motores de búsqueda.
  5. Web privada : sitios que requieren registro e inicio de sesión (recursos protegidos con contraseña).
  6. Contenido con script : páginas a las que sólo se puede acceder mediante enlaces producidos por JavaScript , así como contenido descargado dinámicamente desde servidores web a través de soluciones Flash o Ajax .
  7. Software : cierto contenido se oculta intencionalmente de Internet normal y solo se puede acceder a él con software especial, como Tor , I2P u otro software de la red oscura. Por ejemplo, Tor permite a los usuarios acceder a sitios web utilizando la dirección del servidor .onion de forma anónima, ocultando su dirección IP.
  8. Contenido no vinculado : páginas que no están vinculadas a otras páginas, lo que puede impedir que los programas de rastreo web accedan al contenido. Este contenido se conoce como páginas sin vínculos de retroceso (también conocidos como vínculos internos). Además, los motores de búsqueda no siempre detectan todos los vínculos de retroceso de las páginas web buscadas.
  9. Archivos web : los servicios de archivo web, como Wayback Machine, permiten a los usuarios ver versiones archivadas de páginas web a lo largo del tiempo, incluidos sitios web que se han vuelto inaccesibles y no están indexados por motores de búsqueda como Google. Wayback Machine puede considerarse un programa para ver la web profunda, ya que los archivos web que no son actuales no se pueden indexar y las versiones anteriores de sitios web no se pueden ver mediante una búsqueda. Todos los sitios web se actualizan en algún momento, razón por la cual los archivos web se consideran contenido de la Deep Web. [25]

Tipos de contenido

Si bien no siempre es posible descubrir directamente el contenido de un servidor web específico para poder indexarlo, potencialmente se puede acceder a un sitio indirectamente (debido a vulnerabilidades informáticas ).

Para descubrir contenido en la web, los motores de búsqueda utilizan rastreadores web que siguen hipervínculos a través de números de puertos virtuales de protocolos conocidos . Esta técnica es ideal para descubrir contenido en la web superficial, pero a menudo resulta ineficaz para encontrar contenido en la web profunda. Por ejemplo, estos rastreadores no intentan encontrar páginas dinámicas que sean el resultado de consultas a bases de datos debido al número indeterminado de consultas posibles. [26] Se ha observado que esto se puede superar (parcialmente) proporcionando enlaces a los resultados de la consulta, pero esto podría inflar involuntariamente la popularidad de un sitio de la web profunda.

DeepPeep , Intute , Deep Web Technologies , Scirus y Ahmia.fi son algunos de los motores de búsqueda que han accedido a la Deep Web. Intute se quedó sin fondos y ahora es un archivo estático temporal en julio de 2011. [27] Scirus se retiró a finales de enero de 2013. [28]

Los investigadores han estado explorando cómo se puede rastrear la web profunda de forma automática, incluido el contenido al que sólo se puede acceder mediante un software especial como Tor . En 2001, Sriram Raghavan y Héctor García-Molina (Departamento de Ciencias de la Computación de Stanford, Universidad de Stanford) [29] [30] presentaron un modelo arquitectónico para un rastreador web oculto que utilizaba términos importantes proporcionados por los usuarios o recopilados de las interfaces de consulta para realizar consultas. un formulario web y rastrear el contenido de la Deep Web. Alexandros Ntoulas, Petros Zerfos y Junghoo Cho de UCLA crearon un rastreador web oculto que generaba automáticamente consultas significativas para emitir en formularios de búsqueda. [31] Se han propuesto varios lenguajes de consulta de formularios (por ejemplo, DEQUEL [32] ) que, además de emitir una consulta, también permiten la extracción de datos estructurados de las páginas de resultados. Otro esfuerzo es DeepPeep, un proyecto de la Universidad de Utah patrocinado por la Fundación Nacional de Ciencias , que recopiló fuentes web ocultas (formularios web) en diferentes dominios basándose en técnicas novedosas de rastreo enfocado. [33] [34]

Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la web profunda. El protocolo Sitemap (desarrollado e introducido por primera vez por Google en 2005) y OAI-PMH son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos de la web profunda en servidores web concretos. Ambos mecanismos permiten a los servidores web anunciar las URL a las que se puede acceder en ellos, permitiendo así el descubrimiento automático de recursos que no están vinculados directamente a la superficie web. El sistema de navegación web profunda de Google calcula los envíos para cada formulario HTML y agrega las páginas HTML resultantes al índice del motor de búsqueda de Google. Los resultados que aparecen representan mil consultas por segundo al contenido de la web profunda. [35] En este sistema, el cálculo previo de las presentaciones se realiza utilizando tres algoritmos:

  1. seleccionar valores de entrada para entradas de búsqueda de texto que acepten palabras clave,
  2. identificar entradas que aceptan sólo valores de un tipo específico (por ejemplo, fecha) y
  3. seleccionar una pequeña cantidad de combinaciones de entrada que generen URL adecuadas para su inclusión en el índice de búsqueda web.

En 2008, para facilitar a los usuarios de los servicios ocultos de Tor el acceso y la búsqueda de un sufijo .onion oculto , Aaron Swartz diseñó Tor2web , una aplicación proxy capaz de proporcionar acceso mediante navegadores web comunes. [36] Al utilizar esta aplicación, los enlaces de la web profunda aparecen como una secuencia aleatoria de letras seguidas del dominio de nivel superior .onion .

Ver también

Referencias

  1. ^ Hamilton, Nigel (2019-2020). "La mecánica de un metabuscador de red profunda". En Isaías, Pedro; Palma dos Reis, António (eds.). Actas de la Conferencia Internacional de IADIS sobre e-Sociedad . págs. 1034–6. CiteSeerX  10.1.1.90.5847 . ISBN 978-972-98947-0-1.
  2. ^ Divina, Jane; Egger-Sider, Francine (agosto de 2021). "Más allá de Google: la web invisible en la biblioteca académica". La Revista de Biblioteconomía Académica . 30 (4): 265–269. doi :10.1016/j.acalib.2004.04.010.
  3. ^ Raghavan, Sriram; García-Molina, Héctor (11 al 14 de septiembre de 2001). "Rastreando la red oculta". 27ª Conferencia Internacional sobre Bases de Datos de Muy Gran Tamaño .
  4. ^ "Web de superficie". Esperanza informática . Consultado el 20 de junio de 2018 .
  5. ^ Wright, Alex (22 de febrero de 2009). "Explorando una 'Web profunda' que Google no puede comprender". Los New York Times . Consultado el 2 de septiembre de 2019 . [...] Mike Bergman, un científico informático y consultor a quien se le atribuye haber acuñado el término Deep Web.
  6. ^ Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A. y Halevy, A. (2008). El rastreo de la web profunda de Google. Actas del VLDB Endowment, 1(2), 1241–52.
  7. ^ Shedden, Sam (8 de junio de 2014). "¿Cómo quieres que lo haga? ¿Tiene que parecer un accidente? Un asesino vendiendo un éxito en la red; revelado dentro de la Deep Web". Correo dominical . Archivado desde el original el 1 de marzo de 2020.
  8. ^ Beckett, Andy (26 de noviembre de 2009). "El lado oscuro de Internet" . Consultado el 9 de agosto de 2015 .
  9. ^ D. Día. Captura más fácil: no seas otro pez en la red oscura. Universidad Wake Forest: Charlas TEDx . Archivado desde el original el 13 de noviembre de 2021.
  10. ^ "Aclarar la confusión: Web profunda frente a Web oscura". Planeta brillante. 27 de marzo de 2014.
  11. ^ Salomón, Jane (6 de mayo de 2015). "La Web profunda versus la Web oscura" . Consultado el 26 de mayo de 2015 .
  12. ^ Personal de NPR (25 de mayo de 2014). "Going Dark: Internet detrás de Internet" . Consultado el 29 de mayo de 2015 .
  13. ^ Greenberg, Andy (19 de noviembre de 2014). "Hacker Lexicon: ¿Qué es la Dark Web?" . Consultado el 6 de junio de 2015 .
  14. ^ "El impacto de la Dark Web en la gobernanza de Internet y la ciberseguridad" (PDF) . 20 de enero de 2014. Archivado desde el original (PDF) el 16 de enero de 2017 . Consultado el 15 de enero de 2017 .
  15. ^ Lam, Kwok-Yan; Chi, Chi-Hung; Qing, Sihan (23 de noviembre de 2016). Seguridad de la información y las comunicaciones: 18.ª Conferencia Internacional, ICICS 2016, Singapur, Singapur, 29 de noviembre - 2 de diciembre de 2016, Actas. Saltador. ISBN 9783319500119. Consultado el 15 de enero de 2017 .
  16. ^ "La Web profunda versus la Web oscura | Blog de Dictionary.com". Blog del diccionario. 6 de mayo de 2015 . Consultado el 15 de enero de 2017 .
  17. ^ Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser (1 de enero de 2017). Investigación de inteligencia de código abierto: de la estrategia a la implementación. Saltador. ISBN 9783319476711. Consultado el 15 de enero de 2017 .
  18. ^ "¿Qué es la web oscura y quién la usa?". El globo y el correo . Consultado el 15 de enero de 2017 .
  19. ^ ab Bergman, Michael K (agosto de 2001). "La Deep Web: sacar a la luz el valor oculto". La Revista de Publicación Electrónica . 7 (1). doi : 10.3998/3336451.0007.104 .
  20. ^ García, Frank (enero de 1996). "Negocios y Marketing en Internet". Cabecera . 15 (1). Archivado desde el original el 5 de diciembre de 1996 . Consultado el 24 de febrero de 2009 .
  21. ^ @1 comenzó con 5,7 terabytes de contenido, que se estima es 30 veces el tamaño de la naciente World Wide Web; PLS fue adquirida por AOL en 1998 y @1 fue abandonada. "PLS presenta AT1, el primer servicio de búsqueda en Internet de 'segunda generación'" (Presione soltar). Software de biblioteca personal. Diciembre de 1996. Archivado desde el original el 21 de octubre de 1997 . Consultado el 24 de febrero de 2009 .
  22. ^ Campo, R.; Nottingham, M.; Reschke, J. (2014). Campo, R.; Nottingham, M.; Reschke, J. (eds.). "Protocolo de transferencia de hipertexto (HTTP/1.1): almacenamiento en caché". Grupo de Trabajo de Ingeniería de Internet . doi : 10.17487/RFC7234 . Consultado el 30 de julio de 2014 .
  23. ^ Especial: buscar
  24. ^ "Búsqueda de archivos en Internet".
  25. ^ Wiener-Bronner, Danielle (10 de junio de 2015). "La NASA está indexando la 'Deep Web' para mostrarle a la humanidad lo que Google no hará". Fusión. Archivado desde el original el 30 de junio de 2015 . Consultado el 27 de junio de 2015 . Ya hay otras versiones más simples de Memex disponibles. "Si alguna vez ha utilizado Wayback Machine de Internet Archive", que le brinda versiones anteriores de un sitio web a las que no se puede acceder a través de Google, entonces técnicamente ha buscado en la Deep Web, dijo Chris Mattmann .
  26. ^ Wright, Alex (22 de febrero de 2009). "Explorando una 'Web profunda' que Google no puede comprender". Los New York Times . Consultado el 23 de febrero de 2009 .
  27. ^ "Preguntas frecuentes de Intute, enlace inactivo" . Consultado el 13 de octubre de 2012 .
  28. ^ "Elsevier retirará el motor de búsqueda de divulgación científica". biblioteca.bldrdoc.gov . Diciembre de 2013. Archivado desde el original el 23 de junio de 2015 . Consultado el 22 de junio de 2015 . A finales de enero de 2014, Elsevier dejará de fabricar Scirus, su motor de búsqueda científica gratuito. Scirus ha sido una herramienta de investigación de amplio alcance, con más de 575 millones de elementos indexados para búsqueda, incluidas páginas web, artículos preimpresos, patentes y repositorios.
  29. ^ Sriram Raghavan; García-Molina, Héctor (2000). "Rastreando la Web oculta" (PDF) . Informe técnico de las bibliotecas digitales de Stanford. Archivado desde el original (PDF) el 8 de mayo de 2018 . Consultado el 27 de diciembre de 2008 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  30. ^ Raghavan, Sriram; García-Molina, Héctor (2001). "Rastreando la Web oculta" (PDF) . Actas de la 27ª Conferencia Internacional sobre Bases de Datos Muy Grandes (VLDB) . págs. 129–38.
  31. ^ Alexandros, Ntoulas; Zerfos, Petros; Cho, Junghoo (2005). "Descarga de contenido web oculto" (PDF) . Ciencias de la Computación de UCLA . Consultado el 24 de febrero de 2009 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  32. ^ Shestakov, Denis; Bhowmick, Sourav S.; Lim, Ee-Peng (2005). "DEQUE: Consultando la Deep Web" (PDF) . Ingeniería de datos y conocimiento . 52 (3): 273–311. doi :10.1016/S0169-023X(04)00107-7.
  33. ^ Barbosa, Luciano; Freire, Juliana (2007). "Un rastreador adaptable para localizar puntos de entrada web ocultos" (PDF) . Conferencia WWW 2007. Archivado desde el original (PDF) el 5 de junio de 2011 . Consultado el 20 de marzo de 2009 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  34. ^ Barbosa, Luciano; Freire, Juliana (2005). "Búsqueda de bases de datos web ocultas" (PDF) . WebDB 2005. Archivado desde el original (PDF) el 5 de junio de 2011 . Consultado el 20 de marzo de 2009 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  35. ^ Madhavan, Jayant; Ko, David; Kot, Łucja; Ganapathy, Vignesh; Rasmussen, Alex; Halevy, Alon (2008). "Rastreo de la Web profunda de Google" (PDF) . Dotación VLDB, ACM. Archivado desde el original (PDF) el 16 de septiembre de 2012 . Consultado el 17 de abril de 2009 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  36. ^ Aarón, Swartz. «En defensa del anonimato» . Consultado el 4 de febrero de 2014 .

Otras lecturas

enlaces externos

Medios relacionados con la Deep Web en Wikimedia Commons