GRUPO DE TRABAJO |
GRUPOS DE TRABAJO |
DE COMUNICACIONES |
La Red profunda. Lo que los buscadores convencionales no encuentran Idoia Salazar García
Cuando se quiere encontrar un
dato entre los más de 8,5 millones de sitios web disponibles en Internet, lo
normal es acudir a buscadores del estilo de Altavista o Google, pero estas
populares herramientas pasan por alto una importante parte de la Red que
contiene entre 400 y 550 veces más información. En 1994, la doctora Jill
Ellsworth, especializada en el estudio de la Red, acuñó el término 'Internet
invisible' para referirse a la información que no podían encontrar los
buscadores más comunes por razones técnicas o simplemente por conveniencia. En
2000, un estudio de la consultora estadounidense BrightPlanet, elaborado por
Michael Bergman, confirmaba y explicaba la existencia de una Red profunda, que
tendría aproximadamente 7.500 terabytes (equivalente a 7.500 billones de bytes)
de información frente a los 19 de la superficial o parte de la Red accesible
mediante los buscadores convencionales. Estas cifras suponían superar
entre 400 y 550 veces el volumen de información en el que un usuario que
solamente utilizase, por poner un ejemplo, Google o Altavista era capaz de
buscar. Catálogos de bibliotecas, bases de datos, revistas electrónicas y
archivos de documentos que no pueden ser indexados por su formato componen este
mar de información desconocido por la mayoría de los usuarios que se limitan a
usar las herramientas de búsqueda más comunes. Esta supuesta invisibilidad de
ciertos sitios de Internet es fruto de la tecnología actual que utilizan los
motores de búsqueda. Esto no significa que sea imposible acceder a estos
documentos si se utiliza una tecnología más avanzada. Conocer el funcionamiento de
los motores de búsqueda es vital para comprender el porqué de la existencia de
la Red profunda. Google, Altavista o cualquier otro motor son esencialmente
enormes bases de datos que contienen el texto completo de páginas web. Cuando
un usuario utiliza un buscador, no está buscando en toda la World Wide Web,
sino en la base de datos específica del motor. Esto permite que se obtengan
rápidos resultados, hecho que no sería posible si cada vez que se realiza una
consulta se tuvieran que rastrear en tiempo real los millones y millones de
documentos que se encuentran disponibles en la web. A la hora de crear estas bases
de datos, los motores de búsqueda, con una periodicidad normalmente mensual,
utilizan las llamadas arañas o robots inteligentes que saltan de una web a otra
a través de los enlaces de hipertexto registrando la información allí
disponible. Si una web no tiene enlaces,
la única forma que tiene de ser registrada en un buscador es que su autor la
incluya manualmente rellenando un formulario. En caso contrario, esta web
resultara invisible para todos aquellos usuarios de Internet que no conozcan la
URL o dirección web concreta. Sin embargo, el que una página carezca de enlaces
no es la única causa que puede llevar a una web a permanecer en las
profundidades. Los buscadores suelen indexar páginas estáticas que incluyen
textos simples y que están programadas en HTML, el lenguaje de programación más
común con el que están escritos los sitios web. Ésta es la información que, sin
ninguna duda, un usuario encontraría en la Red superficial utilizando los
buscadores más comunes, el resto pasa a formar parte de la Red profunda. Actualmente, la posibilidad de
buscar e indexar cierto tipo de archivos no textuales, como imágenes, audio,
vídeo, archivos PDF o Postscript, programas ejecutables o archivos comprimidos,
se ha convertido en un reto para los motores de búsqueda más generales.
Técnicamente la mayoría de estos formatos pueden ser indexados, pero los
motores eligen no hacerlo por razones de negocio. En primer lugar, hay mucha
menos demanda de este tipo de formatos que de textos HTML y, además, estos
formatos son más difíciles de archivar y organizar, por lo que requieren
mayores recursos del servidor. Estos archivos no suponen una parte muy grande
de la Red profunda, sin embargo, se va extendiendo rápidamente su uso a medida
que pasa el tiempo, principalmente para documentos de alta calidad,
concernientes a los Gobiernos o alguna otra autoridad. A pesar de estos
inconvenientes, la demanda se está imponiendo y algunos motores de búsqueda
como Google o Altavista ya están incorporando entre sus opciones la posibilidad
de buscar imágenes o archivos PDF. En realidad, el mayor reto al
que se enfrentan los motores de búsqueda recae en el acceso a la información
que se encuentra en las bases de datos, que conforman la mayor parte de la Red
profunda. El problema radica en que cada
una de las bases de datos es única en diseño, estructura, herramientas y método
de búsqueda. Sólo presentan dinamismo en respuesta a una pregunta directa, cosa
que hasta el momento sólo es capaz de hacer el propio usuario y en ningún caso
los programas araña que usan los buscadores en sus tareas de catalogación. Si
el usuario pretende realizar una búsqueda en ellas, debe usar las propias
herramientas que la base de datos ofrece y que, al estar creadas
específicamente para este propósito, proporcionarán los mejores resultados. El inconveniente está en que
es necesario encontrar la base de datos en primer lugar, tarea en la que a
veces los motores de búsqueda ayudan y otras no. Hay diferentes tipos de bases
de datos a los que se puede acceder a través de la Red. Sin embargo, se debe
tener en cuenta que el hecho de que los documentos web estén almacenados en una
base de datos no los hace automáticamente parte de la Red profunda. A veces se
usan simplemente porque permiten un mantenimiento más fácil del sitio. La Red profunda abre un
sinnúmero de nuevas posibilidades. Su supuesta invisibilidad depende del
conocimiento de su existencia y de no conformarnos con los recursos
convencionales que nos brinda Internet. El hecho de que Yahoo o Terra no
encuentren el dato que buscamos no significa que no esté en la Red. Tan sólo
hay que sumergirse algo más para comprobar si ese dato está en la telaraña
mundial o es que simplemente es invisible a los ojos de ciertos buscadores. Recursos
para llegar a los datos 'invisibles' La Red invisible no es tal,
tan sólo hay que saber dónde buscar. Los sitios web que aparecen a continuación
permiten un acceso fácil y directo a la Red profunda. The invisible web: Tiene catalogadas más de
10.000 bases de datos, además de buscadores y archivos de todo tipo. Ofrece
descripciones completas de cada una de las bases de datos catalogadas. Complete Planet: www.completeplanet.com Este sitio permite buscar en
30.000 bases de datos de la Red profunda. Ofrece la posibilidad de realizar
varias búsquedas simultáneas. Invisible web directory: www.invisible-web.net Sitio web elaborado por Chris
Sherman y Gary Price, autores del libro The invisible web, en el que ofrecen un
directorio temático de las principales bases de datos disponibles en la Red
profunda. Internet invisible: www.internetinvisible.com Esta web en castellano ofrece
acceso temático a 2.350 bases de datos. Incluye una guía de recursos
profesionales, clasificados por titulaciones universitarias. BigHub: www.thebighub.com Permite al usuario el acceso a 1.500 bases de datos especializadas. Además ofrece la posibilidad de buscar en múltiples motores de búsqueda y directorios de forma simultánea. Infomine: http://infomine.ucr.edu Contiene
una base de datos con múltiples opciones que permite al usuario la búsqueda por
temas. Está específicamente diseñada para estudiantes universitarios. Lexibot de BrightPlanet: www.lexibot.com/index.asp Este es un servicios de pago
que permite la búsqueda en más de 4.300 bases de datos. Filtra, clasifica y
organiza los resultados obtenidos. Bibliografía: Bright Planet (2000): The Deep Web: Surfacing Hidden Value
(accesible en: http://128.121.227.57/download/deepwebwhitepaper.pdf).
University at Albany Libraries - The
Deep Web: http://library.albany.edu/internet/deepweb.html
The Search Engine Report - Invisible
Web Gets Deeper http://searchenginewatch.com/sereport/00/08-deepweb.html
Searching the Invisible Web: http://www.virtualchase.com/tvcalert/feb02/5feb02.html#quigo
|