La red invisible

La red invisible

Una gran parte de la información de internet no está al alcance de los buscadores convencionales.

27 Septiembre 2005
El contenido de internet se asemeja a un iceberg. Hay una parte que asoma a la superficie y que es fácilmente accesible a través de los buscadores. Pero existe una web profunda, hasta 500 veces más grande, que escapa de los motores de búsqueda. En ella se encuentra la información de numerosas bases de datos especializadas. Y, a pesar de que los buscadores cada vez son más hábiles a la hora de recuperar todo tipo de documentos, una gran parte de la web sigue siendo invisible a primera vista.
Estos datos fueron revelados en un informe realizado por Nacho López para el sitio español Consumer.es. Según el experto, los buscadores son la puerta de entrada al vasto océano de información que existe en internet. Sin embargo, no todos los contenidos de la red son objeto de una simple búsqueda en los directorios o robots (como sucede en Google, en Yahoo o en Lycos) que rastrean las páginas web automáticamente. Así, la "web invisible" o "web profunda" está formada por todos los documentos a los que no se puede acceder a través de directorios y los enlaces que ofrecen los resultados de los buscadores convencionales.
Todo el ejército de arañas (motores de búsqueda) que recorren internet para fichar su contenido palabra por palabra y relacionarlo con una dirección (URL ) no consigue indexar más que una pequeña parte de toda la red, priorizando el contenido más popular (es decir, los más visitados), comercial o escrito en lenguas mayoritarias. Gracias a los buscadores especializados se cubren estas zonas de sombra, pero siempre dentro de la internet visible. Pero aún queda una gran parte oculta, aquella que contiene según los expertos hasta 500 veces más información que la disponible a través de los buscadores. Esa zona menos accesible de internet está formada por:n El contenido de las bases de datos a las que se puede acceder a través de la red, que almacenan información sólo recuperable a través de búsquedas en la propia base de datos (sin poder acudir a cada registro de manera individual desde un enlace en otra página o un buscador al uso).
n Todo lo que no es texto (archivos multimedia, gráficos, programas, etcétera) o los documentos creados con formatos distintos al lenguaje común en internet (como por ejemplo, los HTML).
Según el informe de Consumer.es, la producción de información aumenta a un ritmo vertiginoso y gran parte de ella se almacena en un formato u otro. "El saber total de la Antigüedad custodiado en la Biblioteca de Alejandría se ha calculado en 0,8 terabytes (un terabyte equivale a un millón de megabytes), y los 20 millones de libros de la Biblioteca del Congreso de Estados Unidos ocuparían (sin contar sus ilustraciones) 20 terabytes", señala el experto español José Antonio Millán. Según los datos del estudio con el que BrightPlanet trató de medir la profundidad de la web, la parte de internet fuera del alcance de los buscadores convencionales contendría cerca de 550.000 millones de documentos (7.500 terabytes de información), frente a los 1.000 millones (19 terabytes) de la web superficial. Aunque la parte accesible de la web ha aumentado sustancialmente desde que se publicó el informe en 2000, también lo ha hecho el área menos visible (a un ritmo mayor, según BrightPlanet), a medida que se crean nuevas bases de datos o crecen y se digitalizan las ya existentes. En 2002 la web profunda sumaba 91.850 terabytes. La gran competencia entre los buscadores ha redundado en el desarrollo de tecnologías más avanzadas, que consiguen escarbar cada vez más en la internet invisible. A través de los buscadores se localizan bases de datos especializadas o se accede a apartados específicos para recuperar noticias, imágenes, mapas y artículos para comprar, a la vez que se aceptan más formatos distintos al HTML.

Por qué es invisible
Existen dos motivos fundamentales que explican por qué el contenido de internet no está incluido en directorios o no es registrado por los motores de búsqueda: las barreras técnicas que impiden el acceso y la elección de los propios buscadores a la hora de excluir algunos tipos de páginas.
Las bases de datos de los buscadores son generadas por robots que navegan por internet escudriñando en el contenido de páginas estáticas, que para ser indexadas deben estar enlazadas desde otras páginas. Si no existe un enlace a una página determinada, el robot no la puede ver. Estas arañas que alimentan las bases de datos tampoco pueden registrar el contenido de las páginas a las que no pueden entrar, o bien porque requieren teclear algo (una palabra de acceso, por ejemplo) o bien porque es preciso elegir entre varias opciones para llegar al contenido. De la incapacidad de los motores de búsqueda para penetrar en ciertas páginas nacen dos tipos de páginas invisibles.
Tanto las bases de datos como los robots de los buscadores están optimizados para manejar HTML, el lenguaje estándar de la web. Algunos buscadores excluyen de sus resultados las páginas que están en otros formatos, bien porque son inusuales, bien porque los usuarios las solicitan con poca frecuencia. Asimismo, las páginas sin texto son omitidas en los buscadores generales, aunque casi todos los importantes han desarrollado un apartado especial para localizar imágenes.

Bucear en las profundidades

La información de la web profunda no es realmente invisible, pues más de la mitad se encuentra en bases de datos especializadas. Lo que ocurre es que al no estar al alcance de los buscadores tradicionales requiere del usuario un esfuerzo adicional para localizarla, o del conocimiento de las herramientas y directorios específicamente creados para bucear en el abismo de la red.
Quizá lo primero que se preguntan muchos usuarios es qué se les ha perdido dentro de la web profunda, especialmente aquellos satisfechos con los resultados ofrecidos por potentes y cada vez más completos buscadores. En cualquier caso, dentro de lo que se conoce como internet invisible o profunda se encuentra todo tipo de contenidos de interés general. A saber:

Toda la información o datos susceptibles de formar parte de una base de datos o directorio, como las guías telefónicas y páginas amarillas, listados de profesionales, anuncios clasificados, definiciones de diccionarios, leyes, patentes, artículos de tiendas o subastas online, etcétera.

La información reciente que cambia de forma dinámica: noticias, ofertas de empleo, ofertas de vuelos u hoteles, información de los mercados (cotizaciones).

Afortunadamente, existen en internet numerosos recursos para localizar lo que la red misma oculta a simple vista.
De entrada, es fácil encontrar bases de datos sobre las que realizar búsquedas después, a través de la mayoría de los directorios generales, cuyo máximo exponente de entre los editados por humanos es el Open Directory Project. Sin embargo, existen otros directorios de especial interés para el ámbito académico como Librarians Index, Academicinfo o Infomine, la gran mayoría en inglés, idioma responsable de un buen porcentaje del contenido de la red.
También se puede utilizar cualquier buscador generalista para localizar bases de datos, simplemente añadiendo "bases de datos" al término deseado. Así, al buscar en Google "bases de datos de medicina" se accede fácilmente a la recopilación de la biblioteca virtual en salud o a la de la Universidad Rey Juan Carlos; o tecleando "bases de datos en español" se puede acceder a los directorios de la UNED o de fisterra.com.
Además, existen directorios especialmente destinados a recuperar información invisible, como The Invisible Web Directory, creado para acompañar al libro "The Invisible Web: Uncovering Information Sources Search Engines Can?t See", uno de cuyos autores es también responsable de Direct Search. También están los buscadores especializados en información científica y bases de datos, como Scirus CompletePlanet, IncyWincy, ProFusion (antes Invisibleweb.com) y, en español, internetinvisible.com.

Tamaño texto
Comentarios