WEB INVISIBLE

 

 

La "web visible" es lo que se ve en las páginas resultantes de los motores de búsqueda generales de la web. Es también lo que se ve en casi todos los directorios de temas. La "web invisible" es lo que no se puede recuperar ("ver") en los resultados de búsqueda y otros links contenidos en estos tipos de herramientas.

Sherman y Price (2001a) identifican cuatro tipos de contenidos invisibles en la Web:

  1. La web opaca (the opaque web): Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

• Extensión de la indización por economía no todas las paginas de un sitio son indizadas en los buscadores.

• Frecuencia de la in dización los motores de búsqueda no tienen la capacidad de indizar todas las paginas existentes; diariamente se anulan, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.

• Numero máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran numero de resultados, generalmente limitan el nº de documentos que se muestran (entre 200 y 1000 documentos).

• URL's desconectados: las generaciones mas recientes de buscadores, como Google, presentan los documentos por relevancia basada e n el nº de veces que aparecen referenciados o ligados en otros.

 

  1. La web privada (the private web): Consiste en las páginas Web que podrían estar indizada s en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:
  • Las paginas están protegidas por contraseña (passwords).
  • Contienen un archivo “robots.txt” para evitar ser indizadas.
  • Contienen un campo “noindex” para evitar que el b uscador indice la parte correspondiente al cuerpo de la pagina .

 

•  La web propietaria (the proprietary web)

Incluye aquellas paginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contie ne información de acceso pago y gratuito (Turner, 2003)

•  La web realmente invisible (the truly invisible web)

Se compone de paginas que no pueden ser indizadas por limitaciones típicas de los buscadores, como las siguientes:

• Páginas Web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

• Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.

• Información al macenada en bases de datos relacionales, que no puede ser extraer a menos que se realice una petición . Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como los diferentes procedimientos de búsqueda

 

Volver