NECESIDAD DE LA EVALUACIÓN

 

 

Internet, es la red de redes, que alberga en sus servidores millones de documentos de información. Varias de las técnicas de almacenamiento y recuperación de información que se utilizan en los SRI tradicionales se han heredado de Internet. La mayoría de los sistemas de búsqueda en Internet utilizan el Modelo de Espacio Vectorial para el almacenamiento de los documentos.

Este modelo fue desarrollado por Gerald Salton y se utiliza tanto para indizar documentos como para resolver las consultas. Se basa en la frecuencia de aparición de los términos.

El modelo de espacio vectorial, muy utilizado en matemáticas, consiste en que las distancias y las direcciones entre palabras y frases extraídas del texto se miden en un espacio multidimensional. Cada documento o consulta se representa con un vector en un espacio n-vectorial. Esta dimensión viene determinada por el número de términos únicos en el cuerpo del documento. Las palabras significativas se eliminan del vector y se incluyen en un listado de palabras vacías para reducir el porcentaje de palabras con mayor frecuencia de aparición. Después, se asignan pesos a los términos para indicar el grado de importancia en la representatividad del documento. Lo corriente es asumir que la importancia de un término es proporcional al número de documentos en los que aparece ese término. Por último, se aplica el coeficiente de similaridad, esto es, los vectores de dos documentos se encontrarán más cercanos si tienen más términos en común.

En los últimos años, y debido al aumento exponencial de páginas Web, se ha convertido en una odisea recuperar y organizar la gran cantidad de información existente en Internet  que se ha convertido en una de las principales fuentes de información de esta sociedad.

La manera de obtener la información deseada de una manera eficiente y sencilla en la red es un aspecto crítico y la forma más común de encontrar información es a través de los denominados buscadores Web.

 

Volver