Proceso
donde se accede a una información previamente almacenada, mediante herramientas
informáticas que permiten establecer ecuaciones de búsqueda específicas. Dicha
información ha debido de ser estructura previamente a su almacenamiento.
Características
El proceso de recuperación se lleva a cabo
mediante consultas a la base de datos donde se almacena la información
estructurada, mediante un lenguaje de adecuado. Es necesario tener en cuenta
los elementos clave que permiten hacer la búsqueda, determinando, como los índices,
palabras clave, y los fenómenos que se pueden dar en el proceso como son el
ruido y silencio documental, que explicaré a continuación. Uno de los problemas
que surgen en la búsqueda de información es si lo que recuperamos es
"mucho o poco".
Silencio documental: Son aquellos documentos almacenados en la base de
datos pero que no han sido recuperados, debido a que la estrategia de búsqueda
ha sido demasiado específica o que las palabras clave utilizadas no son las
adecuadas para definir la búsqueda.
Ruido documental: Son aquellos documentos recuperados por el sistema
pero que no son relevantes. Esto suele ocurrir cuando la estrategia de búsqueda
se ha definido demasiado genérica.
Sistemas de recuperación de lógica difusa
Esta técnica
permite establecer consultas con frases normales, de forma que la máquina al
realizar la búsqueda elimina signos de puntuación, artículos, conjunciones,
plurales, tiempos verbales, palabras comunes, dejando sólo aquellas palabras
que el sistema considera relevantes. La recuperación se basa en proposiciones
lógicas con valores de verdadero y falso.
Técnicas de ponderación de términos
Pretende
darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario.
Los documentos recuperados se encuentran en función del valor obtenido en la
ponderación. El valor depende de los términos pertinentes que contengan el
documento y la frecuencia con que se repita.
Técnica de clustering
Es un modelo
que permite las ver las frecuencias de los términos de búsqueda en los documentos
recuperados. Se atribuyen unos valores que actúan como agentes para agrupar los
documentos por orden de importancia, mediante algoritmos ranking.
Técnicas de retroalimentación por relevancia

Técnicas de stemming
La técnica
de Stemming lo que pretende es eliminar las posibles confusiones semánticas que
se puedan dar en la búsqueda de un concepto, para ello busca solo por la raíz,
evitando ambigüedades léxicas y semánticas.
A continuación voy a presentar unos
criterios básicos para que la recuperación llevada a cabo sea de calidad:
Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de
clasificación con el lenguaje de búsqueda, permitiendo de esta manera
establecer “ecuaciones” de búsqueda sobre términos admitidos.
Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de
los documentos relevantes que posee una colección.
Pertinencia: Es
la cualidad que tiene el documento recuperado de adaptarse a las necesidades de
información.
Relevancia:
Característica de un documento recuperado que cumple con la necesidades de
información.
Precisión: Son
aquellos documentos relevantes recuperados.
Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes
recuperados, sobre el número total de documentos relevantes de la colección.
Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes
recuperados, sobre el número total de documentos recuperados.
Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes
recuperados, sobre el número total de documentos recuperados.
Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados,
sobre el número total de documentos de la colección.
Cristian Knelleken Barroso 04/05/2013
No hay comentarios:
Publicar un comentario