sábado, 4 de mayo de 2013


¿Cómo se define la recuperación de la información?
Proceso donde se accede a una información previamente almacenada, mediante herramientas informáticas que permiten establecer ecuaciones de búsqueda específicas. Dicha información ha debido de ser estructura previamente a su almacenamiento.


Características
El proceso de recuperación se lleva a cabo mediante consultas a la base de datos donde se almacena la información estructurada, mediante un lenguaje de adecuado. Es necesario tener en cuenta los elementos clave que permiten hacer la búsqueda, determinando, como los índices, palabras clave, y los fenómenos que se pueden dar en el proceso como son el ruido y silencio documental, que explicaré a continuación. Uno de los problemas que surgen en la búsqueda de información es si lo que recuperamos es "mucho o poco".

Silencio documental: Son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.

Ruido documental: Son aquellos documentos recuperados por el sistema pero que no son relevantes. Esto suele ocurrir cuando la estrategia de búsqueda se ha definido demasiado genérica.

Técnicas de recuperación de información

Sistemas de recuperación de lógica difusa
Esta técnica permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes, dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso.

Técnicas de ponderación de términos
Pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contengan el documento y la frecuencia con que se repita.

Técnica de clustering
Es un modelo que permite las ver las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.

Técnicas de retroalimentación por relevancia
Esta técnica pretende obtener el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. La idea es que, tras determinar unos criterios de búsqueda y observar los documentos recuperados, se vuelva a repetir nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados.

Técnicas de stemming
La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello busca solo por la raíz, evitando ambigüedades léxicas y semánticas.

Calidad de la recuperación
A continuación voy a presentar unos criterios básicos para que la recuperación llevada a cabo sea de calidad:

Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer “ecuaciones” de búsqueda sobre términos admitidos.

Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección.

Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.

Relevancia: Característica de un documento recuperado que cumple con la necesidades de información.

Precisión: Son aquellos documentos relevantes recuperados.

Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección.

Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados.

Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados.

Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección.

                                                                   Cristian Knelleken Barroso 04/05/2013

No hay comentarios:

Publicar un comentario