Recuperación De Información: Características, Aplicaciones, Tipos

La recuperación de información (RI) es la actividad de obtener recursos de sistemas de información relevantes para una necesidad de información a partir de una colección de recursos de información. Las búsquedas pueden basarse en texto completo u otro tipo de indexación basada en el contenido. La recuperación de información es la ciencia de la búsqueda de información en un documento, de la búsqueda de documentos en sí mismos, y también de la búsqueda de metadatos que describan datos, y de bases de datos de textos, imágenes o sonidos.

recuperación de información

Se utilizan sistemas de recuperación de información para reducir lo que se ha denominado sobrecarga de información. Un sistema IR es un software que proporciona acceso a libros, revistas y otros documentos, los almacena y gestiona el documento. Los motores de búsqueda web son las aplicaciones IR más visibles.

Características

  • Un proceso de recuperación de información comienza cuando un usuario introduce una consulta en el sistema.
  • Las consultas son declaraciones formales de las necesidades de información, por ejemplo, cadenas de búsqueda en los motores de búsqueda web.
  • En la recuperación de información, una consulta no identifica un solo objeto en la colección.
  • En su lugar, varios objetos pueden coincidir con la consulta, quizás con diferentes grados de relevancia.
  • Un objeto es una entidad que está representada por información en una colección de contenido o base de datos.
  • Las consultas de los usuarios se comparan con la información de la base de datos.
  • Sin embargo, a diferencia de las consultas SQL clásicas de una base de datos, en la recuperación de información los resultados devueltos pueden o no coincidir con la consulta, por lo que los resultados suelen clasificarse.
  • Este ranking de resultados es una diferencia clave de la búsqueda de recuperación de información en comparación con la búsqueda en bases de datos.

Aplicaciones Importantes

la recuperación de información

Dependiendo de la aplicación, los objetos de datos pueden ser, por ejemplo, documentos de texto, imágenes, fotografías, audio, mapas mentales, canales de comunicación, revistas, periódicos o vídeos. A menudo, los documentos en sí no se guardan o almacenan directamente en el sistema IR, sino que se representan en el sistema mediante sustitutos o metadatos.

La mayoría de los sistemas IR calculan una puntuación numérica sobre el grado en que cada objeto de la base de datos coincide con la consulta y clasifican los objetos según este valor. A continuación, se muestran al usuario los objetos de la clasificación superior. El proceso puede ser iterado si el usuario desea refinar la consulta.

La idea de usar computadoras para buscar información relevante fue popularizada en el artículo As We May Think de Vannevar Bush en 1945.

Parece que Bush se inspiró en las patentes de una “máquina estadística” – presentada por Emanuel Goldberg en las décadas de 1920 y 1930 – que buscaba documentos almacenados en películas.

La primera descripción de una computadora que buscaba información fue descrita por Holmstrom en 1948, en la que se detallaba una mención temprana de la computadora Univoca.

Los sistemas automatizados de recuperación de información se introdujeron en la década de 1950:

  • Uno de ellos incluso apareció en la comedia romántica de 1957, Desk Set.
  • En la década de 1960, el primer gran grupo de investigación de recuperación de información fue formado por Gerard Salton en Cornell.
  • En la década de 1970 se había demostrado que varias técnicas de recuperación diferentes funcionaban bien en pequeños corpus de texto como la colección Cranfield (varios miles de documentos).
  • Los sistemas de recuperación a gran escala, como el sistema Lockheed Dialogo, comenzaron a utilizarse a principios de la década de 1970.
  • En 1992, el Departamento de Defensa de los Estados Unidos, junto con el Instituto Nacional de Estándares y Tecnología (NIST), copatrocinó la Conferencia de Recuperación de Textos (TREC) como parte del programa de textos TIPSTER.
  • El objetivo era examinar la comunidad de recuperación de información mediante el suministro de la infraestructura necesaria para la evaluación de las metodologías de recuperación de textos en una colección de textos muy amplia.
  • Esto catalizó la investigación de métodos que se escalan a grandes corporaciones.
  • La introducción de los motores de búsqueda en la web ha aumentado aún más la necesidad de sistemas de recuperación a gran escala.

Tipos de modelos

Categorización de modelos IR

  • Para la recuperación efectiva de documentos relevantes mediante estrategias de RI, los documentos se transforman típicamente en una representación adecuada.
  • Cada estrategia de recuperación incorpora un modelo específico para sus propósitos de representación de documentos.
  • La imagen a la derecha ilustra la relación de algunos modelos comunes.

En la imagen, los modelos se clasifican según dos dimensiones: la base matemática y las propiedades del modelo.

recuperación de información

Primera dimensión: base matemática

Los modelos teóricos representan documentos como conjuntos de palabras o frases. Las similitudes se derivan generalmente de las operaciones teóricas de los lances. Los modelos comunes son:

  • Modelo booleano estándar
  • Modelo booleano extendido
  • Recuperación difusa

Los modelos algebraicos representan documentos y consultas generalmente como vectores, matrices o tuplas. La similitud entre el vector de consulta y el vector de documento se representa como un valor escalar.

  • Modelo espacial vectorial
  • Modelo espacial vectorial generalizado
  • Modelo (mejorado) de espacio vectorial basado en temas
  • Modelo booleano extendido
  • Indización semántica latente (también conocida como análisis semántico latente)

Los modelos probabilísticos tratan el proceso de recuperación de documentos como una inferencia probabilística. Las similitudes se calculan como probabilidades de que un documento sea relevante para una consulta determinada. Los teoremas probabilísticos como el teorema de Bayes se utilizan a menudo en estos modelos.

Modelo de independencia binaria

Modelo probabilístico de relevancia en el que se basa la función de relevancia de okapi (BM25)

  • Incierta inferencia
  • Modelos de lenguaje
  • Modelo de divergencia-de-aleatoriedad
  • Latente Dirichlet asignación

Los modelos de recuperación basados en características ven los documentos como vectores de los valores de las funciones de las características (o sólo características) y buscan la mejor manera de combinar estas características en una única puntuación de relevancia, normalmente aprendiendo a clasificar los métodos.

  • Las funciones de la característica son funciones arbitrarias del documento y de la consulta, y como tal pueden incorporar fácilmente casi cualquier otro modelo de recuperación como apenas otra característica.

Segunda dimensión: propiedades del modelo

Los modelos sin interdependencias de términos tratan diferentes términos/palabras como independientes. Este hecho es usualmente representado en los modelos vectoriales espaciales por la suposición de ortogonalidad de los vectores a término o en los modelos probabilísticos por una suposición de independencia para las variables a término.

  • Los modelos con interdependencias de términos inmanentes permiten una representación de las interdependencias entre términos.
  • Sin embargo, el grado de interdependencia entre dos términos está definido por el propio modelo.
  • Por lo general, se deriva directa o indirectamente (por ejemplo, por reducción dimensional) de la co-ocurrencia de esos términos en el conjunto de documentos.
  • Los modelos con interdependencias de términos trascendentes permiten una representación de las interdependencias entre términos, pero no alegan cómo se define la interdependencia entre dos términos.
  • Ellos dependen de una fuente externa para el grado de interdependencia entre dos términos. (Por ejemplo, un humano o algoritmos sofisticados.)

Medidas de rendimiento y corrección

La evaluación de un sistema de recuperación de información” es el proceso de evaluar en qué medida un sistema satisface las necesidades de información de sus usuarios. En general, la medición considera una colección de documentos a buscar y una consulta de búsqueda.

  • Las métricas de evaluación tradicionales, diseñadas para la recuperación booleana o la recuperación top-k, incluyen precisión y recuperación.
  • Todas las medidas asumen una noción de la verdad básica de la relevancia: se sabe que cada documento es relevante o no relevante para una consulta en particular.
  • En la práctica, las preguntas pueden estar mal planteadas y puede haber diferentes matices de relevancia.

Referencias

 Jansen, B. J. y Rieh, S. (2010) The Seventeen Theoretical Constructs of Information Searching and Information Retrieval. Journal of the American Society for Information Sciences and Technology. 61(8), 1517-1534.

 Goodrum, Abby A. (2000). “Recuperación de Información de Imágenes: An Overview of Current Research”. Informando a la Ciencia. 3 (2).

 Foote, Jonathan (1999). “Una visión general de la recuperación de información de audio”. Sistemas Multimedia. Springer.

 Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Recuperación de información en mapas mentales – ¿Para qué podría ser bueno? Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom’09). Washington, DC: IEEE.

 Frakes, William B.; Baeza-Yates, Ricardo (1992). Estructuras y algoritmos de recuperación de datos de información. Prentice-Hall, Inc. ISBN 0-13-463837-9. Archivado del original en 2013-09-28.

 Singhal, Amit (2001). “Recuperación de información moderna: Un breve resumen” (PDF). Boletín del Comité Técnico de Ingeniería de Datos de la IEEE Computer Society. 24 (4): 35–43.

Compartir es sinónimo de bondad. Sé bondadoso

TAMBIEN PODRIA GUSTARTE

Licda. En Comunicación Social, mención Comunicación y Desarrollo con 16 años en el ejercicio del periodismo, ahora Redactora Web Maracay- Venezuela

Deja un comentario