Extracción De Información: Historia, Significado Actual, Aplicaciones

La extracción de información (EI) es la tarea de extraer automáticamente información estructurada de documentos legibles por máquina no estructurados y/o semi-estructurados. En la mayoría de los casos, esta actividad se refiere al procesamiento de textos en lenguaje humano por medio del procesamiento del lenguaje natural (PNL). Las actividades recientes en el procesamiento de documentos multimedia, como la anotación automática y la extracción de contenido de imágenes/audio/vídeo, podrían considerarse como extracción de información.

extracción de información

Debido a la dificultad del problema, los enfoques actuales de la eI se centran en dominios estrechamente restringidos. Un ejemplo es la extracción de los informes de noticias de las fusiones de empresas, tal como se indica en la relación formal:

Difunde la palabra

De una frase de noticias en línea como:

“Ayer, Foo Inc., con sede en Nueva York, anunció la adquisición de Bar Corp.”

  • Un objetivo amplio de EI es permitir que la computación se haga en los datos previamente no estructurados.
  • Un objetivo más específico es permitir que el razonamiento lógico haga inferencias basadas en el contenido lógico de los datos de entrada.
  • Los datos estructurados son datos semánticamente bien definidos de un dominio de destino elegido, interpretados con respecto a la categoría y el contexto.

La Extracción de Información es la parte de un rompecabezas mayor que aborda el problema de la concepción de métodos automáticos para la gestión de textos, más allá de la  transmisión, almacenamiento y visualización.

La disciplina de recuperación de información (IR), ha desarrollado métodos automáticos, típicamente de sabor estadístico, para indexar grandes colecciones de documentos y clasificarlos.

Otro enfoque complementario es el del procesamiento del lenguaje natural (PNL), que ha resuelto el problema de la modelización del procesamiento del lenguaje humano con un éxito considerable si se tiene en cuenta la magnitud de la tarea.

En términos tanto de dificultad como de énfasis, el EI se ocupa de tareas entre el RI y la PNL. En términos de entrada, IE asume la existencia de un conjunto de documentos en los que cada documento sigue una plantilla, es decir, describe una o más entidades o eventos de una manera similar a los de otros documentos pero diferente en los detalles.

  • Un ejemplo, considere un grupo de artículos de noticias sobre el terrorismo latinoamericano con cada artículo presuntamente basado en uno o más actos terroristas.
  • También definimos para cualquier tarea de EI una plantilla, que es un (o un conjunto de) marco(s) de caso(s) para mantener la información contenida en un solo documento.
  • Para el ejemplo del terrorismo, una plantilla tendría espacios correspondientes al perpetrador, la víctima y el arma del acto terrorista, y la fecha en que ocurrió el evento.
  • Un sistema EI para este problema es necesario para “entender” un artículo de ataque sólo lo suficiente para encontrar datos correspondientes a las ranuras de esta plantilla.

Historia

la extracción de información

La extracción de información se remonta a finales de la década de 1970, en los primeros días de la PNL. Un sistema comercial temprano de mediados de la década de 1980 fue construido por JASPER para Reuters con el objetivo de proporcionar noticias financieras en tiempo real a los operadores financieros.

A partir de 1987, EI fue estimulado por una serie de Conferencias de Entendimiento de Mensajes. La MUC es una conferencia basada en la competencia que se centró en los siguientes ámbitos:

  • MUC-1 (1987), MUC-2 (1989): Mensajes de operaciones navales.
  • MUC-3 (1991), MUC-4 (1992): Terrorismo en los países de América Latina.
  • MUC-5 (1993): Joint ventures y dominio de la microelectrónica.
  • MUC-6 (1995): Artículos de noticias sobre cambios en la gestión.
  • MUC-7 (1998): Informes de lanzamiento de satélites.

La Agencia de Proyectos de Investigación Avanzada de Defensa de Estados Unidos que deseaba automatizar tareas mundanas realizadas por analistas del gobierno, como escanear los periódicos en busca de posibles vínculos con el terrorismo, recibió un apoyo considerable.

Significado actual

La importancia actual de la EI se refiere a la creciente cantidad de acceso a la información disponible en forma no estructurada.

  • Tim Berners-Lee, inventor de la World Wide Web, se refiere a la Internet existente como la red de documentos y aboga por que la mayor parte del contenido esté disponible como una red de datos.
  • Hasta que esto ocurra, la red consiste en gran medida de documentos no estructurados que carecen de metadatos semánticos.
  • El conocimiento contenido en estos documentos puede hacerse más accesible para el procesamiento automático mediante la transformación en forma relacional o el marcado con etiquetas XML.
  • Un agente inteligente que monitorea un flujo de datos de noticias requiere que EI transforme los datos no estructurados en algo con lo que se pueda razonar.
  • Una aplicación típica de (EI) es escanear un conjunto de documentos escritos en un lenguaje natural y rellenar una base de datos con la información extraída.

Tareas y subtareas

La aplicación de la extracción de información al texto está vinculada al problema de la simplificación del texto para crear una visión estructurada de la información presente en el texto libre. El objetivo general es crear un texto más fácilmente legible por máquina para procesar las frases. Las subtareas típicas de IE incluyen:

Extracción de entidades nombradas que podría incluir:

extracción de información

  • Reconocimiento de entidades nombradas: reconocimiento de nombres de entidades conocidas (para personas y organizaciones), nombres de lugares, expresiones temporales y ciertos tipos de expresiones numéricas, empleando el conocimiento existente del dominio o información extraída de otras frases. Normalmente, la tarea de reconocimiento implica la asignación de un identificador único a la entidad extraída.
  • Una tarea más simple es la detección de entidades, que tiene como objetivo detectar entidades sin tener ningún conocimiento existente sobre las instancias de las entidades.
  • Por ejemplo, al procesar la frase “A M. Smith le gusta pescar”, la detección de entidades con nombre denota la detección de que la frase “M. Smith” se refiere a una persona, pero sin tener necesariamente (o utilizar) ningún conocimiento sobre un tal M. Smith que es (o “podría ser”) la persona específica a la que se refiere esa frase.

Resolución de coreferencia

  • Detección de coreferencia y enlaces aafóricos entre entidades de texto.
  • En tareas de IE, esto se restringe típicamente a encontrar vínculos entre entidades nombradas previamente extraídas.
  • Por ejemplo, “International Business Machines” e “IBM” se refieren a la misma entidad del mundo real.
  • Si tomamos las dos frases “Al Sr. Smith le gusta pescar. Pero a él no le gusta andar en bicicleta”, sería beneficioso detectar que “él” se está refiriendo a la persona “M. Smith” previamente detectada.

Extracción de relaciones

  • Identificación de relaciones entre entidades, tales como:
  • PERSONA trabaja para ORGANIZACIÓN (extraído de la frase “Bill trabaja para IBM.”)
  • PERSONA ubicada en LOCALIZACIÓN (extraído de la frase “Bill está en Francia.”)

Extracción de información semi-estructurada que puede referirse a cualquier IE que intente restaurar algún tipo de estructura de información que se haya perdido a través de la publicación, como por ejemplo:

  • Extracción de tablas: búsqueda y extracción de tablas de documentos.

Extracción de comentarios

  • Extracción de comentarios del contenido real del artículo para restablecer el vínculo entre el autor de cada frase
  • Análisis de lenguaje y vocabulario

Extracción de terminología: encontrar los términos relevantes para un corpus dado

Extracción de audio

  • Extracción de música basada en plantillas: encontrar características relevantes en una señal de audio tomada de un repertorio dado; por ejemplo se pueden extraer índices de tiempo de ocurrencias de sonidos percusivos para representar el componente rítmico esencial de una pieza musical.
  • Nótese que esta lista no es exhaustiva y que el significado exacto de las actividades de (EI) no es comúnmente aceptado y que muchos enfoques combinan múltiples sub-tareas de (EI) para lograr un objetivo más amplio.
  • El aprendizaje automático, el análisis estadístico y/o el procesamiento del lenguaje natural se utilizan a menudo en (EI).
  • La IE sobre documentos no textuales se está convirtiendo en un tema cada vez más interesante en la investigación, y la información extraída de documentos multimedia puede ahora expresarse en una estructura de alto nivel como se hace con el texto.
  • Esto naturalmente conduce a la fusión de la información extraída de múltiples tipos de documentos y fuentes.

Aplicaciones World Wide Web

la extracción de la información

  • IE ha sido el foco de las conferencias del MUC. La proliferación de la Web, sin embargo, intensificó la necesidad de desarrollar sistemas de IE que ayuden a la gente a hacer frente a la enorme cantidad de datos que están disponibles en línea.
  • Los sistemas que realizan IE a partir de texto en línea deben cumplir los requisitos de bajo coste, flexibilidad en el desarrollo y fácil adaptación a nuevos dominios.
  • Los sistemas MUC no cumplen con estos criterios. Además, el análisis lingüístico realizado para textos no estructurados no aprovecha las etiquetas HTML/XML ni los formatos de maquetación disponibles en los textos en línea.
  • Como resultado, se han desarrollado enfoques menos intensivos lingüísticamente para IE en la Web utilizando wrappers, que son conjuntos de reglas altamente precisas que extraen el contenido de una página en particular.
  • El desarrollo manual de las envolturas ha demostrado ser una tarea que requiere mucho tiempo y un alto nivel de experiencia. Se han utilizado técnicas de aprendizaje automático, supervisadas o no, para inducir esas normas automáticamente.
  • Por lo general, las envolvedoras manejan colecciones altamente estructuradas de páginas web, como catálogos de productos y directorios telefónicos.
  • Sin embargo, fracasan cuando la clase de texto es menos estructurada, lo que también es común en la Web.
  • El reciente esfuerzo en la extracción de información adaptativa motiva el desarrollo de sistemas de EI que pueden manejar diferentes tipos de texto, desde texto bien estructurado hasta texto casi libre -donde fallan las envolturas comunes- incluyendo tipos mixtos.
  • Estos sistemas pueden explotar los conocimientos superficiales del lenguaje natural y, por lo tanto, también pueden aplicarse a textos menos estructurados.

Un desarrollo reciente es la Extracción de Información Visual, que se basa en renderizar una página web en un navegador y crear reglas basadas en la proximidad de regiones en la página web renderizada. Esto ayuda a extraer entidades de páginas web complejas que pueden mostrar un patrón visual, pero que carecen de un patrón discernible en el código fuente HTML.

Enfoques

Los siguientes enfoques estándar son ampliamente aceptados en la actualidad:

  • Expresiones regulares escritas a mano (o grupo anidado de expresiones regulares)
  • Uso de clasificadores
  • Generativo: ingenuo clasificador Bayes
  • Discriminativo: modelos de entropía máxima como la regresión logística multinomial.
  • Modelos de secuencia
  • Modelo Markov oculto
  • Modelo Markov condicional (MMC) / Modelo Markov de máximaentropía (MEMM)

Los campos aleatorios condicionales (CRF) se utilizan comúnmente junto con IE para tareas tan variadas como la extracción de información de artículos de investigación a la extracción de instrucciones de navegación.

Referencias

 FREITAG, DAYNE. “Machine Learning for Information Extraction in Informal Domains” (PDF). 2000 Kluwer Academic Publishers. Impreso en los Países Bajos.

 Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. “Automatic Extraction of Facts from Press Releases to Generate News Stories”. CiteSeerX 10.1.1.14.7943 De acceso libre.

 “Carnegie Group Inc”.

 Cowie, Jim; Wilks, Yorick. “Extracción de información”. CiteSeerX 10.1.1.1.61.6480 De acceso libre.

 Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008. ISBN 978-1-84564-146-7

 “Datos enlazados – La historia hasta ahora” (PDF).

 “Tim Berners-Lee en la próxima web”.

  1. K. Srihari, W. Li, C. Niu y T. Cornell, “InfoXtract: A Customizable Intermediate Level Information Extraction Engine”, Journal of Natural Language Engineering, Cambridge U. Press, 14(1), 2008, pp.33-69.

 A.Zils, F.Pachet, O.Delerue y F. Gouyon, Automatic Extraction of Drum Tracks from Polyphonic Music Signals, Proceedings of WedelMusic, Darmstadt,

Compartir es sinónimo de bondad. Sé bondadoso

TAMBIEN PODRIA GUSTARTE

Licda. En Comunicación Social, mención Comunicación y Desarrollo con 16 años en el ejercicio del periodismo, ahora Redactora Web Maracay- Venezuela

Deja un comentario